全球计算机领域H-index TOP 10的华人
在清华大学数据科学研究院,有这样一位低调的学者,他在谷歌学术上的H-index高达138,名列全球计算机科学领域高引作者第10位。要知道,著名的计算机科学家、人工智能学术界标志性人物Michael I. Jordan教授的H-Index指数和他也在伯仲之间(根据谷歌学术Michael I. Jordan的H-Index为 137,也有资料表明是138)。
这名低调谦虚而充满睿智的学者就是今天文章的主人公——清华大学数据科学研究院院长、软件学院客座教授俞士纶。
俞士纶,他更为人所熟知的名字可能是Philip S Yu, 下图是他的文章在谷歌学术上的被引用数字统计,从2012年至今,他的研究总共被引用了4万多次。Philip S Yu可谓计算机领域的一座学术高峰。
俞士纶出生在美国,曾就读于台湾大学,而后于1978年在斯坦福大学获得EE博士学位。当下,很多学术界的研究者纷纷流向产业界,而俞士纶教授的职业经历恰恰相反,最开始他在IBM Waston研究中心工作,担任软件工具和技术组的经理。目前他是伊利诺大学芝加哥分校的杰出教授和Wexler主席。
据他的个人主页介绍, 俞士纶教授拥有超过300个美国专利,同时是ACM和IEEE院士。他主要研究领域是数据挖掘,特别是图数据/网络挖掘, 机器学习、社交媒体、保留隐私数据发布、数据流、数据库、互联网应用技术等等。
Top H-Index for Computer Science and Electronics (早先的数据,现在数据有所更新)
俞士纶教授平日非常低调,甚少接触媒体。近日,新智元非常荣幸在清华园对这位顶级科学家进行了专访,与这位在计算机科学领域深耕多年的学者聊起了他对当选人工智能热潮的看法。
话匣子打开,新智元问到,对于普通学者来说,如何才能在学术路上达到俞士纶教授这样的学术高度?
俞士纶说:“其实没有什么特别的,跟其它任何领域一样,就是要有投入、有兴趣、有一点好胜心。任何东西要做出一点成就,首先就是投入,就要花很多时间。如果早上八点上班,下午五点下班,是做不出太多名堂出来的。另外,还要有热情,对于喜欢的东西,加班到再晚也没关系,你希望把事情做的很好,就像乔布斯,每做一个东西要自己喜欢。其实不仅仅是赚钱的问题,做科研也是一样,你做出的东西你自己都要觉得好。还要有一点好胜心,追求满足感和成就感。做的东西有突破,你才愿意花时间上去。哪个行业都是这样。”
如果今天重新选十大算法,要加上深度学习和推荐算法
通过谷歌学术搜索,我们看到俞士纶引用数最高的文章之一是一篇关于数据挖掘的10大顶级算法的综述文章:《Top 10 algorithms in data mining》,介绍了 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes 和 CART一共10个算法,那是2008年发表的。
在深度学习如此火热的今天,如果还要他来推荐10个最有影响力的算法,会有什么不同呢?
俞士纶教授表示,首先肯定要把深度学习放在里面。08年论文发表的时候学术界虽然已经对深度学习有些初步的研究,但是还没有现在这么火。他认为,数据量快速成长和硬件性能提升也促进了深度学习的快速发展。第二个就是协同推荐算法(collaborative filtering),它最早源自电子商务,之后应用越来越广,在很多不同的领域都有协同推荐算法的相关应用,例如医疗等。
根据维基百科介绍:协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。
俞士纶对推荐技术有深入的研究。他认为推荐就像一种分类聚类技术,深度学习也能做推荐。深度学习主要用于找特征,可以根据特征做推荐。推荐有很多应用,可以推荐商品也可以推荐电影、推荐治疗药物,甚至广告也属于推荐问题。推荐技术顶会ACM Conference on recommender systems是他长期关注的一个会。
计算机其实是一个应用领域,我看好医疗、交通等应用领域
或许跟他从产业界回归学术界的经历有关,在采访中,俞士纶教授更愿意从应用的角度看技术。他对新智元说,计算机其实是一个应用领域。我们是因为有这样的应用场景,才会有这些技术的发展。如果没有互联网,我们也不需要做搜索,也就不会有这么多搜索相关的研究。如果没有电子商务,也不需要推荐算法,只需要店员推荐即可。
从应用层面看,俞士纶的研究涉及智能医疗,或者说精准医疗。他最近在KDD上发布论文提出了用深度学习技术辅助诊断大脑疾病的方法。但是他认为智能医疗特别是精准医疗还在起步阶段,他把这也当做是一种推荐技术。除此之外,在人工智能的另一热点领域,城市计算和交通预测中,他和他的研究团队也在近年取得了颇为丰硕的研究成果。
“数据挖掘要找真正的应用场景来做,例如社交网络、资讯的传播。”,俞士纶对新智元说,目前在社交网络这个研究领域中,他更多的兴趣在于Spam(假消息)识别。
他说:“例如大家熟知的大众点评,如果上面有太多假数据,你碰到一次假的可能就再也不想用了。”
在他看来,推荐技术也好,其他预测、识别技术也好,其实都算人工智能,并没有一个明确的分界线说智能到哪个程度才算人工智能技术。这一看法很符合他围绕应用做研究的做法,而不是围绕技术做研究。
关于应用领域,俞士纶非常看好精准医疗。他说:“事实上,今天我们治病的手段是非常粗糙的。例如一个病人要化疗,到底哪种药物对他有效,我们不知道,只能从统计上来说,药A对20%的患者有效,药B有10%的患者有效,药C有5%的患者有效。医生就会从A开始试用,但是实际情况可能是C更适合当前的病人,如果按照传统方式可能还没试到C,病人就撑不住了。”
乳腺癌、肺癌等AI诊断在研究中达到了专家水平,那么精准医疗推荐到了哪一步?
俞士纶说:“中国医院之间的数据没有打通,在美国更困难。还有很多历史数据不一定兼容,但理想的情况是要把所有病人资料合拢。所以,不像电子商务巨头只要数据足够多就可以了。协同推荐是需要足够多的用户,否则就没得推荐了。”
那么。深度学习技术究竟多大程度上适用于医疗?俞士纶认为:“任何技术你不能仅仅从历史经验看。有这么多人在做研究,今天即使不那么适合,过段时间可能有一些新的突破。”
大数据为王,但是挑战在于怎么把数据融合到一起
在人工智能热潮之前,大数据是最最炙手可热的。后来计算能力上来了,其他各方面条件成熟了,人工智能浪潮应声而至。大数据就像人工智能的前奏。
近日新智元发布的文章《【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王》,文章介绍谷歌做的一个巨型实验,他们发现:数据对人工智能的性能有着显著影响。随着数据增长,模型完成计算机视觉任务的性能直线上升。即使在 300 倍 ImageNet 这么大规模的情况下,性能都没有遭遇平台。(多加一天谷歌文章内容共)。AI有了“计算暴力”,现在又新加了“数据暴力”。但是大数据还面临哪些挑战呢?
在俞士纶看来,数据最难的挑战不是不够大,而是——我们有各种五花八门的数据,怎么把他们融到一起。
深度学习可能更强调的是深度,把深层的好东西拖出来。挖掘大数据不仅需要深,还需要广。
我们思考的是当一个问题来的时候,什么数据可以帮助你做的更好?比如说现在要预测车子从清华到王府井要多长时间。你当然可以用历史数据来预测,这仅仅是一种数据。我们有各种各样的数据可以用,例如社交媒体的数据,里面有跟交通有关的内容。例如有人说今天在四环的某个位置发生了车祸,那么你就知道经过四环很可能堵住。
再比如,今天清华有一场游行,或者说路上有一个摆摊大降价,这个就会影响到达到时间。
再例如,我们还可以考虑天气因素,例如,你了解到马上要下暴雨,你从清华到王府井的数据也会受到影响。
所以我们需要了解的是怎么样把这些数据融合到一起。你要是能把这些数据想办法合在一起,你的预测就可以做得更加精准,这就是为什么我们要强调广度学习。
但是大数据的融合并不简单,不同的数据源属性不同,社交网络上有文本的数据,人和人的关系是网络结构的数据,你怎么整合在一起?每一个数据源的精度也不一样,有的数据源是整理过的,很可信的。有的数据有一些噪音要去掉。
找到越多相关数据,精确度可能就做的越好。关键是你要想得到什么数据是可以解决问题的。
谈到数据的来源,俞士纶认为有三个:1. 在企业中可能有些数据是特有的,例如你在腾讯你可以有微信数据、那么在王者荣耀这样的游戏中你可以加入微信的额外数据,你的推荐可能就做的更好。2. 也有公开的数据,你要去爬取搜索;3. 还有数据是可以买到的。
对于大数据对学校研究的冲击,他坦言道,现实的问题是学校本身是缺乏数据的。学校的老师是要跟工业界合作的,例如清华和腾讯的联合实验室,因为腾讯有数据的优势。但是这种方式也有一些问题,所以有的老师干脆跑到工业界。
风水轮流转是技术发展常态,但深度学习远未到高峰
数据挖掘是俞士纶教授的一个重要研究领域,他跟这个方向打了大半辈子交道,火热的深度学习技术给数据挖掘领域是否带来了不一样的进展?
俞士纶认为,深度学习度数据挖掘帮助很大,对于大量数据是最好的方法之一。
深度学习当然很火,虽然它很早被发明出来了。每个技术在不同的情况下被发展出来,但是客观情景会改变。
深度学习发明的时候也不是根据现在情况发明的,只不过时来运转。当数据量越来越大的时候,并不是每个算法都像深度学习这一有可扩展性(scalability),都适合并行计算(parallelism)。只能说现在的客观条件很适合深度学习,可以做出不错的效果。但这并不是它原始目标,可谓无心插柳柳成荫。
新智元曾经发布过一篇文章【NLP反思扛鼎之作】深度学习是经验主义新高峰,不是理性主义终结,翻译自Kenneth Church的《钟摆摆得太远》(A Pendulum Swung Too Far) ,文章认为我们现在到了经验主义的高峰,并且会迅速回落至经典的理性主义。顶级科学家俞士纶是怎么看待这两个技术方向的发展趋势?
俞士纶的回答又大道至简了:“风水轮流转在任何地方会常常发生,包括技术。 ” 某些时候我们对某种方法特别喜欢,但是他可能过一阵子就没那么好用了,那么我们可能又需要把一些基本的经典法则翻出来。
但是俞士纶也表示:“我不认为深度学习会很快失去它的重要性。”
他说:“数据太多了,我们把深度学习用于文本、影像、视频等数据,但是这些解决之后就没东西做了吗?各个领域不断的有新的数据和应用出现。一个特定领域的问题可能解决了,但是在其他地方还有新问题在产生。短期内,深度学习不可能解决现在所有问题。”
他举例道:“例如,深度模型在不同领域、异构数据之间的泛化能力还很弱,我们清华团队在国际上首次开展了深度模型的迁移学习相关方法和理论研究,取得了重要突破。又如,怎样从深度模型中自动生成高质量的文本图像和视频,实现有效的无监督学习仍是人工智能的前沿课题,清华团队在深度贝叶斯网络、深度生成式网络等方面也作出了具有国际影响力的工作。还有更多挑战性的问题,根本谈不上已经开始被研究。”
俞士纶继续说,就像之前说的精准医疗推荐某种病的诊疗方案,但是我们有成千上万的病,所以可以说根本还没开始。
他说,而且大环境在改变,我们要绿色能源,我们要智能化,还会涌现不同的问题。以前火力发电,你有多少需求,就给你发多少电。后来太阳能、风力发电就不是这样,而是看有没有太阳有没有风。智慧电网要有弹性定价,根据供需平衡定价。还有智慧城市、物联网、教育等等。每个领域要产生很多数据,都可以挖掘,有很多的需求,我们还没完全挖掘深度学习的潜力,也远未达到高峰。
从产业界到学术界,从美国伊利诺到中国清华,归来仍是少年
俞士纶从产业界(IBM WASTON)开始自己的职业生涯,然后回归到学术界;而现在不论在中国还是美国更常见的是很多学术界研究者到产业界发展,俞士纶怎么看待当今这一现象呢?
他认为,产业界和学术界互相流通是一个很正常的事情:“计算机领域是应用导向的,脱离实际应用,我们根本连数据都没有。”
他还举例到,谷歌创始人从写Page Rank的论文开始,最后将此项技术在谷歌公司落到实处。Stanford校长约翰·汉尼斯,他甚至出去开过几年公司,然后回到学术界做了校长。有的人喜欢学术界,但是有时候有一些想法想在工业界验证一下,看看是否真的有效,他可能也不是完全投身工业界了,可能三五年又回到学术界。当然也有人留在产业界,还有教授出去创业的,这些并不是不好的现象,反而是好事。
目前俞士纶同时在中美两所学校任职,关于到清华任职,他解释道:“我之前就在清华软件学院做客座教授。我的专长是大数据挖掘。学校要成立大数据科学研究院的时候,自然就考虑到我。我认为这几年中国的技术发展非常快速,大数据本身也是一种颠覆性技术。”
谁说中国论文只有数量没有质量?这十年发展惊人
作为旅美多年的华人科学家,俞士纶认为中国在过去十年来研究水平增进惊人的快。十年前,在一流期刊中,中国的paper不多,现在中国的paper多的不得了。他说:“在计算机领域,中国的论文已经超过整个欧洲的总和。几十年前我们认为日本厉害,现在日本根本不行。”
对于有一些认为中国论文数量高但是质量差的言论,俞士纶并不这样认为,他说,中国一流大学如清华大学,论文质量是一流的。
俞士纶表示不要怀疑:我们中国技术很快起来了,这点绝对没错。特别是计算机领域
,充满了新的技术,大家起步差不多,我们很容易跟上。而且中国现在的研究经费增加了,不像美国研究经费反而在减少。
༻我是麻辣小彩蛋༻
新智元:前段时间LeCun和Yoav关于arXiv的论战,认为arXiv上面不够严谨,经常有人灌水,国内有人提出就把arXiv不当成正式论文,而当成BBS就行了,您怎么看arXiv?
俞士纶:没有什么危害啦。所有东西都可以被滥用啊。我们把arXiv当成一个存储论文的地方。有人对我的最新工作有兴趣就去看。而大家在arXiv也是看有名气的研究者或名校团队的论文,反正灌水的人通常也不会有人去看他,因此没有多大危害。
文章转自新智元公众号,原文链接