CVPR专访阿里iDST华先胜:电商搜索与城市大脑,本质上都是视觉系统问题|CVPR 2017...

    xiaoxiao2021-08-19  207

    雷锋网 AI 科技评论按:在 CVPR 2017 ,雷锋网(公众号:雷锋网) AI 科技评论看到了非常多的工业界人士来到现场。这个计算机视觉领域的学术会议吸引了如此多的企业研究院大牛,他们对工业界与学术界的融合有何看法?又是如何理解自家业务在视觉领域的地位和创新点的?为此,雷锋网 AI 科技评论与阿里 iDST 视觉计算组负责人华先胜在 CVPR 的现场进行了一次交流。

    华先胜,北京大学应用数学博士、IEEE Fellow、ACM 2015 年度杰出科学家、MIT TR 全球 35 位 35 岁以下的杰出青年创新人物,曾担任 ACM Multimedia 等大会程序委员会主席,是视觉识别和搜索领域的国际级权威学者。于 2016 年 7 月加入阿里人工智能研究机构iDST科学家团队,带领视觉计算团队的研发工作。

    华先胜认为,CVPR 这个会议整体上还是非常成功的。计算机视觉领域的研究大多倾向于实用,与工业界的联系也比较紧密,企业参与到学术会议中,实际上也能了解学术研究的整体发展状况。就像 SIGGRAPH 一样,当工业界的参与程度非常高的时候,这个会议也变得越来越红火。「这类会议成功与否的一个重要标准在于,它能不能对工业界产生影响力。如果只是学术圈自己在推进,这个领域可能会变得越来越封闭。」

    雷锋网 AI 科技评论也发现,不论是赞助商日趋增加的 AAAI 2017,或是应用研究开始崭露头角的 ACM 计算经济学会议,与工业界的融合和沟通已经越来越频繁,而尤其是在计算机视觉这个领域,学术界和工业界的界限也变得模糊起来,很多文章可能都是高校与企业研究院一同合作的课题。

    以本次被 CVPR 录用的论文《Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images》为例,第一作者是西南交通大学的博士生程治淇,他在阿里实习期间与视觉计算组负责人华先胜、高级算法专家刘扬及他的导师、西南交通大学的吴晓教授合作完成了这一论文。论文提出了一个名为 AsymNet 的深度神经网络,通过学习衣物序列特征并对其进行编码,能够检测并追踪衣物,用户在观看视频的时候,便可以轻松地选购明星同款服装。

    这一研究自然是着眼于阿里的老本行——电商领域,华先胜最初的工作也一直关注的是像「拍立淘」这样的产品系统。而目前,华先胜作为阿里 iDST 视觉计算组的负责人,目前所负责的城市大脑项目,也同样有着视觉的需求。

    在本次 CVPR 的 workshop 环节,华先胜作为 Target Re-Identification and Multi-Target Multi-Camera Tracking 的特邀演讲嘉宾之一,发表了《Practices of Large-Scale Target Re-Identification》的演讲。

    华先胜告诉雷锋网 AI 科技评论,这一主题和电商的商品搜索及城市大脑项目都有着紧密的联系,因此将阿里整个集团与目标重识别的业务综合地做了一个介绍。搜索(search)的范围相对宽泛一些,只需要找到符合要求的内容,甚至是相似的内容就可以了,比如以图搜图,可能会有很多相近的结果;而重新识别(Re-Identification)则需要精准匹配,比如在整个城市里找到某辆车,目标就非常明确了(只有一个)。不过,商品的搜索与城市大脑项目所涉及到的几个关键步骤是很相似的,本质上也就是做一个视觉搜索系统(visual search system)。「这与拍立淘的系统其实是很像的,只不过关键点的差别是在 feature 上。对于电商而言,要找的就是同一个商品或是相似的商品;而对于城市大脑的话,我们目前要找的主要集中于三种对象:车、人,和骑车的人。」

    阿里从淘宝起家,后来也投身支付宝和菜鸟的业务,但实际上并没有跳脱出电商的本质。目前,城市大脑项目组的推行,则让很多人看到了阿里的另一个野心:云计算。「阿里推行城市大脑项目最关键的地方在于,希望能通过大计算去挖掘大数据背后的价值。」华先胜告诉雷锋网 AI 科技评论,不论是交通或是安全,城市是一个非常大的数据载体,或者说是聚合体。包括视频信号、GPS 信号、微波信号等多种类型的数据每天都在积累,但其中的价值还远远没有充分挖掘出来。「阿里城市大脑中很关键的一个任务就是要解决视觉信号的问题,这实际上是对城市的智能感知。」

    城市在没有摄像头的时候,一开始可以说是处于一个「无感无知」的情况;后来城市里有了摄像头,但缺乏这些数据的分析和研究,这个状态就是所谓的「感而不知」;而在海康威视、大华为代表的公司在摄像端算法上发力,逐渐往「感而略知」发展;如今以阿里等企业牵头所做的城市大脑项目,则是希望做到「感而全知」。

    「全面知、全局知、全时知,」华先胜以这三个词概括了城市大脑的主要特点。全面知指的是除了车和车牌之外,我们可以了解城市中包括人与非机动车的一些情况;全局知指的是整个系统有强大的计算能力,得以从多个方面宏观了解城市的情况;全时知则是实时、及时地把握城市在交通、安全等方面的情况。

    此前华先胜在接受雷锋网采访的时候也提及,自己并不认可企业只关注算法的商业模式,「城市大脑项目的推进得益于强大的计算能力和 AI 技术的发展,阿里在做的其实是一个平台、一个生态,欢迎各个企业也能够加入其中,这样一来,数据的价值也能更好地体现。」

    而在 CVPR 2017 交流期间,华先胜也了解到,比起学术界,工业界能接触到的数据量确实有着质的差距。「我昨天看到一个 poster,用了大概 20 个摄像头、上百个人的数据,就算得上是大数据的研究了(large-scale),但阿里在算法研发中自测数据集基本上是上千个摄像头,上万个人的体量,这个数字在学术界可能是无法想象的。」不过,华先胜也指出了工业界的上线压力和快节奏的特点,这也常常导致很多研究难以做得更加深入,需要学术界的自由度和前瞻性来弥补。

    华先胜也告诉雷锋网 AI 科技评论,他在参会时感受一个明显的需求,就是提升深度学习 inference 的计算效率。不管是 embedded device 上的需求,还是云上大规模计算的场景,如何降低计算成本成为了一个热点。「以阿里巴巴的城市大脑项目为例,需要处理的数据量非常大,从成本的角度出发,对效率也提出了更高的要求。阿里 iDST 同样在做相关的优化工作,也希望从本次 CVPR 上获取一些效率提升的研究灵感。

    此外,阿里这次来到 CVPR 现场,同样有着不小的招人需求。正像雷锋网 AI 科技评论在此前报道中所提及的,本次的赞助商达到了 127 家,总赞助费超过 85.9 万美金。与其他工业界展商一样,阿里一方面是为了介绍自己的研究成果,另一方面也着眼于在人才济济的学术会议上招揽优秀的老师和同学们加入阿里 iDST 。我们也期待,阿里 iDST 在未来能够给我们带来更多的城市大脑应用,将数据的价值体现得淋漓尽致。

    本文作者:奕欣 本文转自雷锋网禁止二次转载,原文链接

    相关资源:七夕情人节表白HTML源码(两款)

    最新回复(0)