> 财经评论 > 谈股论金
宏观 | 金融 | 公司 | 产业 | 财经人物

微软全球副总裁沈向洋:要让“机器人”能讲出图像背后的故事

来源:第一财经网站
  人们都喜欢“看图说话”,而人工智能(AI)的研究者们希望未来计算机能像人类一样识别图片,理解图片背后的故事。但这一领域的顶尖研究者却认为,要达到这个层次,人工智能研究的任务并不轻松。

  微软全球执行副总裁沈向洋1月17日在“未来论坛” 上谈及人工智能中计算机视觉的最新研究进展时表示,在图像处理的问题中,对图像的理解是一个前沿性的问题,或许还有“漫漫长路要走”。

  沈向洋称,人工智能已经发展了50余年时间,真正要把人工智能做得像人类智能一样的程度,首先要感知,然后是认知。人工智能不仅仅是计算机科学,它是一门交叉学科,包括了心理学、社会学、哲学、脑科学等等。

  对图像的识别则是人工智能发展中的一个重要分支,重量级的互联网公司都在该领域发力。

  以Google推出的GooglePhotos的为例,GooglePhotos不仅仅是相册,也具备了智能的图片识别技术:它可以将相册中同一个人物的照片整合在一起,比如回顾一个婴儿从小到大的成长轨迹。其“训练”过程是:AI具有30层神经网络,每一层对应着不同的抽象程度,比如最低层次能识别光线、色彩,下一层次能识别图片的边缘等等。这样一层层的“训练”需要大量的数据。每一层都能提取出更高层次的细节,而最后一层会决定AI对图片的理解。

  去年年底,微软亚洲研究院视觉计算组在一项比赛中,对深层神经网络技术又进行了突破:目前普遍使用的神经网络层级能够达到20到30层,此次比赛中该团队应用的神经网络系统实现了152层。

  据悉,微软的聊天机器人小冰已经整合了微软在图像识别上的技术,不仅能识别图像类型和要素,还能进行人性化的描述。

  不过,人工智能在对图像进行处理时,虽然目前的识别技术已经非常先进了,但并非每次都很灵光。一些实验就表明,研究员给出的相似、相近或是较复杂的图像,往往能够骗过计算机,使其得出错误或是不那么精确的结论。

  对于这些问题,沈向洋谈到,图像识别可以分为三个问题:一是对图像的分类,二是对图像中的要素的察觉,三是像素级别的区分。目前对这三个问题研究的进展都很迅速,但应该再向前一步对图像理解进行深入研究。

  “比如Howold,MicrosoftSelfie这些软件,对图像的理解到底能做到什么地步?一张照片来了之后,能不能解释这张照片到底是什么,能不能挖掘背后的故事。怎么让这个过程变得更加有趣。”沈向洋说道。

  微软把这些功能集成在小冰聊天机器人身上。沈向洋在论坛现场展示的一张图片显示,一张照片中有大小两只猫,如果仅仅是按计算机视觉来做,会得出“这张图里有两只猫”的结论,而小冰却可以说出“看这猫的眼神儿太犀利了”,从而让聊天过程变得更有趣。沈认为,这种人性化的描述通过计算机识别无法达到,只有通过人类交互才能达到。

  这种更为复杂的交互方式是AI发展的一个重要方向。“人工智能是近几年来最火的研究领域,但是当我们真正走向人工智能的时候,就算是在机器视觉的这样一个分支上,都还有漫漫长路要走。”沈向洋说道。
business.sohu.com false 第一财经网站 https://www.yicai.com/news/2016/01/4740024.html report 2067 人们都喜欢“看图说话”,而人工智能(AI)的研究者们希望未来计算机能像人类一样识别图片,理解图片背后的故事。但这一领域的顶尖研究者却认为
(责任编辑:Newshoo)

我要发布

我来说两句排行榜

客服热线:86-10-58511234

客服邮箱:kf@vip.sohu.com