微软全球副总裁沈向洋：要让“机器人”能讲出图像背后的故事

正文
我来说两句(人参与)

扫描到手机

关闭

2016-01-17 17:04:04

来源：第一财经网站

　　人们都喜欢“看图说话”，而人工智能(AI)的研究者们希望未来计算机能像人类一样识别图片，理解图片背后的故事。但这一领域的顶尖研究者却认为，要达到这个层次，人工智能研究的任务并不轻松。

　　微软全球执行副总裁沈向洋1月17日在“未来论坛”

相关公司股票走势

机器人

上谈及人工智能中计算机视觉的最新研究进展时表示，在图像处理的问题中，对图像的理解是一个前沿性的问题，或许还有“漫漫长路要走”。

　　沈向洋称，人工智能已经发展了50余年时间，真正要把人工智能做得像人类智能一样的程度，首先要感知，然后是认知。人工智能不仅仅是计算机科学，它是一门交叉学科，包括了心理学、社会学、哲学、脑科学等等。

　　对图像的识别则是人工智能发展中的一个重要分支，重量级的互联网公司都在该领域发力。

　　以Google推出的GooglePhotos的为例，GooglePhotos不仅仅是相册，也具备了智能的图片识别技术：它可以将相册中同一个人物的照片整合在一起，比如回顾一个婴儿从小到大的成长轨迹。其“训练”过程是：AI具有30层神经网络，每一层对应着不同的抽象程度，比如最低层次能识别光线、色彩，下一层次能识别图片的边缘等等。这样一层层的“训练”需要大量的数据。每一层都能提取出更高层次的细节，而最后一层会决定AI对图片的理解。

　　去年年底，微软亚洲研究院视觉计算组在一项比赛中，对深层神经网络技术又进行了突破：目前普遍使用的神经网络层级能够达到20到30层，此次比赛中该团队应用的神经网络系统实现了152层。

　　据悉，微软的聊天机器人小冰已经整合了微软在图像识别上的技术，不仅能识别图像类型和要素，还能进行人性化的描述。

　　不过，人工智能在对图像进行处理时，虽然目前的识别技术已经非常先进了，但并非每次都很灵光。一些实验就表明，研究员给出的相似、相近或是较复杂的图像，往往能够骗过计算机，使其得出错误或是不那么精确的结论。

　　对于这些问题，沈向洋谈到，图像识别可以分为三个问题：一是对图像的分类，二是对图像中的要素的察觉，三是像素级别的区分。目前对这三个问题研究的进展都很迅速，但应该再向前一步对图像理解进行深入研究。

　　“比如Howold，MicrosoftSelfie这些软件，对图像的理解到底能做到什么地步?一张照片来了之后，能不能解释这张照片到底是什么，能不能挖掘背后的故事。怎么让这个过程变得更加有趣。”沈向洋说道。

　　微软把这些功能集成在小冰聊天机器人身上。沈向洋在论坛现场展示的一张图片显示，一张照片中有大小两只猫，如果仅仅是按计算机视觉来做，会得出“这张图里有两只猫”的结论，而小冰却可以说出“看这猫的眼神儿太犀利了”，从而让聊天过程变得更有趣。沈认为，这种人性化的描述通过计算机识别无法达到，只有通过人类交互才能达到。

　　这种更为复杂的交互方式是AI发展的一个重要方向。“人工智能是近几年来最火的研究领域，但是当我们真正走向人工智能的时候，就算是在机器视觉的这样一个分支上，都还有漫漫长路要走。”沈向洋说道。