盲人智能“看图”

正文
我来说两句(人参与)

扫描到手机

关闭

2016-04-06 22:06:00

来源：第一财经网站

　　大多数人能够分享互联网时代社交媒体带来的便利，但是那些视力缺陷的人却很难进入社交媒体圈，分享自己与别人生活中的喜怒哀乐。

　　基于互联网世界开放和平等的精神，巨头公司当然会尽力弥补这一缺憾。

　　近期，Facebook通过“自动文本转换”功能以机器学

相关公司股票走势

机器人

习技术识别图片中的信息。

　　Facebook正在尝试将它的图片功能的影响力扩大到全球3900万视力障碍人群中。Facebook已经开发出一套人工智能系统自动捕捉图片信息并配以文字说明，并能通过语音识别大声朗读，为盲人读取图片信息迎来了新篇章。这也离扎克伯格把互联网连接到“所有人”的目标又近了一步。

　　这项功能被称为“自动文本转换器”(AutomaticAlternativeText)，它是基于拥有数亿参数的神经网络，经历数百万例培训的图像识别技术开发而成。

　　虽然这是一项新突破，但目前为止，这项技术还不够成熟，对文字的说明更像是在罗列信息而不是在描述图片中的故事。尽管如此，Facebook表示，对于盲人而言，获取图片信息从0到50%的转变就已经是一个重大飞跃，这项人工智能前景非常可观。目前已经有5万盲人使用这项服务。

　　在国内，百度已经开发出一套帮助盲人识别周围物体的人工智能操作系统DuLight，同时配备一台由“百度大脑”驱动的类似于蓝牙耳机的智能可穿戴设备“小明”。“小明”获取外界信息的方式除了接受用户发出的指令以外，更多是利用内置摄像头捕捉用户第一视角的视觉信息，并对摄像头捕捉到的信息进行图像识别，最后通过图像语义理解对核心信息进行分析和讲解，通过一段时间的使用，设备还能自动推演出用户下一步可能的行为。

　　利用百度最新研发的“机器读图”技术，DuLight的图像识别，尤其是通用识别功能非常强大，机器本身就能够根据拍摄到的图片内容自动生成一段“描述性的文字”，能在高层语义层面建立图像和自然语言之间的桥梁，使计算机能够真正自己学习，建立语言体系，并感知物理世界中的联系。这也是人工智能领域的一大飞跃。目前“小明”人脸识别错误率仅为0.23%。

　　事实上，语言始终是机器学习最大的障碍。百度研究院科学家徐伟曾对《第一财经日报》记者表示：“人类语言是一个抽象的东西，在百度，我们强调把图像识别、语言理解和语言生成这样传统人工智能上不同的分支紧密结合起来，用统一的神经元网络，让机器人直接学习，就像教小孩那样教机器人。”

　　他还以“看图说话”为例，“机器人看到这样的图以后，可以读出这是一辆火车沿着森林的路行驶”;或者问“冲浪板是什么颜色的”，机器人能够通过对图和对问题的理解，说是“黄色的”。识别静止的图像之后，机器人也可以对视频作出描述，比如“一只狗在草地上奔跑”。

　　Facebook的技术暂时仅支持英语语音，不过这给盲人和视力障碍人群使用Facebook带来了极大的便利。对于他们来说，iOS系统上的Voiceover(语音识别功能)是最普遍使用的功能。但是如果在Facebook上上传的这些图片没有配备一定的文字说明的话，这些图片“读”给盲人的内容就不够生动，可能只是碎片化的信息，这样，Facebook上的内容就不能够完整地传达。

　　为了解决这一问题，Twitter3月份推出了一项让用户手动为他们上传的图片添加文本描述的功能。

　　但事实上很少有人为每一张图片都配文字说明，所以这一尝试不太成功。而且这一添加描述的功能默认是关闭的，用户在为Twitter图片添加文本描述前，需要到辅助功能设置中启动这一功能，之后才能在上传图片后看到“添加描述”的选项，然后再进行文本输入。这一功能更多是针对需要寻求帮助的人群，而不是提供帮助的人群。

　　相对于Twitter而言，Facebook的人工智能技术可以克服这些障碍，但也面临一些其他的问题。其中图片内容传达的准确性是最大的一个：目前机器仍然会出现一些错误，有时候甚至会把整件事情搞错。比如，去年Flickr推出了一个相似的系统，这个系统把Auschwitz城市的图片识别为“运动”而把一个黑人的照片识别为“猩猩”。

　　威盛电子(上海)有限公司语音交互部门研发总监张国峰对《第一财经日报》表示：“目前业界在图像识别上使用最多的是近年来迅猛崛起的深度神经网络技术(DNN),以及在此基础上更进一步的卷积神经网络(CNN)。最有代表性的是MIT的开源项目PlaceCNN。通过大量的志愿者,他们收集到了250万张有205种场景分类的照片,以此来进行场景识别训练并取得了非常好的结果。”威盛电子在语音识别、人脸识别和声纹识别上广泛使用DNN、CNN及RNN(循环神经网络)，为今后人机交互在智能家居以及机器人上的应用做准备。

　　目前，学术界对于神经网络的训练算法基本都是开源的，这也是研究进展如此迅速的一个重要原因。很多公司依靠这些开源的代码，就可以针对专门的领域进行图像识别训练，并都取得了很好的效果。

　　作者：钱童心来源一财网)