图片说明

声智科技陈孝良:语音交互才是人工智能最便捷的控制手段

  当初,苹果SIRI的智能语音控制功能惊艳一时,语音交互带给人类巨大便捷。如今,近场(近距离)语音交互的辉煌成为过去,远场(远距离)到来。

  语音交互属人机交互的范畴,是一种比较前沿的交互方式。今年7月,小米AI音箱发布,其最大亮点就是此类功能,用户只需说一声“小爱同学”就可唤醒它。所有智能设备与人的语音交互,都离不开一套可听清人声、从而做出反应的“唤醒技术方案”。

  

  而声智科技就是小米AI音箱麦克风阵列和“唤醒技术方案”的提供者。带着对该技术的疑问,投资家网记者在近日采访到了声智科技创始人陈孝良,听他聊聊声智与语音交互技术背后的故事。

  声智的唤醒技术方案

  陈孝良早前在中科院声学所任职,从事工业级、国防级声学相关研究。2016年,语音交互市场持续火热。在经过多番调研、反复思量后,陈孝良与他在中科院的朋友成立了声智科技。

  成立以来,声智科技专注于远场人工智能交互,提供从软硬件到云服务的远场语音交互技术方案,以及从芯片模组、PCBA到工业设计的Turnkey产品方案。

  语音交互的基础建立在智能设备可以准确收集、识别人声,从而达到唤醒。在唤醒技术方案上,声智科技推出了领先行业的单麦/双麦,4+1, 6+1等麦克风阵列方案。

  所谓麦克风阵列,就是收集语音数据的前端硬件,只有精准收集人声,才能谈人机交互。

  传统的单麦克风系统只适用于低噪声、无混响、距离声源很近的情况,比如人和手机语音助手的交互。而在远距离语音交互场景中,距离声源远、环境中的大量噪声、多径反射和混响都会导致拾取信号的质量下降,严重影响语音识别率。基于此,多麦克风处理语音的麦克风阵列应运而生。

  麦克风阵列是按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

  

  而在市场上大卖的亚马逊Echo智能音箱,就是使用4麦以上的麦克风阵列。声智的4+1, 6+1等麦克风阵列方案可以说领先行业。

  采访中,陈孝良显得很健谈。唯独谈及语音交互市场现状时,他减慢了语速冷静分析着自己投身的行业。

  语音交互市场的现状

  尽管语音交互市场持续火热,但整个行业还存在诸多现实的问题。

  首先,远场语音交互的声音辨识度还很低。

  复杂的现实环境和实验室的环境天壤之别,不同场景中有不同的噪音,智能设备如何在复杂环境中准确识别人声,一直是行业的最大痛点。

  “声智的远场语音识别率,目前已达到90%,但是距离人和机器随心所欲的对话还有一个漫长的阶段”陈孝良坦言。

  产品落地的迫切

  远场语音交互技术不应用在实际产品上,它就只是一个实验室研究。

  市场上的语音产品中,将这项技术应用在智能音箱上的居多。亚马逊的 Echo、 京东的叮咚、小米AI音箱、阿里的天猫精灵,可以看出,只有落地产品才能抢占市场份额。

  巨头布局整个生态

  回顾过往,整个语音交互市场从来不缺巨头的参与。

  国外的微软、谷歌、苹果、亚马逊早早布局了各自的语音产品,国内百度、京东、阿里也相继进入语音交互市场。

  声智的竞争优势

  不久前,声智科技宣布完成近亿元的A轮融资,由百度、蓝港互动、洪泰基金、峰瑞资本联合财务投资。

  资本垂青的背后,是声智在前景广阔的语音交互市场中独特的优势:

  一、一体化语音交互方案

  “做为整个生态链里的技术解决方案提供商,声智在技术上一定要具备优势。只有得到市场验证的技术,才可以获得合作伙伴的认可。”陈孝良对记者说到。

  完整的语音产品方案除了麦克风阵列为主的硬件前端,还有云端、合作内容两部分。

  硬件前端是麦克风阵列、降噪算法、芯片、硬件平台等;云端是语音识别和语义理解、语音数据;合作内容是音乐、天气、短信、通话等应用工具。

  声智科技的一体化语音交互方案包括了领先的麦克风阵列方案,以及云端服务。

  基于这些核心技术,百度、腾讯、小米、360、联想等著名品牌相继与声智建立合作。

  二、在各个领域实现产品落地

  目前,声智科技在智能家居、智能汽车、智能安防、智能金融、智能教育都有落地产品。

  除了在智能音箱领域与小米的合作,声智在智能安防领域有 “奇虎360小水滴智能摄像头;智能机器人领域有“奇虎360儿童陪伴机器人”。

  而在智能车载领域,声智科技对准驾驶员语音控制和全车语音控制的用户需求,提供了单麦识别优化算法和分布式麦克风阵列方案。

  三、持续盈利

  不止语音交互市场,纵观整个人工智能行业,可以实现持续盈利的公司也没有几家。人工智能领域,还处于投入开发阶段。

  声智科技做为一家技术驱动型公司,通过卖技术、产品、服务,已达到持续盈利。

  “我们的产品质量上好一点,成本上控制低一些,这些可以形成竞争优势。最早的时候,一套开发板卖几千块,也是营收。”陈孝良感慨。

  语音交互市场的巨大前景

  与其他行业相同,国内语音交互市场同样依赖国外核心芯片。同时,国外巨头虎视眈眈准备进军中国语音交互市场。我们国家整个语音交互市场的现状非常严峻。

  不可否认的是,语音交互市场的前景是广阔的。人工智能带来的社会变革,就是让人类选择更便捷的生活方式。

  在众多智能产品中,用户可以通过各种手段对其进行控制,而语音交互无疑是最便捷的操控手段。所以,人工智能的发展将与语音交互发展深度相连。

  在这场智能变革的浪潮中,持续优化远场语音交互体验、打通与产业链上下游企业的合作,正是声智科技未来应做的事。

  首席内容指导:投资家网蒋东文(曾用名:蒋冬文)

business.sohu.com true 投资家 https://business.sohu.com/20171115/n522486150.shtml report 3236 当初,苹果SIRI的智能语音控制功能惊艳一时,语音交互带给人类巨大便捷。如今,近场(近距离)语音交互的辉煌成为过去,远场(远距离)到来。语音交互属人机交互的范畴
商业周刊/中文版

商业周刊/中文版

以洞见和趣味服务于以新商业领袖为主的全球化新经济时代读者

面包财经

面包财经

为价值而生 | 原创 | 深度

和讯网

和讯网

新媒体的实践者、研究者和批判者。

今日全球头条

今日全球头条

全球市场,深度解读,就在凤凰iMarkets

谁谁谁

谁谁谁

金融小故事,有趣又有料