1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

汽车AI语音交互  正在让机器交互更接近真人交互

 2020-05-01 18:09  来源:A5专栏  我来投稿 撤稿纠错

  域名预订/竞价,好“米”不错过

文|胡杨 胡皓

来源|智能相对论(ID:aixdlun)

- 今天天气怎么样?

- 今日是晴天,气温17到22度,东北风3到4级。

- 那周五呢?

- 周五距今天还有2天。

“重复唤醒,答非所问,这不是人工智能,是‘人工智障智障’。”这是大部分智能网联汽车用户对语音交互的抱怨。

现在,情况有了改善。当用户询问车机“明天出门需要带伞么?”,车机就会播报明天的天气情况,如果需要再查询其他时间或者城市的天气,那么用户不用重新唤醒,也不需要说出完整表达,只需要说“那大后天呢?”、“那杭州呢?”。在用户和车机在自然连续对话的过程中,语义理解服务会记住会话的历史,并结合历史处理用户的请求,通过这种方式,用户的多次连续交互就可以形成一个会话流,与用户的交互也更加自然。

自然连续对话,是车载语音交互从“人工智障”迈向“人工智能”的重要一步。不过斑马网络最近推出的斑马智行VENUS系统,打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。这会不会是一个跨越?

从科幻到现实,语音交互一直在进化

提到智能语音交互,普罗大众对于技术刷屏的记忆停留在2018年的Google开发者大会“Google I/O”开幕式上。当Google Assistant以惊人的流利会话,打电话和店家沟通,预约理发店、餐厅,并用一句俏皮的“嗯哼”作为回应时,观众给予了热烈的掌声。这是技术愿景美好、激励人心的一面。

有趣的是,同年2月的美国第五十二届超级碗的天价广告上,亚马逊卖力黑了自家的智能音箱和智能助手——Alexa。唤醒失误、识别不准、响应困难等等用户槽点,被广告创意表现得淋漓尽致。这是技术的现实。

但不论是基于场景的未来畅想,还是对当下缺陷的大胆自嘲,两个科技巨头都将业务重心的一角,押注在了语音交互赛道上。

亚马逊首席技术官Werner Vogels断言:未来,人和数字世界对的交互,一定是以“人”为核心,而不是机器驱动;我们终将构建出更人性化的交互,让人机互动更加融合。

在“以人为核心”、“更加融合”的人机交互中,语音交互(简称VUI)是核心。VUI允许更自由、高效的人机交互,其本质上比任何其他形式的用户界面都更“人性化”。斯坦福大学教授,Wired for Speech的合著者,克利福德·纳斯写道:“语音是人类交流的基本手段…….所有文化主要通过语音来说服,告知和建立关系。”

VUI允许用户使用语音作为媒介与机器进行交互。从《2011太空漫游》中的HAL到《星球大战》中的C-3PO,人们在科幻电影里畅想着能够与机器自由沟通。事实上,早在1952年,贝尔实验室的工程师就开发出了Audrey(奥黛丽):它可以识别数字0-9的发音。尽管奥黛丽能够以超过90%的精度识别语音输入,但其体积大,成本高昂,未曾步入大规模商业化的发展通道。

自此,人类开启了长达半个多世纪的语音交互探索。1962年,IBM推出了第一台真正意义上的是语音识别机器。工程师William Dersch开发出的Shoebox可以收听操作员说出的数字和命令。例如“5+3+8+6+4-9,总和”,机器将打印出正确答案:17。

1970年,隐马尔可夫模型(HMM)为语音识别的发展插上了算法的翅膀,让语音识别从文字匹配进化到了可预测的高度。20世纪80年代,Covox,Dragon Systems,Speechworks相继成立,推动了语音识别的商用化进程。

90年代,语音识别技术迎来了大规模商用和普及。1995年,Dragon发布了单词听写级的语音识别软件。这是人类历史上首个面向广大消费者的语音识别产品。仅一年之后,Charles Schawab(嘉信理财)和Nuance(纽昂斯)联合推出了一套“语音股票经纪人”系统,可同时响应360个客户的股票询价电话。1997年,如今隶属Nuance旗下的声龙系统(Dragon system)推出了“NaturallySpeaking”软件,这是历史上第一个可用的“连续语音”听写软件。它标志着单词级不停顿语音交互的开始。

最近的20年,Google,Apple,Amazon先后推出了大众耳熟能详的智能语音助手,并通过智能手机、智能音箱等产品,来到普罗大众身边。据Juniper Research统计,截至2019年2月,全球使用中的语音助手达32.5亿;预计到2023年,该数字将达到80亿。

语音交互技术上的高山一:自然连续对话

随着软硬件的快速迭代,如今的ASR(语音识别)技术已近成熟,未来智能语音交互的核心竞争力在于在复杂场景下准确理解用户的意图,并为其提供差异化服务。更加智能的自然连续对话能力,将让语音交互系统更具人类的亲和力特质和逻辑思维能力,能带给用户更具情景化、更有温度的用车体验和服务潜力。

“智能相对论”认为,自然连续对话是一个系统的工程,涉及到从车机端的声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。斑马智行VENUS的AI语音得益于阿里达摩院的重磅加持以及科大讯飞、思必驰等合作伙伴的大力支持,极大提升了语音能力。斑马基于AliOS系统,可以更好地将语音核心技术能力与系统能力相结合,更大程度地发挥出语音核心技术的优势,将多种引擎的协作发挥到极致,达到“1+1>2”的效果。

语音交互技术上的高山二:个性化,即声音克隆

如果说自然连续对话为更自由的交互和差异化服务提供可能,那语音定制化则将个性化、情感化的语音交互率先落地。

2017年9月,一家名为Lyrebird的加拿大初创公司在推特上发布了一段10秒的录音。录音是内容AI模仿美国总统特朗普的话语。在此之前,Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,达到以假乱真的地步。Adobe也发布过一款名为Project VoCo的原型软件,在倾听20分钟音频样本之后可以进行模仿。而Lyrebird将音频采样的输入时间缩短到了60秒。

如今,国内智能网联行业也首次迎来了语音定制——“声音克隆”产品。斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。

声音是车载AI语音交互功能的“灵魂”,基于“声音克隆”技术,斑马智行VENUS系统将为用户提供“千人千声”的定制化服务,用户可以“克隆”亲人和爱人的声音,让陪伴更长久,让驾驶更舒心。

据介绍,斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。斑马网络AI语音相关负责人表示,斑马智行VENUS系统能在录制“倾听”中“掌握”每个人说话时的字母、音位、单词和语句的发音特点,通过深度学习技术推理并模仿声音中的语音音色、语调,“说”出全新的语句。

攀登技术高山,如何让机器交互能够更接近真人交互依然在等待更好答案

语音是人类最舒适,最直观的交流方式之一。如今的智能语音交互产品,变得越来越像人一样聪明且富有感情。它可以准确理解信息输入、高效处理并提供理想的信息输出。“智能相对论”认为,在人工智能和5G迅速发展的背景下,语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态,包括各类服务、应用、硬件等。

在各类应用场景中,除了智能家居,汽车产品对于语音交互的需求显而易见。不论是点击、滑动等触摸交互方式,在车载环境下都存在安全隐患且并不高效,语音交互是天然适应车载环境的交互方式。不过想要设计、开发、应用一套成熟的车载语音交互系统,要翻越重重高峰:行车噪音干扰如何处理、方言口音如何适配、自然的表达如何更好支持、系统的误触发如何控制在可用范围。

而随着用户对汽车智能化要求的越来越高,更自然的交互成为语音交互的发展方向。如何让机器交互能够更接近真人交互?多模态融合理解、自然全双工对话、自然语义理解成为了新的需要攀登的高峰。

斑马智行的系统底层——AliOS,在传统触控、按键交互模式的基础上,将语音交互能力、视觉交互能力以及场景信息在系统层进行融合互通,更大程度得发挥了各个交互能力的优势,使得多模态融合理解、融合交互以及更自然的全双工对话、拥有更多信号输入的自然语义理解成为可能。同时在各种交互能力融合后对上层应用进行开放,使得最终呈现给用户的交互更自然。

语音交互带来的产业机遇方兴未艾。如果说,未来的主流交互方式存在多样的可能性,那更高率、更自然、更接近于人本能的方向一定是人机交互的未来。

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
ai技术
ai智能

相关文章

  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术
  • 新发布的PaaS2.0,能否助力涂鸦智能再起飞?

    文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

    标签:
    ai技术
  • 大模型难掩AI制药的悲伤:越过山丘,无人等候

    美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

    标签:
    ai技术
  • 拾起王慧文的AI梦,美团冲向“光年之外”?

    2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

    标签:
    ai技术
  • 库克已纳投名状:苹果AI没得选,只能选百度

    苹果16弄了两个版本,一个是专门给中国人用的,准备用百度的AI,还要交钱。第二个是全世界都可以用的,用了ChatGPT,包括台湾、香港、澳门都可以用。以后都这样了。好,问题就出在这,苹果和百度的合作出现问题了,新闻连起来看,才能明白其中含义。新闻一:苹果正在和腾讯、字节初步接洽,考虑将二者的AI模型

  • AI加速时代的“进度条”,我们拨动了百分之几?

    “技术日新月异,人类生活方式正在快速转变,这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切,都开始变得陌生。”计算机之父约翰·冯·诺依曼曾这样说到。

    标签:
    ai智能
  • AI视频赛道,要变天了

    “毁灭你,与你何干?”,这是在刘慈欣的科幻小说《三体》里用来形容人类与三体人之间的战争的一句话。

    标签:
    ai智能
  • “创造市场”与“算法进化”,中美AI竞速的岔路口

    “人工智能的商业模式,是要创造一个市场,而非一个算法”。这是世界AI泰斗MichaelI.Jordan的观点。而当前的全球AI市场,占据主导地位的中美双方,却也走出了两条截然不同的技术路径,前者执着于前沿技术的探索,后者则发力应用优化和商业化落地。南辕北辙的两个方向,或许已经无法直接进行排位先后、优

    标签:
    ai智能
  • 智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

    智能体进化发展了一年,现在的RPAAgent迭代到什么程度了?从实在智能最新发布的实在Agent7.0,看RPAAgent的迭代升级抓取豆瓣信息、自己制作PPT,这款AIAgent真的实现了流程全自动化AIAgent构建到执行全自动化,持续进化RPAAgent再次降低智能体应用门槛实在智能重磅发布实

  • 崔大宝:大模型降温背后的难点、卡点、节点

    崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型

    标签:
    大模型
  • 这一届“出道”的数字人,已经拿捧上了“铁饭碗”

    文|智能相对论作者|陈泊丞好消息!你心心念念的事业单位发录取公告了!坏消息!他们没录你,录了个数字人。图片来源网络随着数字人技术的突破,越来越多的传统企业和机构开始用上了“数字员工”。甚至很多中国人心心念念的“铁饭碗”,也被这些数字人给捧上了。数字人捧上了“铁饭碗”简单翻看一下全国各地事业单位的“录

    标签:
    数字人
  • 来到IPO关口,地平线离“三分天下”还有多远?

    黑芝麻智能敲钟后,港交所门口又有一些智驾芯片企业引发关注。据悉,近日地平线已通过中国证监会IPO备案,拟发行不超过11.5亿股境外上市普通股并在香港联合交易所上市,预计筹集约5亿美元资金。从天眼查可以了解到,该公司成立于2015年,是一家乘用车高级辅助驾驶(ADAS)和高阶自动驾驶(AD)解决方案供

  • 机器人大会引领产业动向,卓翼飞思绘制无人系统教科研新蓝图

    8月21日,万众瞩目的2024世界机器人大会暨博览会在北京亦创国际会展中心盛大开幕。这场为期5天,集“展览”“论坛”“赛事”于一体的机器人盛会,反映了当下机器人领域的繁荣生态。据官方统计数据,今年现场逛展观众高达25万人次,比去年增加25%。机器人行业有多火?看看2024世界机器人大会火爆程度便可知