如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了。
▲ Live Transcribe
今年 2 月,Google 在 Android 手机上推出的 Live Transcribe 应用程序,再到 5 月的 Google I/O,发布了能够实时转录语音 / 文字支持通话的 Live Relay,以及能够为语言障碍者实现语音转写的 Project Euphonia 项目。
在「帮助人们更好地沟通」这件事情上,这些应该是人工智能目前最前沿,并且能广泛应用的进展了。
应该是目前世界上最先进的语音识别应用产品
Live Transcribe
Live Transcribe 是 Google 针对耳聋及听力障碍人群开发的一款免费 Android 无障碍服务。基于此前在自动语音识别技术(ASR)的研究,Live Transcribe 将自动生成字幕的功能引入了手机设备。
▲ 较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。
使用 Live Transcribe 的场景是这样的:打开 Live Transcribe 这个软件后,它会实时读取外界的语音,并实时讲语音转录成为文字,在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节,也会有相应的文字提示。
也就是说只需一部联网的手机,便可实现实时的语音转文字功能。目前该软件已经支持超过 70 种语言。
但 Live Transcribe 的实时转录,不仅需要手机设备上的神经网络做声音分类,还需要依赖云端的三个神经网络模型,去完成语音转录成为文字的过程。
▲ Sagar Savla 在展示 Live Transcribe
在爱范儿向 Google AI Research Group 产品经理 Sagar Savla 问及,何时 Live Transcribe 才能实现完全在本地运行、不依赖云端网络时,他告诉我们:
我们正在做这样的工作,但目前没有准确的时间表。比如像中文这个语种,需要很大的模型,要想把很大的模型融入到终端设备并且保证其准确性,是很有挑战的。
Live Relay
Google 在今年的开发者大会上展示了 Live Relay 的能力:如何在听不到或者没法开口说话的情况下,轻松地打电话。
如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话,在 Live Relay 的页面输入单词,这个文本会被迅速转换为音频,发到另一个人的手机上。
如果你因为听力障碍、身处噪音等情况没法听到声音, Live Relay 也可以把通话对方的语音转录成为文本。
目前 Live Relay 依然处于研究阶段,只能在特定的 Pixel 手机上使用,并且暂时只支持英文。
Live Relay 将完全在设备上运营,通过使用设备上的语音识别和文本到语音识别功能。
借助即时响应和预测性输入建议(smart relay 和 smart compose),打字速度提高后是可以与电话呼叫保持同步的。
在我看来,虽然 Live Relay 被归类到 Google 的无障碍项目,尤其为听障用户提供帮助,但其实很多人也可能用得上。比如在开会时突然接到重要电话,没法跑出去接听,那么 Live Relay 就能派上用场了。
Project Euphonia
据统计,渐冻症、多发性硬化症、脑外伤、中风等神经系统疾病的患者,通常也会出现语言障碍,外界通常没法理解这类人群说的话,以及表达方式。
Euphonia 项目在为语言障碍人群建立语音识别模型,以及能够识别手势、眨眼、面部表情等基于计算机视觉的模型,帮助他们更好地与外界沟通表达。
他们通过与渐冻症组织合作,训练 AI 去学习和识别渐冻症患者的声音,从而实现对他们发音的转录。
与此同时,他们还在正对特定的患者,训练个性化的 AI。
比如被诊断患渐冻症十多年的 Steve Saling,受特殊训练的模型可以识别出他看体育赛事时的脸部表情,从而确定他想要对外表达的情绪。
在他想喝彩时,电脑会发出吹喇叭(airhorn)的声音;喝倒彩时,则发出嘘声(boo)。
Euphonia 项目的产品经理 Julie Cattiau 表示,他们所面临最大的困难是收集语音样本。因为有语言障碍的人在人群中占比不高,并且经常是有特定需求的,所以他们依然在招募寻找适合做这种语言识别研究的人。
无障碍的新定义:确保每个用户意图都被理解
尚有余力的科技公司,在产品设计、开发的时候都会或多或少地考虑信息无障碍(Accessibility)。
某种程度而言,信息无障碍是智能产品交互设计中针对特殊人群的一个功能,它可以让人们更加平等地享用产品在硬件和软件上的各项功能。
科技产品中的「无障碍」,相当于互联网世界中的盲道、扶手、助听器、义肢。
无论是 Android、iOS 系统中的无障碍功能菜单、读屏功能、放大镜功能、反差颜色设置,还是一些 app 接入了无障碍套件、为功能按钮添加「标签」,这些都是很基础的无障碍用户体验。
基础的无障碍用户体验,是为了让用户能够更准确接收到手机、电脑、app 等产品所发出的信息。
而 Google 借助人工智能和机器学习,让无障碍从「用户准确接收机器信息」,向「确保用户意图被机器理解」进化迭代。
这也意味着,「无障碍」在未来将是一种新的人机交互方式。它可以为特定人群展示提供更多的信息,也在让用户更便捷迅速地操作,更重要的是向「让我来帮助你完成」演化。
技术的发展在重新定义「无障碍」,也对产品、科技公司提出了新的要求。一个能将无障碍体验做好的产品,通常也能为普通用户提供更好的体验。