AI语音对话何时摆脱智障？

作者:谢东霞 | 来源:一鸣网

2018-08-01

训练出灵活的创作工具，带给我们一个愉快、流畅的对话体验。

近期谷歌又更新了其新的聊天机器人——Dialogflow企业版接管呼叫中心。Dialogflow是基于谷歌的Duplex技术开发，该技术使得客户获得更好的人机交互体验，使得对话聊天更加自然。这项技术借鉴了谷歌的深度学习研究和来自 Alphabet DeepMind 的开创性人工智能。 Deepmind 的 WaveNet 技术赋予了聊天机器人“听起来像人类”的特点。 Wavenet 用超过70％的人声缩小了机器人与人声的语音差距。

百度研究院前段时间也推出了他们有关TTS的成果——ClariNet，在语音的自然度方面成功地超越了其他方法，成为百度在TTS研究上的又一里程碑。此前基于神经内网络的TTS模型是将优化的文本到声谱图和波形合成模型分开来的，这可能会导致不理想的表现。而ClariNet第一次做到了用完全的端到端TTS模型，直接将文本转换成波形图，并且只需要一个神经网络即可。

超越机器学习的新工具

对话AI是人工智能的一个子领域，专注于在人与计算机之间产生自然而无缝的对话。近年来，在自动语音识别（ASR），文本到语音（TTS）和意图识别等方面都产生了重大改进，但是，我们距离科幻小说中所承诺的流畅的人机对话还有很长的路要走。机器学习在过去几年推动了面部识别，语音识别和对象识别等领域取得重大进步，使许多人相信它将解决会话AI存在的问题。

机器学习特别适合于涉及在大型数据库中查找的问题，例如有关会话AI中语音识别、语音合成的问题就能通过机器学习提供很好的解决方案。近几年，计算机对话的研究主要关注自然语言理解，人工智能理解人类意图的能力也有了很大进步。但是在自热语言生成方面还有很大的挑战，自然语言对语境十分敏感，往往是一种含糊不清的状态，通过机器学习收集分析大量的数据很难生成合适的回答，能够维持持续可靠的对话状态将是接下来对话管理要关注的主要问题，我们需要超越机器学习的新工具来有效管理人机对话的所有方面。

追求更高保真度的对话

现在大多数的会话体验要么是广泛但是很浅，（例如，“时间是什么时候？”=>“时间是早上9点45分”）要么是深入但是狭窄（例如，在测验游戏中多场景的人物对话）。我们需要超越这些会话限制，进入到一个广泛而深入的对话世界。会话AI需要更好地理解用户输入的上下文，能够做出适当地响应，强有力地跟踪对话的状态。

在人类彼此之间的自然对话中，每个人都会根据谈话对象之前的经历，作出为他们量身定制的回答。但机械的AI对话往往缺少个性令人感到厌烦。要解决这个问题或需让机器对谈话人进行身份识别，以便让AI知道你是谁，同时跟踪先前对话的状态，学习特定用户的偏好或风格，并且对不同的用户做出个性化的回应。

一直以来，会话AI专注于理解口头输入和产生口头反应。但是，应该允许用户以多种不同的方式提供输入，并且输出也能以不同的形式生成。例如，通过情绪分析让AI对情绪级输入做出反应，并能考虑同时进行多个输入或输出会带来的一系列复杂性问题。

将人类置于初始对话生成的循环中

目前已经可以发现，尝试生成完全自动化的自然语言生成可能不是最佳前进方式，因为最自然的人类对话不是重组大量先前对话数据的结果，而是通过联系当前上下文，考虑到双方独特的会话历史，以及一系列的会话习惯和技巧所形成的。

所以在当前技术条件下，自然语言生成的解决方案无法消除人类在机器学习循环中的介入，将人类置于初始对话生成的循环中，能够控制合成角色的语气，风格和个性。让人类进行创造性输入，帮助系统识别每个上下文做个性化的回应，并定义对话应该如何流入下一个问题或主题。训练出灵活的创作工具，带给我们一个愉快、流畅的对话体验。

责任编辑：何周重

AI语音对话何时摆脱智障？

专题

最新发布