语音交互的基本概念和设计实践

上传者：苏堤漫步 | 格式：doc | 页数：20 | 大小：59KB

文档介绍

播音乐、路线导航等语音交互指令。РР 9 / 20РРР企业应用：未来会有各种各样专业的知识工作者会在或大或小的程度被简化或者被替代，比如文本、数据的录入工作，比如客服机器人。但，极不太可能的是直接对着一个设备吼两嗓子做一个PPT的方式。РР医疗教育：如语音记录病历，不管对医生来说还是患者来说，都是提高看病效率的很好的辅助手段之一。РР 以目前的技术条件而言，单向的指令性动作是最适合语音来表达的，因为它足够清晰和直接。РРР七、语音交互涉及那些技术?РР VUI（语音用户界面）所涉及的技术模块有 4 个部分，分别为：РРР自动语音识别：Automatic Speech Recognition, ASRРР自然语言理解：Natural Language Understanding, NLUРР自然语言生成：Natural Language Generation, NLGРР文字转语音：Text to Speech, TTSРР РРР 上图即为语音交互技术包括的识别、理解和对话三个部分。РР 10 / 20РРРР 整个过程通俗的说，就是通过麦克风让机器能听到用户说的话，然后听懂用户想要表达的意思，并把反馈的结果“说给用户听”。РРР 举个例子就是：РРР 小明：明天什么天气？РРР 助手：晴，37摄氏度。РРР 整个过程分解之后，就变成这样一个过程：РРР小明对着机器说一句话后，机器内置的麦克风识别到小明说的话，把口语化的文本归一、纠错，并书面化（ASR）；РР然后机器根据文本理解小明的意图（通常是在云端进行语义的理解）并进入对话管理，当意图不明确时，还需要机器发起确认对话，继续补充相关内容，这就是多轮对话；РР在明确小明意图后，去获取相关的数据，或者执行相关的命令；РР最后把内容通过扬声器播放给小明听（TTS，语义理解后获得的结果文本信息合成为声音）。