苹果手机怎么下载365app,百度世界2020百度语音首席架构师贾磊详细介绍了端到端语音交互技术

9月15日,行业活动“百度世界2020”在AI区域在线举行。一大波硬核技术热潮:百度创始人,董事长兼首席执行官李彦宏,康慧中央电视台的央视主持人。出现了“虚拟人”“ Duxiaoxiao”,该表以“全自动驾驶”的形式进行了搜索,没有渗透到驾驶员,并且在各个行业授权案例……包括核心技术和Grounding Gas的着陆应用程序。
(百度世界2020 CCTV新闻直播室)
在当天的百度大脑子论坛上,百度语音首席架构师贾磊重点介绍了百度的端到端语音交互技术,他说百度的语音交互技术将继续迭代改进,并成为百度的端到端技术。基于深度学习技术的语音识别和语音合成。在语音识别方面,百度引入了端到端声信号集成建模技术,在语音合成方面,揭开了最新的个性化Meitron和千面合成个性化技术,同时百度展示了最新的证词语音技术的提出:移动终端的日均通话量超过155亿,智能家居,语音IoT等场景广泛存在,智能语言的产业化取得了丰硕的成果。
(百度语音首席架构师贾磊)
会见中,贾磊从语音识别和语音合成两个技术层面详细介绍了百度语音技术的发展迭代和最新成果。在语音识别方面,百度的语音识别技术进一步创新。从2012年第一项深度学习技术开始,到2019年业界首次将注意力模型应用于在线语音识别,引入了多级流模型SMLTA进行集中注意力,直到现在,它已经变得完全普及。开发的信号和声学集成建模技术不仅支持百度的业务发展,而且更好地支持具有多种场景和行业的应用程序。
作为百度语音识别技术的最新成果,端到端信号声集成建模技术解决了传统数字信号处理和语音识别级联系统的各种问题,摒弃了各自学科的主题假设。最终的建模大大提高了远场语音识别率。
贾磊认为,端到端信号和声学集成建模技术由模型波束技术和模型AEC技术组成,前者发展成为百度在全球范围内提出的多区域融合模型波束建模技术,对检测性能比单区技术提高了15%以上,后者已更新为基于双损失实值掩蔽的AEC模型技术,解决了设备非线性时的回声消除问题,使其能够成功即使在播放音乐时也能打断并进行高精度语音识别。
此外,贾磊还介绍了百度在今年初推出的端到端全双工语音交互技术。据他介绍,百度的端到端全双工语音交互技术将复杂的建模过程转换为三个端到端的深度学习过程,即信号声学集成建模,声学语言集成建模和语义信任集成。造型。Schimmel:通过端到端建模,该技术可以将整个复杂的端到端交互转换为多个深度学习计算,从而可以使用单个AI芯片完成端到端全双工语音交互,从而极大地改善了车载手机等,语音交互性能大大改善了用户体验。在语音合成方面,百度从2013年开始研发语音合成,经过参数合成,拼接合成,深度学习语音合成和端到端语音合成等功能的扩展,已经发展成为涵盖百度个性化,风格多样,角色多样的数千人。语音合成技术始终是对语音合成系统进行更新和迭代。在会议期间,贾磊介绍了百度语音合成技术的最新进展,进而将个性化的TTS个人转变为具有多种风格,多种角色和数千张面孔的个人。个性化TTS是Meitron个性化语音合成系统中的最新产品,它是基于子带分解和GAN_loss的神经网络端对端声码器,也是业界首款基于端对端通用移动电话的通用计算机。声码器。与基于信号处理和参数的传统声码器相比,个性化的TTS可以将ABX提高到65:35,已应用于地图导航,目前每天有超过1亿个导航广播。
多样式,多角色语音合成是一项新技术,旨在满足娱乐内容行业(例如小说)中共存的角色转换和情感需求的广播需求。以前,单音广播缺乏表现力,广播语音和文本本身的角色情感不一致,长时间听后用户感到单调又累。百度使用深度学习技术对小说的文本进行分析,以确定角色,身份和情感,然后使用多样式多角色语音合成技术合成小说中的声音,从而获得自然流畅的声音,丰富的情感表达和美丽的用户体验。
百度针对讲话者需要以不同风格发送文本的应用场景引入了单人语音合成技术,该技术可以将讲话者的语音,文本,风格,内容和音色分开,并在语音合成过程中自由组合,从而演讲者可以同时广播新闻,小说,脱口秀,阅读,诗歌等。
”百度智能语音交互产业化硕果累累,目前,百度智能语音的日均通话量超过155亿次,广泛用于移动设备,智能家居,智能汽车,智能服务和语音物联网,并大大改善了中国社会。智力水平。贾磊说,语音技术作为百度大脑的重要AI功能之一,不仅在百度搜索,百度输入法,百度卡,小号扬声器等百度产品中使用,而且在许多行业和未来,百度将继续创新和改进语音交互技术,促进语音技术的应用,并帮助更多的行业进行智能化转型和更新。

Filed under: 365bet体育在线直播