思必驰获INTERSPEECH 2020口音英语语音识别挑战赛多项大奖
10月25-30日,是由国际语音通信协会ISCA组织的语音研究领域的顶级会议INTERSPEECH 2020在中国上海举办,本次会议主题为“Cognitive Intelligence for Speech Processing”。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会,组建的“xiaochi”队伍在2020 国际口音英语语音识别赛上表现亮眼,思必驰高级技术总监薛少飞也在INTERSPEECH工业论坛进行了分享。
伴随着INTERSPEECH 2020开展的2020 AESR,即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech
Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共30个队伍参赛),和“口音英语语音识别”第二名(全球42个队伍参赛)。
在“Track1-口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。
数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM
loss等进行优化,来训练8种口音的8分类模型。
经过多个不同策略组合的实验测试,最终发现,“利用PPG等特征,结合基于tts的数据生成,多嵌入多层联合优化”等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。
思必驰语音应用负责人薛少飞
参与INTERSPEECH工业论坛并在线分享
今年INTERSPEECH 2020首次推出虚拟展会,以直播的方式举办在线论坛。思必驰高级技术总监、语音应用技术负责人薛少飞,10月29日在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展。