思必驰获INTERSPEECH 2020口音英语语音识别挑战赛多项大奖

10月25-30日,是由国际语音通信协会ISCA组织的语音研究领域的顶级会议INTERSPEECH 2020在中国上海举办,本次会议主题为“Cognitive Intelligence for Speech Processing”。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会,组建的“xiaochi”队伍在2020 国际口音英语语音识别赛上表现亮眼,思必驰高级技术总监薛少飞也在INTERSPEECH工业论坛进行了分享。

伴随着INTERSPEECH 2020开展的2020 AESR,即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech

Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共30个队伍参赛),和“口音英语语音识别”第二名(全球42个队伍参赛)。

在“Track1-口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。

数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM

loss等进行优化,来训练8种口音的8分类模型。