雷火电竞网站
 
雷火电竞网站 雷火电竞体育 新闻中心 产品中心 雷火平台 网站地图
崔世起:小米小爱同学无效Query识别
时间:2022-07-03 09:56:08来源:雷火电竞体育 作者:雷火平台

  我们先看一下无效query的概念。语音交互系统的研究对象是用户的query,在小爱内部会根据query是否可以进行结果满足,把query分成有效query和无效query两类。

  单轮意图明确 :根据当前轮的query的文本就能够明确用户表达的意图 例如:打开客厅空调,是智能家居垂域下的打开设备意图。

  场景意图明确 :根据当前的场景,可以确定query的所属意图。 这里的场景包含了query、上文、设备、应用状态或者用户的访问历史等。 例如:千与千寻,既是电影名也是歌曲名。如果当前前台应用是音乐类App,就可以确定它是播放音乐的意图。

  多意图 :从文本上看有多个候选意图,并且缺乏场景信息用来消歧。 例如:灰姑娘,既可能是听电台故事的意图,也可能是看电影视频的意图,没有场景信息的情况下,会认为是多意图。

  无效query是指无法进行结果满足的query,主要包括两种类型:非人机交互和意图不明。

  意图不明的query是人机交互的指令,但根据query无法判断用户的意图。意图不明query主要有三种类型:

  小米的各种智能设备包括手机、音箱和电视,都内置了“小爱同学”语音助手。通过对各类设备的请求统计分析可知,非人机交互+意图不明的请求占比在5%到20%之间,占比不小,因此对无效query的体验优化还是很有意义的。

  其次是建模中是否需要依赖上文。通过实验可知,把当前query的上文信息(包括上一轮的语义特征、是否非人机交互等)加入到模型中,没有明显的效果提升。猜测可能的原因是由于非人机Query产生的随机性,导致各轮Query之间的依赖比较弱,引入对上文的依赖,会增大建模难度。

  最终将其定义为一个针对单轮语音的二分类任务。对于一个分类任务,关键的事情是数据集的构建以及模型和特征的选择。

  样本挖掘 在待标注样本的挖掘上,重点考虑到提升样本的多样性和有效性。 a. 提升样本的多样性 随机采样: 随机采样的挖掘方式在系统冷启动阶段会比较有效,它能够覆盖到尽量多类型的样本。 正样本挖掘: 正样本在这里指的是非人机的样本。 由于该任务的正负样本比例悬殊,正样本占比很小,我们需要对正样本进行定向挖掘,提升正样本的声音类型覆盖。 正样本的挖掘可以基于各类场景的数据特性设计挖掘策略。 比如基于ASR置信度打分或者误唤醒检测等。 b. 提升样本的有效性 根据模型打分挖掘困难样本,即打分位于分类边界的样本。 通过用户的session行为,挖掘用户的负向反馈,挖掘系统误识的样本。 这两类样本对于模型的效果提升会比较有效。

  语音特征 : 通过对原始音频进行声学信号处理,包括分帧、加窗、FFT,得到一个二维向量,作为语音Encoder的输入。

  文本特征 : 文本特征方面, 将ASR得到的query的word embedding,输入文本Encoder进行编码。

  两类 高阶特征 : 一类是ASR解码输出的置信度等特征,一类是NLU输出的结构化垂域意图和槽位信息。

  语音Encoder采用的是CNN+LSTM+Attention的网络,文本Encoder采用的是TextCNN网络,两个Encoder的输出合并上高阶特征,输入到分类层。在分类层的设计上针对两种类型的请求,一种是首轮的请求,一种是非首轮的请求,分别设置输出层。不同输出层是因为对于首轮和非首轮的请求,非人机交互的分布是不一样的,通过单独为每类请求设置独立的参数空间,可以让模型对于每类请求学习到最佳的参数。

  语音Encoder的部分,采用多层CNN神经网络,效果还是不错的,鲁棒性很好。这说明CNN对于声音特征的提取能力还是很强的。在这个结构基础上进行修改,将CNN从大的卷积核改成小的卷积核,让CNN提取局部特征,然后加上LSTM层+Attention层提取序列全局特征,效果会有明显的提升。

  用户反馈类型 第一类是误拒识的反馈,指的是系统拒识后,用户又重 复说了一遍。 这是一个很强的信号,表明系统可能发生了误拒识; 第二类反馈是欠拒识的反馈,一个无效音被系统响应了,用户说闭嘴。

  反馈生效方式 针对这两类反馈类型,优化的方式有两种: 一种是在在线阶段,主要是对于误拒识的反馈,系统会动态调整策略,不再继续拒识; 一种是在离线阶段,会把这两种反馈通过挖掘的方式进入到模型离线迭代的流程。

  个性化策略 引入context的信息,如果用户在历史上经常说某一些query,系统会倾向于不拒识。 通过这种策略上的优化,对线上用户真实的体验是有明显的改善的。

  首先看一下问题的划分。query意图不明,主要有三类,乱序无意义、表达不完整和意图模糊。

  句子的困惑度一般是基于语言模型来计算。为了让训练得到的语言模型计算出更合理的困惑度,需要注意以下两点:

  足够多的训练数据,数据量要大而且覆盖范围要广。 在小爱的用户query中存在着很多对长尾知识的查询,比如古诗词、小众话题以及新出现的流行语等。 如果训练集没有覆盖这些类型的数据,模型在这类数据上的表现就会不太理想。

  足够大的语言模型, 语言模型的参数规模越大越好,越大的模型有越强的表征能力。

  基于语言模型的方案,早期是采用LSTM,后来改为基于BERT预训练模型。基于LSTM计算困惑度,采用的是自左向右依次计算token概率的传统方式,而基于BERT计算困惑度则有些区别。BERT是一种masked语言模型,计算每一个token的概率会依赖token的上下文。在预测阶段,BERT计算一个句子的困惑度,需要每次mask掉一个token来计算交叉熵损失,这样会导致预测的时间复杂度比较高,因此会影响在线预测的性能。

  有些query如果不在上下文语境中,它的语义是不完整的。例如单个Query“明天早上八点”,看上去是用户话还没有说完,但是如果是在一次连续对话中,上一轮用户是在订闹钟,系统反问“明天早上几点”让用户确认,这种情况下,它就是一个语义完整的query。所以这个任务的建模需要引入上文信息。

  模型的设计是基于BERT的分类,针对于单轮的话,输入当前的query;针对多轮输入上一轮的query和answer和当前轮的query作为一个句对的分类任务。

  我们采用的是基于语音和语义特征的神经网络模型,在手机语音助手上达到接近于普通人的水平;

  主要介绍了乱序无意义和表达不完整两个任务的建模思路,技术方案的话主要是从语言模型和分类模型角度去思考。

  这两个任务有一个共同点是都存在着歧义度高的问题,如何通过问题的定义降低任务的歧义性,如何能找到更有效的方法去解决这些高歧义性的问题,是我们需要进一步深入去研究的。

  DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线+线上沙龙、论坛及峰会,已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+,百万+阅读,12万+精准粉丝。

上一篇:解锁随身“ID”思必驰声纹识别自有奇招下一篇:厉害了!90后浙大毕业女黑客2分半钟破解人脸识别漏洞!
版权所有:雷火电竞网站|雷火电竞体育平台    公安备41030502000174  Copy Right @ 雷火电竞网站|雷火电竞体育平台 INDUSTRY CO.LTD
地址:河南省洛阳市中州西路173号  XML地图  技术支持:雷火电竞体育