售前电话
135-3656-7657
售前电话 : 135-3656-7657
1 任务1.1 任务定义
wer,中文名称是社区问答。是利用半结构化的数据(问答对形式)来回答用户的提问,其流程通常可以分为三部分。
问题解析,对用户输入的问题进行分词,纠错等预处理步骤。召回部分,利用信息检索引擎如等根据处理后的问题提取可能的候选问题。排序部分,利用信息检索模型对召回的候选问题进行相似度排序,寻找到最相似的问题并返回给用户。1.2 任务分类
通常,根据应用场景的不同,可以将CQA任务分为两类:
1.3 评测标准1.4 数据集
由于工业界的数据集通常来自其自身业务的记录,并不对外公开,故以下只举例介绍相关比赛中出现的数据集:
“技术需求”与“技术成果”项目之间关联度计算模型(需求与成果匹配)平安医疗科技疾病问答迁移学习比赛(疾病问句匹配)
相似案例匹配大赛(法律文书匹配)智能客服问题相似度算法设计——第三届魔镜杯大赛CCKS 2018 微众银行智能客服问句匹配大赛AFQMC 蚂蚁金融语义相似度OPPO手机搜索排序query-title语义匹配数据集医疗问题相似度衡量竞赛数据集2 方法及模型2.1 无监督方法2.1.1 规则匹配
目前,流行的问答系统中依旧大量应用着规则匹配的方法。基于规则的方法拥有可解释性强,易于控制,效率高,易于实现,不需要标注数据等优势。针对FAQ库中的标问和相似问进行分词、应用正则表达式等方法提炼出大量的概念,并将这些概念进行组合,构成大量的句式,句式再进行组合形成标问。
在基于规则的匹配中, 如何进行规则的自动发现与更新、检验与评估是最关键的问题。究其原因, 由人工维护的产生式规则需要高水平的、具备丰富的领域知识的专家.在问答系统所应用的领域较为狭窄时, 这有可能得到满足。然而, 随着问答系统涉及知识的广度和深度不断提高, 依赖于专家知识对管理规则的难度也大为提高。
2.1.2 无监督文本表示
在缺少标记数据的场景,我们可以利用算法对文本本身进行表示,再利用常用的向量距离计算方法(如余弦距离,欧式距离等)进行相似性度量。常见的无监督文本表示方法主要可以分为两种,一种是基于词频信息的方法,一种是基于词向量的方法。
选择单词数N服从泊松分布,N~(β)。文档θ服从狄利克雷分布,θ~Dir(α)。对于文档内N个单词中的每个单词 a. 选择一个主题z,服从多项分布Mult(θ) b. 以概率p(w|z,β)生成单词w,其中p(w|z,β)表示在主题z上的条件多项式概率。
2.1.3 用于跨领域迁移学习方法
2.2 有监督匹配算法2.2.2 问题意图分类--深度学习多分类模型(CNN\DNN\LSTM\…)
2.2.2深度文本匹配模型
一般来说,深度文本匹配模型分为两种类型,表示型和交互型。
表示型模型
表示型模型更侧重对表示层的构建,它首先将两个文本表示成固定长度的向量,之后计算两个文本向量的距离来衡量其相似度。这种模型的问题是没有考虑到两个句子词级别的关联性。容易失去语义焦点。
模型DSSM 模型 Bert交互型模型
交互型模型认为全局的匹配度依赖于局部的匹配度,在输入层就进行词语间的先匹配医疗问答系统,之后利用单词级别的匹配结果进行全局的匹配。它的优势是可以很好的把握语义焦点,对上下文重要性合理建模。由于模型效果显著,业界都在逐渐尝试交互型的方法。
模型ESIM ( LSTM)2.3 FAQ发现与优化FAQ发现
将用户问句进行聚类,对比已有的FAQ,发现并补足未覆盖的知识点。将FAQ与知识点一一对应。
FAQ拆分是当一个FAQ里包含多个意图或者说多种情况的时候,YiBot后台会自动分析触达率较高的FAQ,聚类FAQ对应的问句,按照意图将其拆分开来。
最终希望希望用户的每一个意图能对应到唯一的FAQ,这样用户每次提问的时候医疗问答系统,系统就可以根据这个意图对应的FAQ直接给出答案。而如果两个FAQ意思过于相近,那么当用户问到相关问题时,就不会出现一个直接的回答,而是两个意图相关的推荐问题,这样用户就要再进行一步选择操作。这时候YiBot就会在后台同样是分析触达率较高的FAQ,分析哪一些问句总是被推荐相同的答案,将问句对应的意图合并。
分析历史日志,采用淘汰机制淘汰废弃知识点,如已下线业务知识点等。
FAQ答案优化
如果机器人已经正确识别意图但最后仍然转人工,说明知识库的答案不对,需要进一步修正这一类知识点相对应的答案。
比如在电商场景中,经常会有查询发货到货时间、订单状态等的场景。利用图示指引、具体订单处理等方式让用户操作更便捷。
3 产品案例产品1百度AnyQ-- Your
产品2:腾讯知文--结构化FAQ问答引擎
基于结构化的FAQ的问答引擎流程由两条技术路线来解决
采用了三个层次的方法来实现快速检索的方法
产品3:阿里小蜜
产品链接
意图与匹配分层的技术架构体系