腾讯智能写作助手“文涌”(Effidit)关键技术揭秘
导读 大家好,我是腾讯 AI Lab 的蒋海云,今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分,前两部分介绍 AI 智能写作助手的相关系统;后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。
全文目录如下:
-
文本理解系统 TexSmart 介绍
-
智能写作助手 Effidit(文涌)系统介绍
-
多级可控的无监督文本改写方法
-
文本改写评测思考和一种新的指标
分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研究员
编辑整理|田育珍 猿辅导
出品社区|DataFun
01/文本理解系统 TexSmart 介绍
先介绍一下文本写作助手用到的一些理解的模块,即:TexSmart。
文本理解系统在智能写作中,提供了基础的语言理解的能力,像:文本图谱、文本理解和文本匹配。文本图类似知识图谱,可以对常见的文本关系进行查询。
在理解系统之上,是今天重点介绍的智能写作助手。目前助手包含:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。
1. TexSmart 是什么
TexSmart 是自然语言理解的工具与服务,可以对中文和英文两种语言的文本进行词法、句法和语义分析。功能分为三部分:
- **文本理解:**分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类和关键词提取;
- **文本匹配:**语义相似度匹配,衡量句子的相似度;
- **文本图谱:**常用文本关系的知识查询。
2. TexSmart Demo
分词和标注就是给一个句子,对句子进行分词并标注词性。TexSmart 提供了不同粒度的命名实体识别。粗粒度 就是我们常见的十几种类别,如:时间、地点等。细粒度包含 1000 多种类别。
文本分类大概有十几种。句法分析大家也都比较熟,这里就不做赘述。
系统还支持语义角色标注 和文本匹配。
文本图谱包含五类,比如:相似词、上位词、下位词、同义词和反义词。同义词 是语义完全一致的,比如:刘德华的同义词是华仔。相似词 是指同类别下其它比较类似的词,比如:刘德华的相似词是周润发、周星驰。上位词 是知识图谱常用到的实体类型(type),比如:刘德华的类型是演员、艺人。右边是另一个维度可视化的结果。
3. TexSmart 的特色
接下来介绍一下,TexSmart 和传统的文本理解相比的几大特色。
首先,TexSmart 支持上千种细粒度 NER(细粒度命名实体识别),且各个类型之间具有层级结构,最深可达到七层。
其次,TexSmart 增强的语音理解功能,即:上下文相关的语义联想。比如,NER 识别出刘德华后,可以推荐刘德华相似的词,这个和文本理解中有部分是类似的。
最后,TexSmart 是为了多维度应用需求而设计。在设计时,使用了多种算法,兼容了学术界和工业界的不同需求:对运行速度要求比较高的用户,我们设计了比较浅层的像模型,比如:CRF、DNN;对精度要求比较高的用户,我们设计了基于 BERT 相关的模型。
TexSmart 支持 1000 多种类别。
TexSmart 支持语义联想,对句子中给定的实体,预测与其相关联的实体集合。
TexSmart 兼顾了学术界和工业界多种不同的需求。
这里介绍一下 TexSmart 的设计理念和实现方法:
- 针对不同的人群,设计了不同的模型和算法 ,从精度和速度两个维度出发,设计了精度高和速度快的模型。
- 利用无标注数据训练模型,这会使模型不在特定数据拟合,可以覆盖更多的数据,模型的鲁棒性更好。
- 通过增量式收集无标注数据,周期性更新模型。
--
02/智能写作助手 Effidit 介绍
接下来介绍一下智能写作助手,英文叫 Effidit,中文叫文涌。
Effidit 主要功能包括:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。
- 文本纠错包含:删除类、插入类和替换类纠错功能。
- 文本补全包含:短语补全,根据前缀生成短语;句子补全-检索;句子补全-生成,根据前缀句子续写。
- 文本润色包含:短语润色,将词替换为更高级的词;句子改写;句子扩写,将短句添加修饰成分使句子的表达更丰满。
- 例句推荐包括:关键词句子检索,关键词句子生成。
- 云输入法包括:中英文输入法。
- 文涌学术版包括:跨语言例句检索、语义增强的论文检索。
1. 文本纠错
文本纠错包含删除类、插入类和替换类纠错功能。
- 删除类:文本多了一个字,需要进行删除;
- 插入类:文本中少了一个字,需要添加文字;
- 替换类:文本中有错别字,需要进行替换。
左下的图 针对这三类分别举了三个例子。第一个是多了一个"要";第二个是少了一个"到";第三个是错别字"旧"改为"就"。右侧是我们的评测集,我们内部做了一个比较客观的评测,可以看到 Effidit 在同类产品中还是占很大优势的。
英文纠错是我们的特色功能,纠错是可解释的。比如,左下图 需要纠错,在右下图除了进行了纠错,还补充了纠错的原因。
2. 文本补全
英文本补全有两种:一种是后缀补全 ,一种是结合前后语境的句中补全。这里举几个例子。
- 用户输入"那个大汉被打得",给用户推荐"落花流水"和"措手不及";
- 用户输入"成都市区",帮用户补全对应区,如:"武侯"、"高新";
- 用户输入"堡基地建设",帮用户补全"德特里克"、"美国德特里克"。
英文补全其实就是句子续写。比如:用户输入"那个大汉被打得",上面是检索得到的结果,下面是句子生成的结果。可以看到,生成的效果还是不错的。
在句子补全的基础上,系统还支持风格化 。目前定义了科幻、军事、武侠、官场四种风格。用户可以在网页中选择风格,系统会根据前缀生成对应风格的续写。
3. 文本润色
文本润色的短语润色是在用户选中句子中的词后,智能推荐更加贴合语境的相似候选词,使整个句子表达更加精准生动。
句子改写是不改变句子原始语义的情况下,使句子更好。我们还引入句子扩写,即不改变句子语义的情况下,对句子舔砖加瓦,使句子表达更加丰满。
4. 超级网典
我们还提供了超级网典功能,可以满足用户对某种特定的词汇查询。用户输入春天,我们可以给用户推荐描述春天的词汇,如:生机勃勃、繁花似锦。针对英文场景,系统还提供了相关词、近义词和相似词。此外,系统还支持双语的词典,用户输入"优点和缺点",可以看到英文条件下的相关词、近义词和相似词。
除了词级别的推荐,还支持句子级别的推荐。用户输入关键词,检索现有文章中的例子作为例句;同时,还可以将关键词按顺序智能补全,作为完整句子。
5. 云输入法
云输入法可以为用户提供更加丰富及精准的候选结果,更高效的输入效率,同时还提供了英文输入法。
6. 文涌学术版
学术版的文涌对写论文很有帮助。有些英文不太好的用户,输入"重要的进展",就可以看到对应的英文表达,以及论文的出处。同时,还支持论文检索。比如,输入一个算法的术语,可以查询到对应的论文。
--
03/多级可控的无监督文本改写方法
智能写作助手是多模块组成的很复杂的系统,里面涉及到的关键技术非常多。由于时间关系,主要介绍一下文本改写模块的部分关键技术。
文本改写就是输入一段话,输出和输入时语义相关的内容,但表达会有所不同。人类改写过程可以分为不同的层次:
- 全局语义:通读一遍,理解文本的语义信息;
- 局部词汇:大脑会决定某些词汇是不能做修改的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能变成张学友;
- 整体风格,在改写的时候,如果有可以参考的范例,可以从中得到一些文字编辑或句式重构的启发。
我们的工作也将从这三个层级展开。
在无监督场景下,MCPG 可以在三个层级(全局语义、局部词汇和整体风格)上进行控制,生成更加可控的复述结果。
左边的 a 图考虑不给示意样本,只考虑全局语义和局部词汇。比如,输入一句话,通过语义解码器可以获得句子的向量表示。并通过特定的方法,把对应的不可修改的关键词显示标记出来。可以设计一个输入是 Embedding 以及一些关键词的解码器。
如果直接把解码得到的内容送入生成器 Generate,生成的内容和原始的句子是一样的。我们发现,对 Semantic 的向量进行 dropout 是一个很有效的方式。通过 dropout,可以使丰富性变强。
我们会发现,p 和输入的内容很像,p 改写的句子是 q。告诉模型 p 和 q 的信息,在训练的时候做到生成的句子和 q 很像。
全局语义控制 可以通过 dropout 扰动的语义编码向量控制全局语音以及输出的多样性。如果 dropout 是 0.05 或 0.01 时,生成的句子和原始句子很像,几乎没什么变化;当 dropout 很大时,原始向量扰动比较大,但对语义的消耗也会比较大。
局部词汇控制 是通过关键词控制事实性变量在复述文本中不发生变化。其中,关键词通过 NER 工具获得。
整体风格的控制,主要是通过转化向量控制输出的。比如,给定一个输入,我们会告诉模型,和输入相近句子的情况,希望模型也可以类似改写。
上图是模型的结果。
可以看到 dropout 对模型的影响还是蛮大的:当 dropout 很大时,生成的句子和原始句子之间的相似度会直线下降。
平行语料是指基于输入句子后,从多大的空间检索模型输入语料。**可以看到:**语料空间大,和输入语料相同的概率就越大;如果候选集很小,则检索出来的结果也会更不接近。
上图是使用随机关键词对 MCPG-basic 模型性能的影响。
--
04/文本改写评测思考和一种新的指标
接下来介绍一下文本评测的思考,以及改写评测新指标。
目前大家做改写,主要是从模型的角度出发,通过现有经典的指标,如:BLEU、Metric衡量。很少有人思考使用这些指标衡量文本改写的合理性。
这里把文本改写的两个维度列出来:
- 语义相似度,改写需要保留原句的语义;
- 多样性,改写需要有明显的多样性(词级别、语法级别)。
刚才提到,现有研究工作中,绝大部分的工作都是致力于提出更加大的模型。这些模型随着时间推移,效果也越来越好。
以往观点把文本改写(Paraphrase)当做单语机器翻译,所以评估的指标都是借用机器翻译的指标,如:Rough、BLEU。但实际上,改写任务和机器翻译任务有着本质区别。文本改写内容的多样性是至关重要的,而在机器翻译任务中不是必须的。机器翻译主要保证翻译的内容和原本的内容的相似度,但不关注内容的多样性。
如何去改善文本改写的评估方法呢?
经过一系列的实验,我们得出了两条反直觉的发现:
- **绝大多数以往常用的指标在文本改写中表现欠佳。**我们将评测的结果和人工评价的标准进行比对,当差异比较大时,就说明常用指标对于文本改写不适用。
- 模型在处理时会有 reference。 reference-free 是直接通过输入的句子去判断生成的句子的质量;reference-based是通过 reference 判断生成句子的质量。我们发现,reference-free 的指标好于 reference-based 指标。
根据这两个发现,我们探究出其背后的原因:
- Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类(接下来提及)数据的比例。
- 以往常用的指标忽略了多样性的测量。
接下来介绍一下实验设置。假设输入的句子是 X 和对应的 reference R,我们的目标是评测候选输入 C 的质量。对于每个指标 M,可以有 reference-based 和 reference-free。
在 reference-based 中,候选集输入 C 的质量是和 reference 比较的。在 reference-free 中,候选集输入 C 的质量是和 X 进行比较的。测评使用了 Twitter-Para 和 BQ-Para 两个数据集。通过 Metric 分数 和人类标注分数的相关系数进行评价。
红色的数据表示,大部分 reference-free 的效果比 reference-based 好。另外,机器评分和人工评分的一致性比较低。这个图就得到我们刚说到结论:
- **大多数常用指标和人类评估并不一致。**在 Twitter-Para 上,BLUE-4 甚至显示出与人类注释的负相关关系。
- 另外,对于大多数指标,其 reference-free 的变体比 reference-based 更符合人类评估。
我们通过数据观察发现一个现象,**当候选 C 和 R 距离很远,reference-free 更好;当 C 和 R 很近,此时 reference-based 更好。**我们也因此将数据分为 I 类和 II 类。
我们做了一个实验,数据表明:对于候选 C 来说,如果 C 和 R 的距离明显大于 C 和输入 X 的距离,那么 reference-based 的度量会优于 reference-free 的度量。
这个是实验的结果。
现有文本改写的质量主要考虑语义相似度和多样性。以往指标主要考虑相似度,很少考虑多样性。
实验结果表明,所有指标的相关分数都是负的。这说明,对文本改写的评价指标在描述多样性上表现较差。但多样性对文本改写是非常重要的。
因此,我们提出了新的指标 ParaScore。整个得分分为相似度 Sim 和多样性 DS两部分。
这里还有个变体版本,当 C 跟 X 比较近时退化为 reference-free 版本;当 C 跟 R 比较接近时,则为 reference-based 版本。同时,引入 DS,来提升模型多样性。
在两个数据集上,Pearson 和 Spearman 系数的一致性就好了很多。但这些评测指标还是有很大研究空间的。
消融实验结果表明,ParaScore 的设计对 ParaScore 的有效性至关重要。
这个是相关系统的链接,上面是系统的微信群,下面是我的微信,欢迎大家多多交流。
今天的分享就到这里,谢谢大家。
分享嘉宾
蒋海云 博士|腾讯AI Lab 高级研究员
蒋海云, 2020 年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,文本生成等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议发表论文27篇。
《数据智能知识地图》下载
上下滑动⬆️⬇️,查看《数据智能知识地图》预训练模块,完整版请关注公众号"大话数智"下载
DataFun新媒体矩阵
关于DataFun
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。