趣文网 > 作文大全

发愁不会辅导英文作文?这有个AI想帮你搞定

2020-11-17 17:35:01
相关推荐

如果有一个人工智能英语老师,不仅能随时给你的英语作文打分,而且还可以给出改进建议,是不是很妙?

近日在微信公众号平台上线的一款名为“爱写作”的产品,就提供了这样的功能,PingWest品玩和它背后的微软开发团队聊了聊,听他们讲了讲这个人工智能老师究竟是如何工作的。

AI 批改英文作文效果几何?

首先我们来通过例子来看看它的具体表现如何。

“爱写作”的功能分为 3 块,分别是作文打分、语法纠正和词语替换。

这项服务最早可追溯到 2018 年,微软亚洲研究院开发的英语学习服务“微软小英”,上线作文打分功能。2019 年 12 月,微软将其升级之,并命名为“爱写作”,首先在网页端上线。

我们以一篇高三英文作文为例,看看“爱写作”的实际效果。

通过右边检查结果,可以清晰看到,这篇英文作文在高考评分标准下,拿到了 24 分(满分 25 分)。有 5 处语法错误,建议替换 12 处。

打分模块不仅只呈现一个数字,还给出了所衡量的维度。

“爱写作”能根据不同考试类型来打分,用户在批改前可自行选择。众所周知,每个学段考试,对应总分是不一样的。比如高考英语作文满分是 25 分,六级是 106.5 分,而雅思是 9 分。

而在语法层面,错误基本能检查出来,比如 AI 识别“we would sure die”应改为“we would surely die”。

AI 识别“eat in a health way”应改成“eat in a healthy way”。

除了语法纠正,“爱写作”还能通过词语替换来润色作文。词语替换是指,机器给出更高级的用词建议,由用户决定要不要替换。

比如下面这个例子,“爱写作”给出的建议是“connections”替代“contacts”,组成“social connections”。

AI 是怎么改英文作文的?

在作文打分上,“爱写作”采用了微软亚洲研究院研发的序数回归模型。

据微软亚洲研究院文章,作文打分是一种主观行为,要转化为机器打分,需要大量有标注的数据,而序数回归模型大大减少了对标注数据量的依赖。

这项技术把“文章与具体分数的匹配”问题,变成了一个有序的比较大小的问题。

在训练过程中,将已有的标注数据两两配对进行对比,进而形成新的文章与评分,再将此数据加入到标注数据集中,使得可用于训练的标注数据量呈指数级增加,从而整体提高了评分的准确性。

(作文打分的方向和维度)语法纠正方面,“爱写作”同样用到了微软原创的模型。

“语法纠正和机器翻译在技术上有一定相似性。”微软亚洲研究院资深开发经理夏炎介绍,“不管是用户写的文章,还是机器翻译出来的,都要判断这个句子的语法正确性和语言流畅度。”

早在 2018 年 8 月,微软亚洲研究院就发表文章,介绍了一种用于语法纠正的全新学习和推断机制——“流畅度提升学习与推断”(Fluency Boost Learning and Inference)。

该机制基于自然语言处理领域非常流行的 seq2seq 模型。据微软亚洲研究院文章,对于一个用于语法改错任务的 seq2seq 模型,其基本的训练数据为,一个原始句子和正确句子所组成的改错句对,如下图(a) 所示。

从理论上讲,只要有大量的训练数据,就能得到一个相对完美的语法改错模型。

然而实际上,这种改错句对的数量规模相当有限。“我们在做 AI 模型研究时,第一个困难就是训练数据和样本的生成及获取。”夏炎说。

因此,在训练数据并不充足的情况下,seq2seq 模型泛化能力会受到影响,导致哪怕输入的句子稍稍变动一点,模型也可能无法将其完全改正,如上图 (b) 所示。

此外,对于一个含有多个语法错误的句子,单次的 seq2seq 推断往往不能完全将其改正。在这种情况下,需要用多轮 seq2seq 推断来对一个句子反复修改,如上图 (c) 所示。

为了改进 seq2seq 模型的不足,微软亚洲研究院提出了“流畅度提升学习与推断”机制。这一机制可细分为两部分,分别是“流畅度提升学习”和“流畅度提升推断”。

“流畅度提升学习”是指在训练模型的过程中,让 seq2seq 模型生成多个结果,然后将流畅度不如正确句子的生成句子,和正确句子配对,组成全新的流畅提升句对,作为下一轮训练的训练数据。

“中间这些结果都是机器自动生成的,有的流畅度很高,有的流畅度很低。”夏炎说,“我们可以把流畅度低于最终结果句子都拿过来作为训练样本。这样数据收集工作就大大减轻了,是一个很有意义的改进。”

“流畅度提升推断”则是利用 seq2seq 模型对句子进行多轮修改,直到句子流畅度不再提升为止。

这种多轮修改策略能够率先改掉句子一部分语法错误,从而使句子上下文更加清晰,有助于模型修改剩下的错误。

像下图的例子里,机器会先把第一句改成第二句,把“is catched”换成了“caught”,有一定进步,但还没使得整个句子的语法完全一致,因为后面还有“last night”,需要把主语时态“sees”改成“saw”。

经过第二次修改后,结果已经没有毛病,但机器还会进行第三次修改。改完后,句子流畅度已经没有新改变。

“这个时候我们可以认为,语法纠正的流程结束了。”夏炎说,“这其实也是人在批改一篇文章时常见的场景,先把一些容易发现的错误改掉,然后再仔细地读一遍,又发现一些错误,需要循环几次。”

词语替换功能则是基于预训练语言模型。预训练语言模型是自然语言处理的新范式:使用大规模文本语料库进行预训练,对特定任务的小数据集微调,降低单个自然语言处理任务的难度。

2019 年,微软提出了一种新的预训练语言模型 UniLM。在“爱写作”上,这个模型可以通过半遮盖原单词的策略,建议更符合表达者预期的替换词语。

“对于词语替换场景,直接用业界流行的 BERT 模型其实是不太合适的。”夏炎告诉 PingWest 品玩,“这个模型只考虑语法正确性,得出的结果不一定符合原词的观点和想法。”

以“The wine he sent to me as my birthday gift is too strong to drink”这句话为例子,替换目标词是“strong”。

没有遮盖住目标词(keep target word)的 BERT 模型,会给出词义高度相关,但实际不太适合的替换词:“stronger”、“strongly”、“hard”和“much”。

完全遮盖住目标词(mask target word)的 BERT 模型,输出了“hot”、“thick”、“sweet”和“much”。这些词在语法上都是对的,但跟目标词的意思相比,差别还是比较大。

“我们的做法是,通过半遮盖策略,把词中一部分信息隐含掉,然后让模型去预测,机器输出了‘tough’、‘powerful’、‘potent’和‘hard’这些词。”夏炎解释道,“‘powerful’这个词,词义跟原来单词接近,又没有简单把‘strong’变成其他形式,如‘stronger’或‘strongly’。”

得到替换词列表后,“爱写作”还会进行排序,最终把最适合的单词呈现在最上面。

最后,“爱写作”还有微软自研的新一代 OCR 引擎,能检测出图像中的各类文字,同时支持打印体和手写体的复杂文字场景识别。

“总而言之,‘爱写作’主要应用了自然语言理解技术。相较于语音识别和图像处理等感知层面技术,自然语言理解是 AI 在认知层面要解决的最核心问题之一,让机器理解人类语言是非常难的。”夏炎说,“在‘爱写作’中,我们用了很多自然语言处理领域内的经典任务,并且针对写作这个场景优化模型。”

目前,“爱写作”更多是根据用户语法和用词去做打分。夏炎告诉 PingWest 品玩,未来会研究一些新算法和模型,让“爱写作”不止能分析用户的语法错误,还可以更深层地理解作文的结构和组织形式。“如果机器能理解用户写作意图,就可以帮助他在内容组织上进行优化,这是 AI 辅助写作的另一个场景”。

此外,据微软亚洲研究院文章,语法纠正技术还可以被用在英文写作之外的更多场景,比如电子邮件、PPT 演示文稿、翻译文件等。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

我的朋友作文提纲 诚信材料作文 名胜古迹作文500字 爱国作文小学 晚起不如早起作文 我的大学作文500字 介绍黑龙江作文 我的爸爸作文怎么写 描写蟹爪兰的作文 我的家乡作文450字 默默无闻的清洁工作文 人生不设限作文素材 遇见作文600字 600字高中作文 作文遇见 乡下风景作文400字 400字写人的作文 英语万能作文素材 寻觅春天的踪迹作文600字 陪伴 作文 游济南趵突泉作文 书我的朋友作文800字 生活中的烦恼作文400字 晚归作文 我所期待的班级作文 仁者见仁智者见智作文 欣赏什么的我们作文 什么的手作文500字 我爱什么作文350字 父母的爱500字作文