托福写作机器批改中的人工智能应用
ETS设计托福独立写作之初,是想通过这种以文章为基础(essay-based)的测试鼓励学生对话题有更好的概念性理解(a better conceptual understanding of the material), 例如教育教学,科技发展,环境保护,以及生活态度等,从而反映出大家对于知识和应用水平的更深层次理解( reflect a deeper, more useful level of knowledge and application by students)。
因此,ETS对考生托福作文进行评分和提出修改意见,不仅是一种评估方法,而且是一种反馈手段(not only as an assessment method, but also as a feedback device to help students),有助于学生更好地学习托福考试的话题内容,进行有效的独立思维和批判式思维训练,更是对写作技能的整体提升。
但是,随着托福全球考生数量的激增,ETS很难找到足够训练有素的托福考官来完成规定时间内的阅卷工作。当考官工作量过大时,也会出现打分的不正常波动,影响打分的客观性和准确性,机器阅卷(E-Rater)就此诞生。
ETS的E-Rater在项目启动之初就采用了学术界最前沿的人工智能技术,并与普林斯顿大学、宾夕法尼亚大学、哈佛大学一起建立了研发中心。ETS几十年沉淀的海量数据与顶尖院校研究员的智慧相结合,尤其是在近几年深度机器学习(Deep Learning)的帮助下,托福机器阅卷的评分效力已经可以媲美甚至超过一名经过专业训练的托福考官。
今天这篇文章,我会给大家介绍托福写作机器批改中的人工智能应用。
E-rater通过计算机数据功能对于考生写作文本的相关信息进行一定的标签匹配,结合ETS的过往的写作数据库来审核考生的写作质量。它利用的是计算机语言学中的自然语言处理(Natural Language Process,简称NLP)方法。
其中E-rater比较擅长捕捉的是考生的语言使用,E-rater系统将考生考场作文的语言与数据库中不同分数段的文章的语言进行比对,判断考生的写作语言质量;
同时,E-rater还可以通过检测逻辑连接词的使用来大致判断考生文章的逻辑衔接情况,通过匹配主题关键词来检测考试的文章发展是否出现跑题。
简单来说,像手机软件“唱吧”一样,E-rater就是把考生的作文与数据库里的文章进行比对,从而给出系统判断的分数。
目前的确直接使用计算机评分(computer-based assessment)的评测考试暂未完全普及,主要原因是目前的机评主要是通过统计方法(a statistical approach)分析来自该话题/领域的文章和内容信息。当然目前的计算机技术可以对考生们的托福写作进行直接打分,从而证明这种系统的统计方法是对文章质量的准确衡量(the quality of essays)。
目前普遍使用的计算机评分机制的文本分析是基于潜在语义分析(Latent Semantic Analysis -LSA)。对LSA的详细处理,无论是作为人类知识获取和表达方面的理论,还是作为文本语义内容提取的方法,目前都是心理学,应用语言学等领域广泛研究的课题。同时,许多认知心理学和语言学现象的模拟也显示,LSA能够通过统计学的方式捕捉到大量在话语中表达的意义的相似性(captures a great deal of the similarity of meanings expressed in discourse)。
LSA所做的相似性比较是通过比较文章之间的意义相似性(through comparing the similarity of meaning between essays)来实现自动评分的基础。这就是为什么阿伦老师在进行托福写作月计划课程中一直强调学生们要熟练运用“托福独立写作高分素材集”的原因。
“托福独立写作高分素材集”是通过历年托福独立写作高频话题的词与语篇汇集在一定的话题空间中。让考生们在写作备考中高强度地模仿托福写作考试所要求的语言表达特征。这也是为什么不少同学都在一个阶段的课程以及讲义相结合的过程中可以最终实现25+的托福写作成绩。
早期的机器批改主要集中在文章的系统特征上(mechanical features),例如文章的语法、拼写和标点符号问题。但大家都知道写作一篇好文章还涉及其他因素。例如,在抽象层次上(abstract level),我们可以区分学生论文的三个值得评估的属性:
1. 对包含的概念知识的正确性和完整性; (the correctness and completeness of its contained conceptual knowledge);
2. 在论述写作话题时所提出论点的合理性; (the soundness of arguments that it presents in discussion of issues)
3. 写作的流畅性、优雅性和可理解性(he fluency, elegance, and comprehensibility of its writing.);
对于显性的语法特征和句法特征的评价很容易通过计算机进行实现。但其他因素:文章内容、论点、可理解性和文字风格就很难进行可测量的评估,因为它们相互影响,哪怕只是一个细小的选词问题,这也成为了早期E-rater功能再怎么强大,也是ETS决定以人工阅卷模型来进行最终评分的主要原因。
因为早期的E-rater主要集中在对文章进行评分的计算方法上,针对文章内容的评分系数仍然属于次要的、间接的评分因素。在经历一段时间的技术迭代之后,LSA方法开始成为被认可的评分机制。就是因为LSA方法关注的是概念内容(the conceptual content)、文章所传达的知识(the knowledge conveyed in an essay)。
为了评估论文的质量,LSA首先对领域代表性文本进行训练。基于此训练,LSA导出域中包含的信息的表示。然后,学生论文的特点是基于所有单词的组合的LSA向量。然后,可以将这些向量与散文或具有已知内容质量的文本的向量进行比较。这两个向量之间的夹角代表了这两篇文章讨论相似信息的程度。例如,未评分的文章可以与已经评分的文章相比较。如果两篇文章的角度很小,那么这些文章的内容应该相似。因此,可以比较两篇文章的语义或概念内容,并根据它们的相似性得出分数。请注意,两篇文章可以被视为内容几乎相同,即使它们包含很少或没有相同的词,只要它们表达相同的意思。
随着语言学家们不断结合深度学习,专家们认为深度编码的特征(E-rater)和手动批改(human rater)的功能相结合才是有效的自动作文评分(Automated Essay Scoring)系统。
专家们因此设计了两阶段学习框架(TSLF),它结合了功能模型(feature-engineered models)和点对点模型(end-to-end models)。如图所示:在图1中,在第一阶段,计算机可以计算得出语义得分Se,一致性得分Ce,输入相关得分Pe。在第二阶段,这三个分数和一些手动批改的功能被连接起来并被编码到一个上升模型进行进一步的系数计算。
随着语言学家们不断结合深度学习,专家们认为深度编码的特征(E-rater)和手动批改(human rater)的功能相结合才是有效的自动作文评分(Automated Essay Scoring)系统。
专家们因此设计了两阶段学习框架(TSLF),它结合了功能模型(feature-engineered models)和点对点模型(end-to-end models)。如图所示:
在图1中,在第一阶段,计算机可以计算得出语义得分Se,一致性得分Ce,输入相关得分Pe。
在第二阶段,这三个分数和一些手动批改的功能被连接起来并被编码到一个上升模型进行进一步的系数计算。
在Table 1中,专家们列举出了手动批改(human rater)的潜在机制:
1. 语法错误数;
2. 文章长度;
3. 单词长度的均值和方差;
4. 句子长度的均值和方差;
5. 写作文章中的从句数量;
6. 写作文章中的词汇量;
直觉上,大家会认为语法错误多基本就是写作高分的主要原因。但是,通过数据分析,我们发现写作最低分通常是因为字数严重不足而造成。因此,基于长度的特征是大家在进行写作练习是务必要考虑的因素。关于字句的复杂性,这是阿伦老师在课上一直给大家强调的句子多样性和复杂性的要求。如果大家想要进一步去了解Language Use的细节,建议大家去阅读《托福官方指南(第5版)》第669页到731页的第10章Writer’s Handbook for English Language Learners的具体内容。
人工智能对于很多行业的改变是颠覆式的,连语言学习和测评这块硬骨头都被ETS啃下来了。但是无论是人工批改还是机器评分,对于托福考生的语言要求是一致的,只要大家用心备考,扎实提高自己的英语写作能力,高分终归是你的。