吴军《数学之美》为什么抄袭文章会被识破？原来数学原理是这样

2020-11-18 12:25:01

相关推荐

与你分享读书、跑步以及一些生活原则，欢迎关注。

第33篇，全文约1242字，阅读时长约3分钟。

在《数学之美》中，吴军在第16章重点谈到了网络下载，为了防止重复下载同一个网页，需要对每个网页进行特征标记。这个原理也进一步扩展到了网络作品反抄袭上。那么为什么抄袭的文章会被系统识破？它的数学基础和逻辑原理又是什么呢？

抄袭现象屡禁不止

文章抄袭，尤其是论文抄袭和网络文学抄袭，一直以来屡禁不止。比如前一段时间炒得沸沸扬扬的“翟天临事件”，还有《花千骨》、《如懿传》、《甄嬛传》、《三生三世十里桃花》、《锦绣未央》等也曾陷入抄袭争议。

还比如我们的自媒体创作者，辛苦创作的文稿被其他人抄袭。和许多其他平台一样，百家号也提供了反抄袭的投诉渠道，一经核实，惩罚也都比较严厉。那么反抄袭的数学基础和逻辑原理又是什么呢？看了吴军的《数学之美》第16章《信息指纹及其应用》，终于找到了答案。

反抄袭的数学基础

我们先说一个概念，什么是信息指纹？我们从两个层面进行理解。

通俗来讲，信息指纹就是提取一个信息的特征，通常是一组词或者一组词及其权重，然后根据这组词运用数学算法，例如MD5，将之转化为一组特定代码，这组代码就成为标志这个信息的指纹。

专业来讲，信息指纹是一段文字中包含的信息是信息熵，理论上无损编码最短长度就是信息熵，但如果仅仅区分几段文字或者图片，则不需要这么长的编码，任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。

产生信息指纹的关键算法是伪随机数产生器算法（prng)。最早的 prng 算法是由计算机之父冯诺伊曼提出来的。其数学基础是模糊数学和随机过程分析。可以证明，只要产生随机数的算法足够好，例如用MD5指纹，它是128位二进制，信息指纹重复的可能性为每一千八百亿亿次才重复一次。

为了便于说明后面的逻辑原理，我们假定算法足够好，认为每一段文字的信息指纹都是唯一的。

反抄袭的数学逻辑原理

理解了信息指纹，我们就好解释什么是反抄袭的数学逻辑原理了。

我们将每篇文章都可以分解成若干小的片段，然后对这些片段中挑出若干关键词，生成每个片段的信息指纹，这些信息指纹构成了全篇文章的特征词集合。利用判定集合是否基本相同，比较文章的信息指纹，就能对比其重复率，然后根据时间先后顺序，就能判定原创和抄袭了。

将此反抄袭方式由文字扩展到图片和视频也是一样的原理，只是图片和视频的提取的特征词是关键帧信息，计算过程更为庞大和复杂一些。

说得简单一点，就是化整为零，逐个比较后再合并算法。就好比我们比较两个人是否长得像一样，五官、身高、皮肤、发型等等逐个比较，逻辑原理是不是特别简单。

尊重原创，杜绝抄袭

当然，数学原理简单和逻辑原理清晰，其过程中的细节处理却是一个复杂的过程。反抄袭仍然是一个任重道远的事情，因为很多文字不一定有电子版本，另外网络资源的使用权限也有个体差异。我们还是要尊重原创，杜绝抄袭。

部分图片来自网络，版权归原作者所有，如有侵权，联系删除！

阅读剩余内容

吴军数学原理数学之美文章会是这样

吴军《数学之美》为什么抄袭文章会被识破？原来数学原理是这样

春节读吴军博士《格局》有感

吴军：写作以及人生思维转换

吴军:格局读后感读书笔记读书心得简介

中国知网论文查重原理解析

吴军老师的课程《阅读与写作50讲》读后感分享值得读吗？