吴军《数学之美》 为什么抄袭文章会被识破?原来数学原理是这样
与你分享读书、跑步以及一些生活原则,欢迎关注。
第33篇,全文约1242字,阅读时长约3分钟。
在《数学之美》中,吴军在第16章重点谈到了网络下载,为了防止重复下载同一个网页,需要对每个网页进行特征标记。这个原理也进一步扩展到了网络作品反抄袭上。那么为什么抄袭的文章会被系统识破?它的数学基础和逻辑原理又是什么呢?
01抄袭现象屡禁不止
文章抄袭,尤其是论文抄袭和网络文学抄袭,一直以来屡禁不止。比如前一段时间炒得沸沸扬扬的“翟天临事件”,还有《花千骨》、《如懿传》、《甄嬛传》、《三生三世十里桃花》、《锦绣未央》等也曾陷入抄袭争议。
还比如我们的自媒体创作者,辛苦创作的文稿被其他人抄袭。和许多其他平台一样,百家号也提供了反抄袭的投诉渠道,一经核实,惩罚也都比较严厉。那么反抄袭的数学基础和逻辑原理又是什么呢?看了吴军的《数学之美》第16章《信息指纹及其应用》,终于找到了答案。
02反抄袭的数学基础
我们先说一个概念,什么是信息指纹?我们从两个层面进行理解。
通俗来讲,信息指纹就是提取一个信息的特征,通常是一组词或者一组词及其权重,然后根据这组词运用数学算法,例如MD5,将之转化为一组特定代码,这组代码就成为标志这个信息的指纹。
专业来讲,信息指纹是一段文字中包含的信息是信息熵,理论上无损编码最短长度就是信息熵,但如果仅仅区分几段文字或者图片,则不需要这么长的编码,任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。
产生信息指纹的关键算法是伪随机数产生器算法(prng)。最早的 prng 算法是由计算机之父冯诺伊曼提出来的。其数学基础是模糊数学和随机过程分析。可以证明,只要产生随机数的算法足够好,例如用MD5指纹,它是128位二进制,信息指纹重复的可能性为每一千八百亿亿次才重复一次。
为了便于说明后面的逻辑原理,我们假定算法足够好,认为每一段文字的信息指纹都是唯一的。
03反抄袭的数学逻辑原理
理解了信息指纹,我们就好解释什么是反抄袭的数学逻辑原理了。
我们将每篇文章都可以分解成若干小的片段,然后对这些片段中挑出若干关键词,生成每个片段的信息指纹,这些信息指纹构成了全篇文章的特征词集合。利用判定集合是否基本相同,比较文章的信息指纹,就能对比其重复率,然后根据时间先后顺序,就能判定原创和抄袭了。
将此反抄袭方式由文字扩展到图片和视频也是一样的原理,只是图片和视频的提取的特征词是关键帧信息,计算过程更为庞大和复杂一些。
说得简单一点,就是化整为零,逐个比较后再合并算法。就好比我们比较两个人是否长得像一样,五官、身高、皮肤、发型等等逐个比较,逻辑原理是不是特别简单。
04尊重原创,杜绝抄袭
当然,数学原理简单和逻辑原理清晰,其过程中的细节处理却是一个复杂的过程。反抄袭仍然是一个任重道远的事情,因为很多文字不一定有电子版本,另外网络资源的使用权限也有个体差异。我们还是要尊重原创,杜绝抄袭。
部分图片来自网络,版权归原作者所有,如有侵权,联系删除!