趣文网 > 作文大全

吴军《数学之美》 为什么抄袭文章会被识破?原来数学原理是这样

2020-11-18 12:25:01
相关推荐

与你分享读书、跑步以及一些生活原则,欢迎关注。

第33篇,全文约1242字,阅读时长约3分钟。

在《数学之美》中,吴军在第16章重点谈到了网络下载,为了防止重复下载同一个网页,需要对每个网页进行特征标记。这个原理也进一步扩展到了网络作品反抄袭上。那么为什么抄袭的文章会被系统识破?它的数学基础和逻辑原理又是什么呢?

01

抄袭现象屡禁不止

文章抄袭,尤其是论文抄袭和网络文学抄袭,一直以来屡禁不止。比如前一段时间炒得沸沸扬扬的“翟天临事件”,还有《花千骨》、《如懿传》、《甄嬛传》、《三生三世十里桃花》、《锦绣未央》等也曾陷入抄袭争议。

还比如我们的自媒体创作者,辛苦创作的文稿被其他人抄袭。和许多其他平台一样,百家号也提供了反抄袭的投诉渠道,一经核实,惩罚也都比较严厉。那么反抄袭的数学基础和逻辑原理又是什么呢?看了吴军的《数学之美》第16章《信息指纹及其应用》,终于找到了答案。

02

反抄袭的数学基础

我们先说一个概念,什么是信息指纹?我们从两个层面进行理解。

通俗来讲,信息指纹就是提取一个信息的特征,通常是一组词或者一组词及其权重,然后根据这组词运用数学算法,例如MD5,将之转化为一组特定代码,这组代码就成为标志这个信息的指纹。

专业来讲,信息指纹是一段文字中包含的信息是信息熵,理论上无损编码最短长度就是信息熵,但如果仅仅区分几段文字或者图片,则不需要这么长的编码,任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。

产生信息指纹的关键算法是伪随机数产生器算法(prng)。最早的 prng 算法是由计算机之父冯诺伊曼提出来的。其数学基础是模糊数学和随机过程分析。可以证明,只要产生随机数的算法足够好,例如用MD5指纹,它是128位二进制,信息指纹重复的可能性为每一千八百亿亿次才重复一次。

为了便于说明后面的逻辑原理,我们假定算法足够好,认为每一段文字的信息指纹都是唯一的。

03

反抄袭的数学逻辑原理

理解了信息指纹,我们就好解释什么是反抄袭的数学逻辑原理了。

我们将每篇文章都可以分解成若干小的片段,然后对这些片段中挑出若干关键词,生成每个片段的信息指纹,这些信息指纹构成了全篇文章的特征词集合。利用判定集合是否基本相同,比较文章的信息指纹,就能对比其重复率,然后根据时间先后顺序,就能判定原创和抄袭了。

将此反抄袭方式由文字扩展到图片和视频也是一样的原理,只是图片和视频的提取的特征词是关键帧信息,计算过程更为庞大和复杂一些。

说得简单一点,就是化整为零,逐个比较后再合并算法。就好比我们比较两个人是否长得像一样,五官、身高、皮肤、发型等等逐个比较,逻辑原理是不是特别简单。

04

尊重原创,杜绝抄袭

当然,数学原理简单和逻辑原理清晰,其过程中的细节处理却是一个复杂的过程。反抄袭仍然是一个任重道远的事情,因为很多文字不一定有电子版本,另外网络资源的使用权限也有个体差异。我们还是要尊重原创,杜绝抄袭。

部分图片来自网络,版权归原作者所有,如有侵权,联系删除!

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

借物抒情的作文300字 海边作文200字 获得启发的作文 一般将来时作文 作文《我的烦恼》400字 我最喜欢的一个人作文600字 写广场的作文 青春材料作文 关于柴犬的作文 诚信的重要作文 作文素材精选 描写夕阳西下的作文 作文校园的一角300字 五段式英语作文 邀请信英文作文 成语故事作文200字 生活因什么而美好作文 秋季作文500字左右 南海影视城作文 生活如诗作文700字 终点也是起点作文 我的理想作文怎么写 作文污 浙西南革命精神作文 跪射俑作文 二年级作文好词好句 中国成就作文 有你在我身后作文700字 放假了作文400字 学期计划作文