搜索引擎如何识别原创文章
原创其实根本就没有明显的界限,因为有些东西它本身含有的知识点都是重复的。下面我为大家举一个例子。
例如,写“如何做西红柿炒鸡蛋”的文章,虽然会有千奇百怪的写法,但是,如果将1万个人关在小屋里,给他们笔和纸,让他们写,写完上交后。不难发现,其中会有几篇内容是相似的!如果我们作为审阅人,在不知情的情况下,会认为这些文章中有抄袭的!如果让搜索引擎来看这1万篇“如何做西红柿炒鸡蛋”的文章,又会如何呢?
在搜索引擎中,信息量十分的庞大,它又是如何辨别原创的呢?其实这是一个十分有趣的问题。百度判断文章的原创程度会有2次筛选:一次是蜘蛛爬行抓取文章时,对抓取数据的重复检测;一次是在搜索引擎读取文章内容的时候,对文章内容重复度的检查。
对于第一次筛选,是按照数据的相似度来判断的(包括了代码)。搜索引擎会根据无数的文章资源来判定一个相似度百分比(因为网络资源不断地更新,这个判断标准也不断的变化),超过一定的相似度,文章就会被pass掉。第一次筛选相对而言,并不严格。
第二次筛选,则是针对文章的主要内容(不包含代码),筛选的方法也是根据相似度来判断。搜索引擎它会把网页中没用的部分去掉(代码和一些没用的感叹词、介词等),通过分词,将一个页面的内容分成很多个关键词(这些关键词便是这个页面的核心内容),然后把页面中的关键词存储在数据库中,然后会通过数据库资源的对比,来决定文章的原创度(就像指纹一样,如果指纹完全符合,那就说明这个指纹是你的,对于文章而言,数据相同,便是抄袭的)。
对于第二次筛选有好处也有优点。通过去掉没用的词,如“的”“吗”等,再来对比会更加准确,但是同样的,一个页面除了文章外,还有很多其他的不同内容,因此,判别起来也会有写难度,甚至会造成抄袭文章也会收录的现象。
搜索引擎每天都会获取大量的数据,因此,判定文章原创度的标准也在浮动,因此会出现文章收录后被吐出来,或者没有收录的文章又被收录了。
探讨搜索引擎判断原创内容
1、或许会有人疑问:为什么相同的文章发在不同的平台都会被收录。
这个问题不难回答。我们再看看上面举得写“如何做西红柿炒鸡蛋”的这个例子。对于搜索引擎而言,这样的文章里面的关键词几乎都是一样的(鸡蛋、西红柿等)。但是,这1万篇文章是每个人动手写的,没有抄袭的可能,但是因为作法相同,而出现了文章相似程度极高(指纹几乎都是一样的)的情况。面对这种情况,搜索引擎也会有自己的处理方法:把收录条件降低。这也造成了,伪原创的出现(伪原创文章收录相对而言还是不错的)。
除此之外,就算是抄袭文章,文章页除了文章外,还有很多其他的内容,这些都会是影响文章原创度的因素!另外,百度的数据库极为庞大,一天就处理数百万的文章,会出现反应迟缓的现象,造成文章先收录后吐出的现象。
还有比较特殊的一点是,搜索引擎的目的便是为用户提供有用的讯息,会尽可能的提供更多的搜索结果来满足用户的需求,特别是对于一些有时效性的新闻,搜索引擎会希望这些内容更快的传递,所以会收录一些内容相似、甚至内容完全一样的文章。
以上种种因素都会造成搜素引擎收录两篇几乎一样的文章的现象出现。
2、或许会有人疑问:为什么文章收录了,过段时间就没了?
如果是原创文章,这种几率很低,也并不是没有。如:(1)你的文章被高权重网站采集了(这种情况联系对方的站长)。(2)伪原创。对于伪装创,收录后过段时间就没了,这是正常的,对于百度而言,每天都会采集大量的信息,因此决定文章收录的数据库指纹种类也不断的变化,所以会出现此种情况。
3、或许会有人疑问:权重高为什么收录快?
举例子来说,买东西我们习惯性的看品牌(因为我们会认为该品牌的东西质量好)。搜索引擎也是一样,对于它默认的一些好的大型的网站,会默认为这网站的内容好,所以蜘蛛爬行的就会频繁。甚至有时候,这些网站纯粹的粘贴复制也会比小网站收录快很多。