网页的查重技术搜索引擎知识

　阿里云优惠券先领券再下单

对于搜索引擎来说，重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时，在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

网页查重技术起源于复制检测技术，即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具，寻找相似文件。1995年Stanford大学的Brin(Sergey Brin，Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中，基本的核心技术既比较相似。

网页和简单的文档不同，网页的特殊属性具有内容和格式等标记，因此在内容和格式上的相同相似构成了4种网页相似的类型。

1、两个页面内容格式完全相同。

2、两个页面内容相同，但格式不同。

3、两个页面部分内容相同并且格式相同。

4、两个页面部分重要相同但格式不同。

实现方法：

网页查重，首先将网页整理成为一个具有标题和正文的文档，来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤，

一、特征抽取。

二、相似度计算和评价。

三、消重。

1.特征抽取

我们在判断相似物的时候，一般是才能用不变的特征进行对比，文件查重第一步也是进行特征抽取。也就是将文档内容分解，由若干组成文档的特征集合表示，这一步是为了方面后面的特征比较计算相似度。

特征抽取有很多方法，我们这里主要说两种比较经典的算法，“I-Match算法”、“Shingle算法”。“I-Match算法”是不依赖于完全的信息分析，而是使用数据集合的统计特征来抽取文档的主要特征，将非主要特征抛弃。“Shingle算法”通过抽取多个特征词汇，比较两个特征集合的相似程度实现文档查重。

2.相似度计算和评价

特征抽取完毕后，就需要进行特征对比，因网页查重第二步就是相似度计算和评价。

I-Match算法的特征只有一个，当输入一篇文档，根据词汇的IDF值(逆文本频率指数，Inverse document frequency缩写为IDF)过滤出一些关键特征，即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇，并且计算出这篇文档的唯一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入，经计算后即可得到地址值。)，那些Hash值相同的文档就是重复的。

Shingle算法是抽取多个特征进行比较，所以处理起来比较复杂一些，比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数，这种方法计算出的数值为“Jaccard 系数”，它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。

3.消重

对于删除重复内容，搜索引擎考虑到众多收录因素，所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。

网页查重工作是系统中不可缺少的，删除了重复的页面，所以搜索引擎的其他环节也会减少很多不必要的麻烦，节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

SEO技术：提高网页速度的10个方法

早在2010年的某个时候，Google向全世界宣布页面速度会影响网站的排名。页面速度是许多网络营销人员仍然误认为“网站速度”的意思，它是指网站访问者必须等待页面加载的时间，或完全显示特定页面的内容所花费的时间

标签：

网页速度慢

seo优化技术

网页技术
5个网页制作的小技巧，快速提高你的网站转化率

在信息爆炸的时代，用户的每一个点击都很珍贵。我们通过各种渠道好不容易吸引来了网站的流量，如果这些流量没有得到转换，就等于白白浪费了。本文通过总结5个网页制作的小技巧，来提高我们的网页转化率。

标签：

网页设计

网页技术

网站优化

网站转化

网页制作

网页制作教程

frontpage制作网页
回顾网页技术发展智能建站时代来临

自从互联网诞生以来，网站始终是互联网发展的基石。回顾互联网发展的历程，诞生了无数经典的网站。从谷歌、雅虎、百度这些搜索引擎，到新浪、网易、搜狐这些国内的传统门户，还有淘宝、亚马逊这些网购鼻祖，翻看他们的网站设计历程，由简到繁，或者由繁至简，从简单的网页浏览，到完善的用户体验，都是整个网页设计、网站建

标签：

网页设计

智能建站

建站系统

网页建站

网页技术
与SEO密切相关的网页技术

SEO与技术是密切相关的，许多人都认为做SEO是不需要技术的，其实这是一个误区，如果你不懂技术，就不可能把SEO做得很成功，出了问题也不能做出科学的决策，在许多人的眼里，SEO无非是每天发一些文章、发一些外链这样，如果你也这样理解SEO，那说明你的水平还处于一个非

标签：

网页技术

当前位置：首页 > 站长 > 搜索优化 > 正文

网页的查重技术搜索引擎知识

相关文章

SEO技术：提高网页速度的10个方法

5个网页制作的小技巧，快速提高你的网站转化率

回顾网页技术发展智能建站时代来临

与SEO密切相关的网页技术

热门排行

信息推荐

编辑推荐

站内站外形成链轮的深度分析

如何研究行业用户数据与热点追踪

锚文本对关键词排名优化用处大吗如何操作

逆冬分享2个SEO实战干货收录+快排深度剖析结果

利用全拼域名快速排名的技巧

热门标签

当前位置：首页 > 站长 > 搜索优化 > 正文

网页的查重技术 搜索引擎知识

相关文章

SEO技术：提高网页速度的10个方法

5个网页制作的小技巧，快速提高你的网站转化率

回顾网页技术发展 智能建站时代来临

与SEO密切相关的网页技术

热门排行

信息推荐

编辑推荐

站内站外形成链轮的深度分析

如何研究行业用户数据与热点追踪

锚文本对关键词排名优化用处大吗如何操作

逆冬 分享2个SEO实战干货 收录+快排深度剖析结果

利用全拼域名快速排名的技巧

热门标签

网页的查重技术搜索引擎知识

回顾网页技术发展智能建站时代来临

逆冬分享2个SEO实战干货收录+快排深度剖析结果