网页去重。据统计, 网络中一模一样网页所占例超越20%。对于重复的网页大家不必多次处置。所以, 在搜索引擎的达成中进行网页去重是非常有必要的。网页去重操作工作步骤如下: 1) 对于给定的网页抽取文档主题内容, 以此构建特点集合; 2) 依据特点集合信息完成信息指纹计算; 3) 依据Jaccard相似度来确定网页是不是重复。