“重复”内容识别:一场人类与机器间的智能竞赛


    有时候,人类与机器在判断哪些内容属于“重复内容”时会产生某些分歧。
    机器学习与基于算法的智能系统虽然拥有令人印象深刻的表现,但同时也缺少人类天然存在的一种能力:常识。
    众所周知,在多个页面上放置相同的内容会产生重复内容。但是,如果我们打算在多个页面内生成关于相似事物的内容,又会发生怎样的情况?算法会将其标记为“重复”,但人类则能够轻松区分这些页面:
    -电子商务:具有多种变体或关键差异的类似产品。
    -旅游:酒店分店、目的地套餐、内容相似。
    -分类:相同项目的详尽清单。
    -企业:本地分支机构的页面,在不同地区提供相同的服务。
    为什么会出现这些问题?我们该如何发现此类问题?又应怎样解决这些问题?
    重复内容的风险
    在用户进行搜索时,重复内容会通过以下方式影响您的网站对用户的可见性:
    -因无意中存在相同关键词而失去唯一匹配网页的排名。
    -由于谷歌只会选择其中一个网页作为规范化,因此无法对群组中的网页进行排名。
    -由于内容被严重简化,因此失去网站权威性。
    机器如何识别重复内容
    谷歌公司利用多种算法确定两个页面或者页面中的多个部分是否存在内容重复,谷歌将根据相关结果将内容判定为“明显相似”。
    谷歌公司的相似性检测基于其专利Simhash算法。这种算法能够分析网页当中的内容块,而后将每个内容块计算为唯一标识符,最终为各个页面生成一个散列,或者称为“指纹”。
    由于网页数量巨大,因此可扩展性至关重要。目前,Simhash是唯一可行的大规模重复内容查找方法。
    Simhash指纹拥有以下特性:
    -计算成本低廉。其以目标页面的单一爬取结果为生成基础。
    -由于长度固定,因此不同指纹间易于比较。
    -能够找到具有高重复可能性的内容。与其它多种算法不同,Simhash能够将页面上的微小变化体现为散列中的微小变化。
    最后一点意味着任何两个指纹之间的差异都可以通过算法进行衡量,并表示为百分比形式。为了降低每个页面的评估成本,谷歌公司采用了以下技术:
    -聚类:将多组具有一定相似度的页面分于同一群组。由于其它所有不同分类的指纹都已经被排除,因此只需要比较该群组内的指纹,即可得出相对正确的结论。
    -评估:对于规模极为庞大的聚类,在计算一定数量的指纹之后利用平均相似性进行判断。
    比较页面指纹。图片来源:用于网络爬取的近重复文档检测(归谷歌所有)
    最后,谷歌方面利用加权相似率排除具有相同内容的特定内容块(样板:标题、导航、侧边栏、页脚;免责声明等)。其会考虑到页面主题,并利用n-gram分析来确定页面上出现频率最高的词语,同时结合站点上下文判断这些词语的重要性。
    利用Simhash分析重复内容
    我们将利用Simhash查看被标记为相似的内容聚类图。此图表来自OnCrawl,其中涵盖了对重复内容聚类中重复内容策略的分析过程。
    OnCrawl的内容分析还包括相似率、内容聚类以及n-gram分析。OnCrawl也在开发一款实验性热图,希望直接覆盖在网页之上表示各个内容块的相似性。
    按内容相似性进行网站绘图。其中每个块代表具有类似内容的聚类,不同颜色则表示每个聚类间规范化化策略的一致性。资源来源:OnCrawl。
    利用规范化进行聚类验证
    利用规范化URL指示一组相似页面当中的主页面,使得我们能够主动对大量页面进行聚类。在理想情况下,以规范化为基础建立的聚类应该与由Simhash建立的聚类完全相同。
    规范化聚类与相似性聚类(绿色部分)间的匹配结果。结论:有6页内容为100%相似,这意味着您的规范化策略与谷歌的Simhash分析以同样的方式对其进行处理。
    如果结果与上图不符,则通常意味着您的网站之上不存在规范化策略:
    无规范化声明:各个包含成百上千个页面的聚类之间,拥有着99%到100%的平均相似度。谷歌公司可能会采用规范URL。您无法控制哪些页面参与排名,哪些不参与。
    或者,由于您的规范化策略与谷歌在类似内容的聚类处理方法之间存在冲突:
    规范化问题:相似性超过80%且各聚类拥有多个标准URL的大型聚类。谷歌公司会强制使用自己的标准URL,或者将您希望保留的重复页面索引排除在搜索索引之外。
    您网站的聚类与以上聚类不同。您已经遵循了重复内容的最佳处理实践,包含相同内容的URL(例如可打印/移动版本或CMS生成的备用网址)会声明正确的规范URL。
    在规范化处理后绘制出的相似性聚类。
    过滤掉由规范化策略正确处理的重复内容。其余的非规范化URL即为您希望进行排名的页面。
    以原有映射图为基础,移除已验证(绿色)聚类以及相似性低于80%的聚类。其余46个聚类中,大部分只包含2个页面。
    仍然出现在基于Simhash与语义分析聚类中的URL,即为您与谷歌认为存在重复问题的页面。
    
    
    1  2  下一页>