谷歌搜索 Web anti-spam领域：过滤垃圾网站数量是2020年的六倍-行业问题-网易企业邮箱-163企业邮箱申请购买中心

网易企业邮箱，中国企业邮箱第一品牌

咨询电话: 400-999-7163

当前位置: 首页 >> 常见问题 >> 行业问题

谷歌搜索 Web anti-spam领域：过滤垃圾网站数量是2020年的六倍

时间:2022.05.20

根据统计，谷歌搜索在2021年Web anti-spam领域内，过滤的垃圾网站数量、竟是2020年的六倍。据悉，作为Alphabet旗下子公司，Google有一套名为SpamBrian的人工智能垃圾过滤系统，并且可在超过99%情况下实现“不受垃圾所困扰”（spam-free）的搜索体验。

（来自：Google Search Central Blog）

此前，SpamBrain已被这家搜索巨头用于防止用户点击那些可能被注入了恶意软件的有害网站、或旨在诱骗人们泄露个人信息 / 汇款的诈骗站点。

Google表示，鉴于垃圾信息散播者在持续不断地找到绕过过滤机制的方法，基于人工智能的筛查系统也是相当必要的。

需要指出的是，搜索是Google的重要收入来源之一。而高质量和安全的网站搜索结果，也对该公司来说至关重要。
经过多年摸索，垃圾网站制作方早已精通搜索引擎优化（SEO）技术，来人为地提升其搜索排名。
作为应对，Google也迫切需要排除掉那些利用欺诈算法的垃圾网站。

截至目前，Google已借助SpamBrain将垃圾站点砍掉70%，其中包括被黑客入侵并植入有害代码的感染站点。若被其得逞，受害者将被窃取登录凭据等机密信息。

其它类型的垃圾站点，还涉及将恶意软件注入受害者的计算机、或诱导重定向至恶意站点。庆幸的是，Google声称SpamBrain能够将这类害群之马排除在搜索结果之外。

Google政策沟通经理Ned Adriance在一封电子邮件中提到：

欺诈者经常拙劣地模仿其它网站，常见套路是填充替换关键词、假借品牌徽标、并附上想要引诱受害者拨打的电话号码。
而Google的SpamBrain算法方案，能够基本上确保此类欺诈型站点出现在相关搜索结果页面中，且过滤了75%的乱码垃圾站点。

这些垃圾站点往往在一堆无意义的文本中填充大量关键词，以试图提升其搜索排名。有时甚至会砸钱挂上垃圾链接，来诱骗搜索引擎的爬虫和抬升PageRank品质评分。

对于用户来说，时间总是相当宝贵的。而Google的各种解决方案，就希望为用户带来更好的内容检索体验。

Google于2018年推出的 SpamBrain 系统，且与近20年前刚开始治理恶意网站时相比，去年搜索过滤的垃圾站点数量已暴增200倍。

即便如此，这场“道高一尺魔高一丈”的垃圾信息攻防战，显然不会轻易完结。

搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容作弊,链接作弊,信息隐藏三个方面来进行. 往页面加入大量关键词,以对用户不可见的颜色设置字体.这样用户使用不可见的字符串搜索就可能搜索到无关的作弊网页.这种方式主要是基于内容的;分析Pagerank等搜索引擎使用的链接分析技术,构造很多其它网页,并在网页指向作弊网页,这样作弊网页的入度大量增加,导致链接分析失效,排名增高.这种方式主要是基于链接的.

Web spam对于搜索引擎有很大的危害:一方面降低搜索引擎的结果有效性.大量不相关页面占据重要排名位置.另外一个方面, 增加搜索引擎的无效索引,.这样对于每个查询都会耗费不必要的时间来处理这些垃圾索引.

Web spam 和email spam类似,对于某个网页是否真正的spam网页的判断多少是有主观因素的,这也是造成难以防治该类问题的一个核心难点.而目前大多数anti-spam技术都基于以下两个假设:假设一: 非作弊网站一般不会有指向作弊网站的链接(这个假设是有漏洞的,比如honey pot作弊方式,但是大多数情况下是成立的).假设二. 作弊网站往往会增加指向非作弊网站的链接.

本文下面的内容讲述目前常用的一些作弊方法以及比较常见的防治策略.首先需要定义几个概念:

概念一.目标网页----就是作弊者采取一系列措施希望该网页能够在搜索引擎排名中得到比其应该得到的排名高的网页.

概念二:辅助排名网页---作弊者为了提高某个或者某些网页的排名,需要引入大量的其它网页,这些网页的目的是帮助提高目标网页的排名.

一. 搜索引擎spam方法

(1) 内容作弊.目前搜索引擎对于内容相关的判断基本上是基于信息检索领域的TF*IDF模式.TF指的是一个单词在文章中出现的频度,IDF指的是有多少个不同的文章中出现过该词汇.一般来说TF越大,分值越高.IDF越小分值越高,也就是说越少的文章出现过这个词汇,那么IDF分值越高.本质上IDF是衡量词汇权重的一个经典方法.对于作弊者来说IDF基本上是不可控制的,但是TF却是可以操控的.比如通过大量复制作弊词汇并隐藏其可见性可以提高TF值,从而增加搜索引擎排名.另外,搜索引擎对于内容权重的衡量还考虑词汇出现位置,通常考虑的词汇位置包括:文本正文,文本标题,meta tag,URL链接文字以及URL文字.一般文本标题,URL链接文字以及URL文字的权重会比较高.所以作弊者通过在文章标题或者URL链接文字增加作弊词汇来提高排名.这里的URL链接文字不是目标页面包含的链接的文字,而是指向目标页面的链接上的文字.因为一般认为指向目标页面的链接文字是一个摘要性的描述,其准确性比较高,所以权重设定比较大.URL文字指的是在URL中加入作弊词汇比如:www.buy-computer-cheaper.com/not-expensive.htm.内容作弊一般采取以下方式:内容大量重复,提高TF值;在页面加入大量与主题无关的作弊词汇,这样搜索者输入任何作弊词汇都有可能搜索到作弊页面.在有效信息中隐藏作弊词汇,比如将一篇新闻报道文章句子中插入作弊词汇,这种情况比较难以发现.内容拼接,从不同的信息来源摘取不同的句子拼凑成正文,这样只要查询出现句子包含单词就会检索到这篇文章.

(2) Honey pot:作弊网页作者发布有价值信息比如介绍某项技术的技术文章,但是在发布的信息里面隐含指向作弊页面的隐藏链接,这样通过网页本身内容的价值来诱导其它网站增加指向该页面的链接从而间接增加作弊页面的排名(比如本文标题附近的联接http://sonata.iscas.ac.cn/zhjl 以及此处的链接引用,呵呵).比如往blog站点,BBS站点,留言簿或者wiki等可以任意发言的站点增加评论.在发表的评论里面增加指向目标页面的链接,这样会间接增加目标页面的pagerank排名.根据发表评论类型可以分为以下两种:一种是直接发广告性质的与主题无关评论,这个我们经常在BBS或者留言版上看到.一种是评论与主题相关,但是在评论中隐藏无法看到的链接信息.这种情况一般比较难以发现.

(3) 组织spam farm.作弊者建立若干网站,通过精心构建网页之间的链接关系来通过大量辅助页面提高目标页面的排名.

(4) CLOAKING.一般搜索引擎的页面抓取器会定期抓取站点页面,同时会首先访问robot.txt协定文件.作弊者通过在robots.txt做手脚或者记住主要搜索引擎页面抓取器的IP地址来识别搜索引擎,识别之后诱导搜索引擎索引的内容和网站本身的内容不同.

(5) 购买过期域名.过期域名存在大量指向这个域名的链接信息.作弊者通过购买过期域名来获得这些链接信息来提高排名.

(6) 将作弊网页提交到雅虎等目录站点.熟练的作弊者可以通过欺骗目录编辑,使得作弊网页被目录站点收录,一般目录站点的排名很高,所以这样可以有效提高目标页面的排名.

(7) 在目标页面中增加指向重要或者著名网站的链接.这样有可能欺骗搜索引擎目标页面是高质量的索引页面.

(8) 多个域名DNS解析到同一IP地址.因为搜索引擎针对同一域名内链接做过调整,所以作弊者申请多个不同域名但是映射到同一IP.这样来欺骗搜索引擎是不同站点的链接.

(9) 通过页面自动重定向来隐藏作弊页面.

(10) 隐藏文字或者链接.通过设定文字或者链接的颜色为背景色来使得这些作弊文字或者链接对于读者不可见.

(11) 交换链接.作弊者合作交换链接来增加排名.

对于spam farm来说,作弊者通过以下方式可以达到最优作弊:

(1) 单个作弊者能够产生最高pagerank值的link spam方法:一个目标网页(希望排名提升),K个辅助排名网页,K个网页都有且只有一个链接指向目标网页,同样地目标网页也有每个辅助排名网页的一个链接.可以证明这种模式是目标网页通过作弊获得的最大PAGERANK值.同时这个结构也保证只要有一个页面被索引则整个spam farm都能够被索引.只有这样,辅助排名网页采能起作用..对于这种方式可以通过发现这种link farm模式特点的方法来识别可能的作弊网页.

(2) 两个作弊者协作作弊.多个作弊者通过互相链接增加排名.最简单的情况是两个拥有spam farm的作弊者合作,考虑以下几种作弊方式:

a.两人的所有辅助排名网页都同时增加指向对方的目标网页链接.此时两个作弊者的目标网页的pagerank值相等, 假设没有建立联系前各自的值为p和q.作弊后其值等于(p+q)/2 .显然与未交换链接时候相比,原先分值高的比较吃亏,会将一部分分值转移到对方.

b.两人的目标网页互相指向.此时情况与a相同,不过两者建立链接数目减少.减少作弊者人工维护精力.

c.两人的目标网页互相指向,但是将每人目标网页所有指向辅助排名网页的链接去处.此时两者的pagerank分值都有所增加.

(3)对于多个作弊者的有效合作作弊方式: a. 多个目标网页链接形成环形. b.多个目标网页链接形成全链接. 此时对于每个作弊者来说pagerank值都得到提高,都比未合作前的最高值高.

二. anti-spam方法

(1) 人工方式

精度高,但是人工耗费太大,所以不现实.

(2) 半人工方式

半人工方式应该是目前使用比较多的方法,专业的搜索引擎技术公司里面往往会有一批所谓的anti-spam专家来对这些技术进行研究.目前比较通用的一个半人工防治策略如下:

1. 从所有站点随机选择若干站点.比如随机选择2000个站点.(也可以有其它类似的优化策略,比如选择知名度高的网站或者YAHOO等收录的网站作为优良网站的基点)

2. 从2000个站点里面人工判断哪些是优良的网站

3. 链接分析.基本假设是优良网站指向的网站也是优良的.此时可以采取不同的策略,比如优良网站经过K个链接所指向的都认为是优良的.也可以引入衰减因素,离初始优良网站越远的网站其优良性越小.

4. 对遍历过的网站优良性能做评价.此评价作为判断是否作弊网页的依据.

(3) 自动方式

减少人工耗费,是anti-spam研究的目标和方向,但是目前技术对于有些作弊方式很难达到完全自动识别.目前技术主要还是半人工的方式 . 可以自动实现的方式包括:

1. 基于内容的,比如针对标题作弊,如果发现正文内容出现标题文字比例失调,比例太高或者没有出现过,则认为可能是作弊网页.

2. 对于页面内容难以形成主题的页面也很有可能是作弊页面.

3. 针对链接作弊,如果发现可能的spam farm结构或者不正常的大量网站内部相互链接,则判定可能是作弊网站

4. .对于机器自动生成的作弊页面进行特征分析和自动发现.比如机器生成的链接往往很长,包含很多数字和连接符号等.

5. 大量不同域名映射到同一IP地址很有可能是作弊网站.

6 .发现网页的入度,根据分布规律,极少数的网页有非常大量的联入,所以这些大量联入页面如果不是知名网站则很可能是作弊网站.

Web anti-spam领域还是一个比较新的研究领域,经济利益不断驱动人们通过种种”优化”策略来提高网页的排名.所以web spam和anti spam是一个不断学习不断斗争的过程.对此有兴趣的朋友可以和我联系(junlin01 AT iscas dot cn )共同学习共同提高这个方面的技术知识

相关标签

邮箱被盗

网易企业邮箱双因子验证

经营性与非经营性互联网信息服务如何界定

台湾地区的企业邮箱

开发信

日本企业邮箱

网易企业邮箱raid

网易企业邮箱已满

企业邮箱和个人邮箱的区别

邮件进入垃圾箱

outlook降低带附件邮件大小

邮件乱码

外贸邮件敏感词

Exchange限制邮箱用户发送邮件数量和速率

史上最大邮箱账户泄密事件

企业邮箱盗用诈骗

劳动补贴申请骗局

网易企业邮箱免费版

.com域名涨价

电子邮件营销

Exchange限制手机访问

恢复foxmail的 Mails文件夹

发信专属域名

上海疫情期间工资发放

网易企业邮箱验证码

外贸企业邮箱

乌克兰企业邮箱

管理员帐号更换绑定手机

如何将微信文件转至邮箱

微信文件转邮箱

报错530 5.7.1 client was notauthenticated

公正邮

网易企业邮箱超大附件

OSS、COS、OBS

网络钓鱼

网易企业邮箱邮件迁移

网易企业邮箱离职交接

花瓣

网易企业邮箱短信验证码

网易企业邮箱支持群发吗

微信解封

核酸待复核

Exchange每分钟可提交邮件数量

网易企业邮箱

如何设置DKIM

Exchange群组默认不接收外部邮件

收到勒索电子邮件怎么办

Exchange Server的DKIM签名

垃圾邮件

附件变成DAT文件

邮件数量超过限制

网易企业邮箱手机登录

Gmail 如何撤回已发送的邮件

Gmail邮箱屏蔽的文件类型

Outlook已发送邮件在发件箱找不到

win10自带邮件客户端如何导入pst文件

catch-all邮箱

网易企业邮箱第三方伪造

企业邮箱骗局

网易企业邮箱被盗预防措施

SPF和DKIM伪造邮件

收到内部仿冒邮件

Outlook附件限制大小

网易企业邮箱Exchange协议

网易企业邮箱智能仓储管理系统

网易企业邮箱自助查询

进入发件箱显示时间为“无”

企业邮箱邮件签名证书

MDaemon DKIM验证

网易企业邮箱企业网盘

三五互联企业邮箱

网易企业邮箱SPF记录

网易专项邮箱

网易企业邮箱防火墙

Outlook 中的电子邮件创建会议

IPv6改造

软退信

pop协议与imap协议区别

域名实名制

科新机电网易企业邮箱

网易企业邮箱参数

exchange如何删除特定条件邮件

Exchange 2016安装证书

如何修改Outlook 2013ost位置

网易企业邮箱配置转发规则

垃圾邮件识别算法

WordPress Mail SMTP插件

解禁企业邮箱

网易企业邮箱群发开发信技巧

网易企业邮箱尊享版

服务器Hmail Server如何设置DKIM

Office 365如何归档电子邮件

IMAP 服务器已关闭连接

网易企业邮箱邮件审核

Win10自带邮件客户端

黑客

S/MIME邮件证书

Exchange报错

企业邮箱服务需要备案吗？

Exchange添加免责声明

Postfix邮件

邮件列表功能

黄峥

网易企业邮箱ERP

Google Chrome更新

Exchange邮件审核

Winmail DKIM验证

续费率超过100%

路由器摆放位置

本地邮件数据迁移

企业邮箱与即时通讯软件

谷歌文章评论功能

网易企业邮箱任务邮件

Exchange2010 邮箱不可用/数据库修复

企业邮箱仪式感

Exchange企业邮箱自动发送垃圾邮件

7条策略彻底规避企业邮箱服务器成为发送垃圾邮件

Exchange2010/2013限制

发垃圾解禁流程

网易企业邮箱在网易公司位置

Python

离职交接

企业邮箱邮件找不到了

伪造的电子邮件

SMTP 流程

怎么修改Autodiscover的URL

利用已读/未阅读回执发送的垃圾邮件

如何正确使用企业邮箱

网易企业邮箱排版

网易企业邮箱邮件列表功能

网易企业邮箱SPF记录语法

Postfix调整附件

企业邮箱钓鱼诈骗

网易企业邮箱发信源多重认证

A记录、MX记录、CNAME记录、txt记录

垃圾邮件基本概念

网易企业邮箱高防IP

电子邮箱泄密

网易企业邮箱异常邮件

网易企业邮箱DOCmail安全客户端

网易企业邮箱新设备识别

网易企业邮箱兼容Microsoft Edge

Exchange S/MIME

荣联科技

网易企业邮箱SRS技术

如何查询收件方服务器接收邮件大小

Domino SMTP

利用word发送通知邮件

撞库攻击

BEC攻击

电邮安全协议SPF/DKIM/DMARC

个人S/MIME邮件证书

企业邮箱诈骗

网易企业邮箱无代码集成

NDR退信

腾讯企业邮箱Exchange服务

用电子邮件归档解决Microsoft Outlook问题

非本域名的垃圾邮件

企业邮箱的网络钓鱼攻击

网易企业邮箱机房

WinWebMail服务程序没有被安装

英国NCSC

网易企业邮箱安全

去中心化

企业垃圾邮件过滤方式

网易企业邮箱查看被隔离邮件

3G退网

Exchange导出自动转发的用户

亚马逊电子邮件服务

台湾企业邮箱

FBI网络钓鱼

钓鱼邮件与墨菲定律

网易企业邮箱和163企业邮箱区别

腾讯企业邮箱

管理员关闭短信验证

哪些域名后缀可以备案

企业邮箱邮件系统

网易企业邮箱海外版

Postfix限制

邮件模板

网易企业邮箱常用测试命令

工资补贴钓鱼骗局

网易企业邮箱IPv6

网易企业邮箱回源IP段

企业邮箱SaaS服务

企业管理

邮件备份和邮件归档区别

网易企业邮箱服务器出现故障

2022年企业邮箱

DMARC 如何创建记录

跨境企业邮箱

企业邮箱迁移

网易企业邮箱OFD版式文件

启用Exchange 2010 SMTP日志

网易企业邮箱—工业互联网PaaS平台

越复杂的密码也就越安全

邮件系统设计

网易企业邮箱电子文档安全管理系统

网易企业邮箱DMARC

OWA被拦截

Sysrv-hello僵尸

网易企业邮箱安全级别

居家办公神器

网易企业邮箱电子文件管理平台

网易邮件营销

五种常见的邮件归档错误概念

TTL

大量发送电子邮件

企业邮箱云安全

网易企业邮箱强制解析

网易企业邮箱编码规则

日程管理

网易企业邮箱三重“安全门

exchange开启SMTP高级日志

延迟满足

企业邮箱反垃圾防病毒能力

过滤垃圾网站

开发信的核心七要素

Frappo网络钓鱼

Exchange2007限制附件容量

SPF反钓鱼反垃圾的重要性

邮件归档重要性

Exchange 将用户添加至成员组报错

网易企业邮箱自定义登录页

ID 5300、5800、5801报错

Winwebmail

腾讯企业邮箱发信量

企业邮箱市场

客户自有域名的HTTPS

外贸企业邮箱四指标

国外企业邮箱

微软Edge

163企业邮箱

Hive勒索攻击

EMOS

网易企业邮箱海外邮件

Icewarp启用黑名单

网易企业邮箱灾难评估

网易企业邮箱检测cname记录

网易企业邮箱资料窃取

勒索软件攻击

网易企业邮箱湛江机场

阿里云kpi

电子邮件假冒攻击

Linux提权漏洞

集团公司企业邮箱

网易企业邮箱远程办公

企业邮箱 IT系统备份

NLP

网易企业邮箱数据

密码字典穷举爆破

上海企业邮箱申请

上海疾病预防控制中心

Sysrv僵尸网络

DNS Flag Day

帐号安全防护

网易企业邮箱服务器磁盘

董事长能力

网易企业邮箱web3.0

微信电脑双开多开

远程办公

400电话转接手机

企业网站与推广

校园邮旗舰版邮箱容量

网易企业邮箱多网络解决方案

网易支持双机热备份和异地容灾

网易企业邮箱供电

织梦Please set request_order

NFT泡沫

25年技术沉淀，专注企业邮箱

100万+

合作企业
180个

行业和类目
7*24时

服务响应
99.99%

垃圾拦截率

查看更多+ 热门问题

查看更多+ 新闻中心

咨询电话:
400-999-7163

在线QQ咨询:

网易企业邮箱优秀经销商
连续多年获得网易优秀经销商
23年只专注于企邮行业
一心一意专心致力于企业邮箱
一站式服务
满足企业信息化个性需求
售后保障
一对一邮箱顾问服务

网易企业邮箱 - 产品介绍 - 开通邮箱 - 成功案例 - 产品报价 - 优惠活动 - 常见问题 - 关于我们 - 服务范围 - 站点地图 - 核心服务 -
全部区域： - 上海 - 北京 - 安徽 - 福建 - 甘肃 - 广东 - 广西 - 贵州 - 海南 - 河北 - 河南 - 黑龙江 - 湖北 - 湖南 - 吉林 - 江苏 - 江西 - 辽宁 - 内蒙古 - 宁夏 - 青海 - 山东 - 山西 - 陕西 - 四川 - 天津 - 西藏 - 新疆 - 云南 - 浙江 - 重庆 - 香港 - 澳门 - 台湾 - 企业邮箱申请 -
Copyright © 2018-2021 网易企业邮箱申请购买中心客服热线：400-999-7163

咨询电话

400-999-7163

E-mail

admin@163biz.com

提交信息，立即免费体验！

谷歌搜索 Web anti-spam领域：过滤垃圾网站数量是2020年的六倍

时间:2022.05.20

相关标签

25年技术沉淀，专注企业邮箱

100万+

180个

7*24时

99.99%

查看更多+ 热门问题

查看更多+ 新闻中心