百度反作弊的相关信息

还是有关百度反作弊 K站的相关信息,一篇很早的采访稿,受访人刘建国,百度当时CTO

节选部分信息

采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里。采访由此而展开。

《21世纪》:现在来看,当时搜索的核心技术是什么?

刘建国:分成好几块,一块是网页抓取,由蜘蛛程序选择、抓取互联网中的网页,还要持续不断地更新网页,将过期的网页剔除掉;二是超链分析和内容分析;三是针对用户的搜索服务:如何处理海量数据和大规模的用户访问?如何提供稳定的服务?有很多技术问题需要解决。

《21世纪》:“欺骗搜索”是什么意思?你们有什么独特的技术来对付它?

刘建国:就是所谓的网络优化,比如SEO之类,链接一些域名,好象链接很多,但实际上是人为做出来的。还有一些链接,就是专门帮别人做链接,这也是超链分析。你不是链接分析吗?专门针对你。还有一些网站,专门给别人做,相关度也高,我们必须发现哪些是LINKFORM,然后分析出来。

《21世纪》:这如何看得出来作弊?有简单工具吗?

刘建国:我们已经可以通过技术手段及时发现这种欺骗或者叫作弊。是否作弊,有一个很简单的标准:用户看到的内容和搜索引擎看到的内容是否一致?前一段搜索“芙蓉姐姐”,进去之后很多是买手机的,买其他信息,这就是作弊。我们就分析,他们是通过什么方法来“欺骗搜索”。比如LINKFARM,我们靠技术发现出来,它已经 “堆砌关键词”了,我们看出它是作弊的,我就不要它。这就是为何后来反弹这么大,有了“反百度联盟”的原因。有“反百度联盟”成员说,你为什么屏蔽我?前一段搜狐网的一个峰会,一个医药网的说我们很好啊,你为什么把我给封了?它的“堆砌”是作弊的,如果我们把它放开,对用户是一种欺骗。

《21世纪》:在反作弊技术里,有什么可以明确识别作弊?

刘建国:比如,来回互相链接、堆砌关键词等。还有前景色和背景色完全一致,在HTML里面,用户看不见,可以骗搜索引擎,就这样骗用户。

《21世纪》:仅仅背景色也可以用来作弊?

刘建国:背景是黑色的,搜索看见的仅仅是内容,是看不到背景的。前景与后景一样,机器看不着,人能看出来,景色也是识别的因素。其中的文字就是有些网站想欺骗的东西。有很多方法作弊,层出不穷的。搜索与作弊网站是永远不会结束的战争。

《21世纪》:与Google的反作弊比,你们有什么优势?

刘建国:说 Google的技术比我们好,我不认同,他们主要是不够集中。比如反作弊的,Google中文就做不过我们,这有技术问题,还有人力,要知道作弊惯用的手法,而Google不知道。这个模式我们比Google发展得更快,我们更接近用户。我们中文的理解做得比他们好,比如像分词、切词,中文是一个一个字,放一块儿,那些字和词是不一样的。我做得比Google好。他们没有专门研究中文。

《21世纪》:你们重要在分析用户还是客户?

刘建国:重要的是分析网页,网页与网页之间的分析。WEB的方式,是由HTML组成的。网页与网页之间的是URL,最大好处是网页与网页之间可以用超链来指,叫 HYPERLINK,指向另外一个网页是做什么的。比如“中国人民银行”会指向很多东西,每个都是链。他们指向他,LINK有一个叫评价,U1对U2的评价。第一是指向,第二是评价。这是一个网页,“中国人民银行”就是超链,他指向另外一个——有说明中国银行是做什么的,指向后,另一个是指向的U2,另外还有U3。很相关的排前面,找到最权威的。最后综合加权,中国人民银行大,其他商业银行小,那么就加权,算出来结果谁排前面。

其实文中也没有提到什么,不过可以看出百度对SEO的态度如何

百度会将过期的网页剔除掉,百度喜欢新内容

利用判断蜘蛛来显示不同信息的在百度眼里是作弊行为

文中还提到了人工,百度的人工审核人员很多,不过百度技术仍旧很次

刘建国:曾任百度公司首席技术官(CTO),现任生活搜索网站爱帮网http://www.aibang.com)首席执行官(CEO)兼总裁。

标签:

作者: LinkBuilder

链接: 百度反作弊的相关信息

本站所有文章,除特别标明外,皆为原创。如需转载,请复制粘贴下面的代码到文章底部.

转载自 <a href="http://link-builder.cn/blog/2009/11/13/baidu-anti-smap-2/" title="百度反作弊的相关信息" rel="bookmark">百度反作弊的相关信息 | SEO | Link Building</a>