关于nofollow的一些想法

Tuesday, 02. 9. 2010

点石论坛上看到的:原文

我在一个站上面看到一些留言,都是nofollow的,这个站点本身是个比较受欢迎的音乐站点,从这个站点的风格和每天的更新数量可以看的出来,再加上 pr:5,alexa排名高,1w名之内,不用说,肯定每天的流量不会低,可想而知,如果在这种站点上面留言,并且加上一些链接的话,效果肯定是非常不错 的。即使在不能做为google的外链的情况下,还是可以为站点带来流量的。
回头看下nofollow的链接:
<a rel=’nofollow’ href=”#”>xxx</a>
在没发布之前,我们发的链接是这样子的<a href=”#”>xxx</a>,后来加上了一个属性值,就把它nofollow掉了。
接下来呢,我试了下,自己给链接加上了rel属性值,即<a rel=’dofollow’ href=”#”>xxx</a>
结果如我所料,nofollow效果消失了

很不错的想法

百度排名技术

Sunday, 01. 31. 2010

讨论百度的排名方式,本文讨论的都是长尾方面的问题

百度长尾排名的一条整体思想:新的比旧的强

意思就是,百度喜欢新鲜的东西。

这种方式自然有他的好处

先来看看好处

在很多领域,特别是娱乐和网民大量关注的领域中,这个非常好用。因为新的确实比旧的强,新的娱乐新闻肯定是大家更想看的,新的减肥方法也是大家关注的,新的话题也是大家希望看到的东西。所以普通用户都感觉:百度挺不错的。

当然长尾的排名在百度的这条整体思想下,还会根据网站的权重进行具体排名。

看看这些方面google的做法

对新话题给予特殊的权重,包括新博客页面等,搜索整合,博客,新闻等,这是google对新话题的基本操作方式。

在来看看百度这种排名方式的坏处

坏处就多了,特别是对于细分或者专业的领域,百度的这种排名方式是很傻的,因为很多领域更新不是最重要的,权威才是,但是百度仍旧用他新的比旧的强的思想来排名使得很多有用的信息无法出现,就因为你已经不是最新的了,百度或许会把一个抄袭你的信息排在前面,只因为他出现的比较晚。百度是不稳定的。

在百度这条整体思想的带领下,百度的技术比google差了10万八千里,可悲的是百度根本不知道进步

百度甚至无法很好的收录文章分页

对比百度google

google可以处理好基本上大部分的搜索,百度继续它的娱乐化。

近期遇到的问题

1:以前gogole对网站更新很及时,最近一个月google几乎不收录新页面,日志中虽然GogoleBot在抓取,但是基本上都是在爬已经收录过的页面。

2:以前百度对网站更新也很及时,几天前BaiduSpider几乎不出现在日志里面了,每天只抓固定的几个页面,robots 首页 ,居然都返回404。

网站没有任何问题,能正常访问,网站众多页面快照停留在11.27号。

开始怀疑是程序问题,将首页全部换成.html的,结果还是返回404

不得已写了个程序抓一下试试,发现居然返回的也是404

又用了一个早期的程序继续抓取,正常,返回200

后经测试发现第一个程序根本抓不到正确的目录,只能到达apache的根目录

所以猜测是服务器域名配置的问题

服务器的配置二级域名都是通过vhost.map来实现的

改用另外一种方式配置

再用第一个程序抓取,正常返回200

猜测:

百度和google近期更新了抓取的算法,新的抓取程序对利用vhost.map这种方式配置的网站上无法正常访问的

如果你也用vhost.map配置域名,就要赶紧改过来了。

分智;归来

Friday, 12. 11. 2009

撒花,庆祝,服务器归来 http://www.coent.cn/

上周5晚上12点 到今天刚好满一个星期了,上海电信机房

为现在仍旧被关,已经即将关的默哀

Google搜索结果新变化

Monday, 11. 23. 2009

Google搜索结果新变化,用面包屑导航代替网址显示

看不到的话,退出登录,清除cookie,基本上就能看到了

链接建设方法的变化

Saturday, 11. 21. 2009

SEOmoz的文章:http://www.seomoz.org/blog/link-building-has-changed

外部链接建设方法的变化

2000-2002:链接交换为主,通过邮件请求链接,或者购买链接

2003-2004:交叉链接,付费的文本链接,垃圾评论

2005-2007:链接诱饵,社会化媒体链接 digg 之类的

2008-2009:许可式内容,用户创造内容,也就是用户传播链接

方法的变化代表google对不同链接态度的变化,不是说老的方法没有用,链接交换,购买链接,链接诱饵,社会化媒体链接这些对百度、google来说还都是有用的。

SE在进步,SEO也在进步

不论是SEO行业还是互联网行业,你会发现新技术新模式,大部分都来源于国外。

为何中国这么大的市场,却出不了最先进的技术。

成熟的市场上更容易出现创新,因为成熟所以必须创新,以求有新的突破

而中国的SE是什么环境?

最成熟的google一直占领不了大部分的市场,处于主导地位的百度,技术缺失、人工干预严重、不遵守规则,视SEO为仇敌,SEO行业弥漫的则是技巧、快速,信奉这个那个的神话,哪还有人去潜下心来发现新技术。

同时由于中国的市场足够大,而市场越大,使得很多网站可以快速的获取流量,这也鼓励了SEO行业期待快速的习惯。

粗放型的市场,是不鼓励创新的。市场越大,越不鼓励创新的。

所以造成中国技术缺失的原因主要有两个

1、市场太大,而且不够成熟

2、主导市场的SE不够成熟

由于国外市场的成熟,且Google的稳定,国外会有更多的SEOer把时间花在探讨技术,参与的人多了,新技术也就多了。

百度作弊与反作弊

Tuesday, 11. 17. 2009

仍旧百度反作弊,猜测百度可能的K站及监控流程

百度内部会将网站按可信度分为几种级别

权威/可信/特殊/一般/新站/被降权的站……(大概)

对于这些站,不同级别的站会将有不同的对待,比如说

新站获得大量链接可能是非常危险的事情,容易遭到人工,但是处在更高级别的站有可能就不会有问题

百度不可能有那么多人工对每个网站进行检查,所以初期的工作还是由程序来执行的。

对于新站,会有特定的算法来监控各个可能是作弊网站出现的现象,而且百度对新站也比较严格

总结了以下一些可能的监控方向

  • KEYWORDS,Description  ,虽然没有用的东西,但是很多站长都在用,所以在百度的监控之下,写的过于完善,堆砌之类的都会引起百度的注意,所以放弃不是坏事,保留部分重要页面即可
  • 外部链接的数量 速度,大量的链接出现也肯定是百度的监控方向
  • 外链的关键词   近期关注一些站发现,链接的关键词也可能是百度的监控方向,seo的特征
  • 商业关键词,这个也是特殊类别的
  • 还有那些谁都知道的作弊方法,估计直接就K了

如果新站出现上面的任何一种情况,都有可能触发百度的人工

百度反作弊的流程应该是

  1. 对网站进行评级
  2. 根据不同的评级对网站进行分析
  3. 通过一系列算法判断K/提交人工
  4. 提交人工 决定

不同级别的站也对应不同的作弊监控因素

从以上四个步骤可以看出来,最重要的就是避开算法防止提交到人工。也就是了解百度可能的监控方向。

对于做百度优化,你先要了解自己处于哪个阶段,然后再做不同的事情。

比如新站

  1. Mtea 可不写的就不写
  2. 链接出现的速度不要过快
  3. 链接的关键词要多一些,不要单一的使用某搜索关键词
  4. 做内容,百度喜欢有文字的东西,百度很看重收录量

当然以上都不是一定的,只是猜测。

而且有很多词百度根本不会去关注的,就算有明显的作弊现象百度也不一定会处理。

百度反作弊的相关信息

Friday, 11. 13. 2009

还是有关百度反作弊 K站的相关信息,一篇很早的采访稿,受访人刘建国,百度当时CTO

节选部分信息

采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里。采访由此而展开。

《21世纪》:现在来看,当时搜索的核心技术是什么?

刘建国:分成好几块,一块是网页抓取,由蜘蛛程序选择、抓取互联网中的网页,还要持续不断地更新网页,将过期的网页剔除掉;二是超链分析和内容分析;三是针对用户的搜索服务:如何处理海量数据和大规模的用户访问?如何提供稳定的服务?有很多技术问题需要解决。

《21世纪》:“欺骗搜索”是什么意思?你们有什么独特的技术来对付它?

刘建国:就是所谓的网络优化,比如SEO之类,链接一些域名,好象链接很多,但实际上是人为做出来的。还有一些链接,就是专门帮别人做链接,这也是超链分析。你不是链接分析吗?专门针对你。还有一些网站,专门给别人做,相关度也高,我们必须发现哪些是LINKFORM,然后分析出来。

《21世纪》:这如何看得出来作弊?有简单工具吗?

刘建国:我们已经可以通过技术手段及时发现这种欺骗或者叫作弊。是否作弊,有一个很简单的标准:用户看到的内容和搜索引擎看到的内容是否一致?前一段搜索“芙蓉姐姐”,进去之后很多是买手机的,买其他信息,这就是作弊。我们就分析,他们是通过什么方法来“欺骗搜索”。比如LINKFARM,我们靠技术发现出来,它已经 “堆砌关键词”了,我们看出它是作弊的,我就不要它。这就是为何后来反弹这么大,有了“反百度联盟”的原因。有“反百度联盟”成员说,你为什么屏蔽我?前一段搜狐网的一个峰会,一个医药网的说我们很好啊,你为什么把我给封了?它的“堆砌”是作弊的,如果我们把它放开,对用户是一种欺骗。

《21世纪》:在反作弊技术里,有什么可以明确识别作弊?

刘建国:比如,来回互相链接、堆砌关键词等。还有前景色和背景色完全一致,在HTML里面,用户看不见,可以骗搜索引擎,就这样骗用户。

《21世纪》:仅仅背景色也可以用来作弊?

刘建国:背景是黑色的,搜索看见的仅仅是内容,是看不到背景的。前景与后景一样,机器看不着,人能看出来,景色也是识别的因素。其中的文字就是有些网站想欺骗的东西。有很多方法作弊,层出不穷的。搜索与作弊网站是永远不会结束的战争。

《21世纪》:与Google的反作弊比,你们有什么优势?

刘建国:说 Google的技术比我们好,我不认同,他们主要是不够集中。比如反作弊的,Google中文就做不过我们,这有技术问题,还有人力,要知道作弊惯用的手法,而Google不知道。这个模式我们比Google发展得更快,我们更接近用户。我们中文的理解做得比他们好,比如像分词、切词,中文是一个一个字,放一块儿,那些字和词是不一样的。我做得比Google好。他们没有专门研究中文。

《21世纪》:你们重要在分析用户还是客户?

刘建国:重要的是分析网页,网页与网页之间的分析。WEB的方式,是由HTML组成的。网页与网页之间的是URL,最大好处是网页与网页之间可以用超链来指,叫 HYPERLINK,指向另外一个网页是做什么的。比如“中国人民银行”会指向很多东西,每个都是链。他们指向他,LINK有一个叫评价,U1对U2的评价。第一是指向,第二是评价。这是一个网页,“中国人民银行”就是超链,他指向另外一个——有说明中国银行是做什么的,指向后,另一个是指向的U2,另外还有U3。很相关的排前面,找到最权威的。最后综合加权,中国人民银行大,其他商业银行小,那么就加权,算出来结果谁排前面。

其实文中也没有提到什么,不过可以看出百度对SEO的态度如何

百度会将过期的网页剔除掉,百度喜欢新内容

利用判断蜘蛛来显示不同信息的在百度眼里是作弊行为

文中还提到了人工,百度的人工审核人员很多,不过百度技术仍旧很次

刘建国:曾任百度公司首席技术官(CTO),现任生活搜索网站爱帮网http://www.aibang.com)首席执行官(CEO)兼总裁。

点石转的,而里面涉及的百度反SPAM条款页面已经失效。不过不影响大家研究。

caoz:1:百度降权,封杀站点的标准是什么

9238:

第一,http://www.baidu.com/search/spam.html 是百度公开和唯一的标准,百度的反spam一直依此处理。就像所有其它搜索引擎一样,百度不能公开所有反spam细节,已公开的部分已经是搜索引擎中算很透明的了。

第二,在百度搜索引擎中对某些站点降权或去除的目的主要是反spam(或者叫反垃圾),反spam的唯一目的是提高用户搜索体验。百度反spam对所有网站一视同仁,不会因为任何网站是百度的客户或合作伙伴而降低惩罚标准,也不会因为任何网站与竞争对手合作或停止与百度的合作而加重惩罚。在百度中,有权限参与网站降权处理的只有了了几人,他们每一个都是极端的搜索爱好者,他们也有完全的自主权和独立性,不用关心处理哪个网站会影响流量或收入,不用给任何部门、任何同事或任何网站面子,他们唯一关心的是用户搜索体验。

第三,搜索引擎优化行为对用户体验的破坏程度是线性分布的,百度反spam是机器自动识别和人工识别互补的体系。既然有识别就有判断的阈值,无论是自动识别还是人工识别,无论把阈值定在哪里,那些阈值附近的优化行为判断总是容易引起争议的。在所有支持中文的搜索引擎中,百度也许已经是反spam做得最努力的,但中国网民在百度的搜索体验仍然每天被spam严重破坏1500万次以上(spam网页出现在搜索结果前10名)。因为中文spam面广量多,因为百度反spam打击也面广量多,即使阈值附近的争议网址只占很少的几个百分点,也可能导致每天有几十个网站有资格对于被惩罚表示异议,这不是百度愿意看到的,但现实点说,无法指望短时间内大幅度减少这种问题,也无法指望能人工一一回复每个提出异议的网站。

另外,对于加入百度搜索联盟并且达到一定搜索量的网站,我们有一个优待政策:在发现自己被降权后可以申请立即复查一次,如果复查发现网站上已没有spam 行为,则可以安排尽快取消降权。但这个权利只能用一次,一旦该网站在例行检查、网友举报、或不定期复查中被再次发现spam,那么无论谁也救不了它了。

caoz:hao123的发展思路是什么?第一,如果想加入新站点,目前是什么政策?据说收费了?费率多少?第二,以前被收录的站点会不会有政策处理上的变化?这是他们很关心的问题。

9238:

详细的发展思路是商业机密,我不能在此公开。但可以回答你一个具体的问题,所谓hao123已改为收费登录那是假的,每个频道只是卖少量广告(百度对广告的控制极严,没有在hao123原有基础上增加任何flash或banner,每个频道广告链接原则上不超过5个,不达到一定质量要求的网站即使广告也不卖给它,负责hao123用户体验的员工对广告有一票否决权),但现在肯定没有全面收费,今后的一段时间内也没有这个打算。以前被收录的站点不会有处理策略的变化,hao123的用户体验或者被收录网站的质量是挑选和更新的唯一标准。

caoz:百度mp3搜索的策略与mp3音乐站长群的矛盾如何化解

9238:

迄今为止百度的mp3信息几乎都是从百度的网页库中提取出来的,而百度的spider一直遵守国际通行的robots协议,不愿意被百度收录mp3信息的站长只要写一句robots协议就能阻止百度spider再收集信息(以前收集的信息需要等一段时间被更新后才消失),在百度的用户帮助信息中提供了详细的robots协议写作教程:http://www.baidu.com/search/robots.html

caoz:不知道百度对故意重复的定义是什么,比如donews首页的标题,有大量的IT重复出现,是否算做故意重复呢?又比如前几天突然被降权的 9flash.com。他在页面里所重复的“flash”关键词,是不是属于“故意”面向搜索引擎做的呢?我们可以这么测试一下,把“flash电影”和 “电影”两个词比较,可以等同吗?不等同说明flash这个词在这里,是必要修饰词,把“flash音乐”和“音乐”两个词比较,可以等同吗?不等同说明 flash这个词在这里,是个必要的修饰词,下面的不用解释了,我觉得这个其实很容易理解,如果在对方站点里出现的某些关键词在该站点的内容和连接表述中,属于必要修饰词,并且该关键词所出现的段落和连接有其正确的表述价值,那么这种重复,就不能说是“故意重复”,我不知道百度认同否?

9238:

反spam的唯一目的是提高用户搜索体验。我们不会为了反spam而反spam,不会对所有违反规则的网站施加相同的惩罚,关键在于,用户查看某个关键词的搜索结果时,你的网站对用户是否有价值、这个价值所否值得你排在那个位置?

即使donews对IT重复了,如果在IT这个关键词的搜索结果中没有排在非常不该排的位置,没有对用户搜索体验造成明显破坏,那么理想状态下donews仍不会受惩罚。9flash如果只对flash关键词优化,那么不太容易受到惩罚,但如果对电影关键词优化,那么很容易受到惩罚。

明白的说,网站spam与否是网站的自由,百度无权干涉也没兴趣理睬,但如果哪个网站的行为或效果破坏了中国网民在百度搜索的体验,那么百度也有升级算法、降权、直至拒绝收录这个网站的权利和兴趣。其实各位站长完全没必要把百度怎么想当一回事,站长们只要把百度的搜索用户当一回事就行了,只要你的网站对用户有搜索价值,百度急着升级算法把你排到合适的位置都来不及呢,哪里敢把你降权什么的呢。

caoz: 故意制造大量链接指向某一网址的行为。

我觉得这个条款简直可以让所有的站点纳入作弊的范畴。

百度有个联盟,把代码投放到千万个站点上,算不算“故意制造大量连接指向某一网址”?这个是个玩笑,但是事实是,所有的站长,特别是那些没有能力做大幅度广告预算的个人站点,他们的网络推广途径的重要步骤,就是和大量的不同站点交换连接,交换连接,不就是“故意制造大量链接指向某一网址的行为”吗?这是其一。如果我做了一个站点,我又申请了blog,我又申请了donews,我又申请了什么什么,我又泡论坛,那么我肯定会把我的站点连接放在每个我能放网络连接的地方告诉大家,比如论坛签名档,比如blog的连接,比如donews个人介绍,等等,有没有搜索引擎我都会这么干,站长怎么发展流量?坐等吗?这是其二。商业公司要发新闻稿,公关稿,网络时代了,网络媒体也很重视,一个稿子发新浪搜狐网易千龙天极等等等等,每个稿子上都会有这个公司的连接,又是故意制造大量连接指向同一网址。这是其三。请百度的朋友解释一下,怎么叫“不故意制造大量连接呢”,做好站点,放在那里,等别人连接或者干脆不要外部连接,也许只有国家政府机关的网站会这样。

9238:上一个回答也能用在这里吧?谁爱做链接就做吧,但别针对与自己网站内容不相关的关键词做,即使相关的关键词,也别排到特别不合适的位置去。其实,百度能自动过滤不少可疑链接,所以某些制造链接的行为根本不会受到惩罚,因为对排名不会有任何影响。

caoz:有链接指向作弊网站的网站,负连带责任,也会被认为是作弊

这个最狠,简直是连坐,大清朝倒台后好象就不兴这个了。不过互连网本身就是由大量的连接组成的,这个方式搞下去,恐怕是人人自危吧,我这么说吧,A站作弊(证据确凿,验明正身),B站上不巧给A站做了连接,那么B站被认为是作弊,那么C站上偏偏也给B站做了连接,得,既然B站已经被认定也是作弊,道理同样,C站指向作弊站点,也是作弊,D站又有C站连接,惨了,这么连下去,和百度的Spider没啥区别(相当于倒过来爬);洪桐县里没好人,互联网上没好站,大家彼此彼此。

其实百度真要这么搞也可以,每天公布一个封杀作弊站点列表,并给相关连接站点一天的取消连接的准备期,这样站长们就会每天上来看谁是最新的倒霉蛋,看看在不在自己站点的友情连接里,并且用最短的时间和对方划清界限!消除连接,以免殃及自身不是。

9238:

这条规则,是针对某些拥有一大批域名互相链接作弊的人。从百度中降权或消失对于每个中文网站都是大事,我们不会轻易的批量惩罚的,事实上只有在对某些网站之间的关系相当有把握时才会激活这个惩罚规则,而且,虽然批量链接作弊是机器自动识别的,但识别出的每一个网站在被正式惩罚前都会经过人工验证,几乎不可能误杀。

普通的友情链接再多也不会受惩罚,但仅限链接所用文字是合适的网站名,如果用关键词做链接,则很容易被识别为spam。

来源:点石