2011年12月20日

摘要: 【本文转自速途网】不知不觉已经在这个行业做了这么久了,如果还没有一些心得的话我估计我自己都想喷自己了,所以今天就是来说一些自己的简单心得。 现象一:垃圾站群百度不收录或者说收录少。 本质透析:从去年的4、5左旋肉碱站群开始,百度饱受站群的欺凌,各种站群层出不穷,各种站群软件雨后春笋,如天地连站群软件。当然这可不是百度的作风,我能让你干着玩,扯淡!于是之后迅速做调整。降低低权重外链的加分,高权重外链加分依然牛x。低权外链加分降低,导致新站权重不能短时间提升,权重值又影响百度蜘蛛每天爬行数量上限和百度每天收录页面数量上限。所以,垃圾站群百度不收录或者说收录少本质就是低权重值的域名百度蜘蛛爬行数.. 阅读全文
posted @ 2011-12-20 17:14 天地连站群 阅读(324) 评论(1) 推荐(0) 编辑

2011年11月25日

摘要: 天地连站群可以根据用户输入的初始关键词,获取该关键词搜索引擎的搜索结果,然后逐条获取这些相关文章的内容。这样就需要面对无数网页的各种编码。为了解决这个问题,引入了下面的解决办法:在引入编码自动识别前,我们有两种途径获取网页的编码信息:其一、通过服务器返回的header里的charset变量获取其二、通过页面里的meta 信息获取正常情况下,如果服务器或者页面有提供这两个参数,而且参数是正确的,那我们抓取网页时就不存在编码的问题了。但是现实总是会难为我们这些程序员,抓取网页时,经常会出现以下几种情况:1.这两个参数缺失了2.这两个参数虽然都提供了,但是不一致3.这两个参数提供了,但是与网页实际的 阅读全文
posted @ 2011-11-25 12:50 天地连站群 阅读(3968) 评论(15) 推荐(8) 编辑

导航