03 2017 档案

selenium 窗口句柄之间的切换
摘要:以前使用selenium时都是在单窗口的模式下,本次新增多窗口下的窗口之间切换 from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.suppo 阅读全文

posted @ 2017-03-26 15:54 niansi 阅读(424) 评论(0) 推荐(0)

phantomjs 设置代理
摘要:phantomjs 可通过以下设置代理ip #coding=utf-8import osimport reimport timeimport requestsfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.http import Ht 阅读全文

posted @ 2017-03-18 17:03 niansi 阅读(1560) 评论(1) 推荐(0)

搜索引擎不收录网页的常见原因
摘要:周末在家查找了一下网站不被搜索引擎收录的可能原因,在此总结一下: 1、网页使用框架 框架内的内容通常不在搜索引擎抓取的范围之内。搜索引擎不抓取,自然就搜不到了。 2、图片太多,文本太少 这样的网站可能会被搜索引擎认为是一种垃圾网站,不会进行收录。 3、提交页面转向另一网站 这个理由同上,搜索引擎可能 阅读全文

posted @ 2017-03-12 21:35 niansi 阅读(628) 评论(0) 推荐(0)

网络爬虫与web之间的访问授权协议——Robots
摘要:网站的管理者们通常会有这样一种心态:一方面期待百度、Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样,才有“好爬虫”、“坏爬虫”这样的说法。提到“好爬虫”,就不得不提网络爬虫与web之间的访问授权协议——Robots协议了。Robots协 阅读全文

posted @ 2017-03-06 06:38 niansi 阅读(991) 评论(1) 推荐(0)

导航