随笔档案「2017年3月」 - niansi

selenium 窗口句柄之间的切换

摘要：以前使用selenium时都是在单窗口的模式下，本次新增多窗口下的窗口之间切换 from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.suppo 阅读全文

posted @ 2017-03-26 15:54 niansi 阅读(426) 评论(0) 推荐(0)

phantomjs 设置代理

摘要：phantomjs 可通过以下设置代理ip #coding=utf-8import osimport reimport timeimport requestsfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.http import Ht 阅读全文

posted @ 2017-03-18 17:03 niansi 阅读(1567) 评论(1) 推荐(0)

搜索引擎不收录网页的常见原因

摘要：周末在家查找了一下网站不被搜索引擎收录的可能原因，在此总结一下： 1、网页使用框架框架内的内容通常不在搜索引擎抓取的范围之内。搜索引擎不抓取，自然就搜不到了。 2、图片太多，文本太少这样的网站可能会被搜索引擎认为是一种垃圾网站，不会进行收录。 3、提交页面转向另一网站这个理由同上，搜索引擎可能阅读全文

posted @ 2017-03-12 21:35 niansi 阅读(655) 评论(0) 推荐(0)

网络爬虫与web之间的访问授权协议——Robots

摘要：网站的管理者们通常会有这样一种心态：一方面期待百度、Google这样的搜索引擎来抓取网站的内容，另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样，才有“好爬虫”、“坏爬虫”这样的说法。提到“好爬虫”，就不得不提网络爬虫与web之间的访问授权协议——Robots协议了。Robots协阅读全文

posted @ 2017-03-06 06:38 niansi 阅读(1009) 评论(1) 推荐(0)

03 2017 档案

selenium 窗口句柄之间的切换

phantomjs 设置代理

搜索引擎不收录网页的常见原因

网络爬虫与web之间的访问授权协议——Robots

导航

公告