摘要:XML To Xlsx import xml.etree.ElementTree as ET import re import pandas as pd def main(): tree = ET.parse("in/strings.xml") root = tree.getroot() patte
阅读全文
摘要:用Pymongo保存数据 爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中。 items.py spiders/douban.py pipelines.py 效果:
阅读全文
摘要:通过Fiddler进行手机抓包 通过Fiddler抓包工具,可以抓取手机的网络通信,但前提是手机和电脑处于同一局域网内(WI-FI或热点),然后进行以下设置: 用Fiddler对Android应用进行抓包 打开Fiddler设置 在Connections里设置允许连接远程计算机,确认后重新启动Fid
阅读全文
摘要:items.py spiders/coser.py pipelines.py settings.py 在项目根目录下新建main.py文件,用于调试 执行程序
阅读全文
摘要:注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True 或 # COOKIES_ENABLED = False 策略一:直接POST数据(比如需要登陆的账户信息) 只要是需要提供pos
阅读全文
摘要:问政平台 http://wz.sun0769.com/index.php/question/questionType?type=4 爬取投诉帖子的编号、帖子的url、帖子的标题,和帖子里的内容。 items.py import scrapy class DongguanItem(scrapy.Ite
阅读全文
摘要:爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。 效果演示图: items.py import scrapy import sys reload(sys) sys.setdefaultencoding("utf-8") class SinaItem(scrapy.It
阅读全文
摘要:Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。比如 设置Json Pipeliine、LOG_LEVEL等。 参考文档:http://scrapy-chs.read
阅读全文
摘要:反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问,绕过这些规则是困难和复杂的,有时可能需要特殊的基础设施,如果有疑问,请联系商业支持。) 来自于Scrapy官方文档描述:http://doc.scrapy.org/en/master/topics/practices.html
阅读全文
摘要:Request Request 部分源码: 其中,比较常用的参数: Response 大部分参数和上面的差不多: 发送POST请求 可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。 如果希望程序执行一开始就发送POST
阅读全文
摘要:CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl loaderan cnblogs.com class scrapy.spiders.CrawlSpider 它是Spider的派生类,Spider类的设计原
阅读全文
摘要:Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编写
阅读全文
摘要:当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用: 验证爬取的
阅读全文
摘要:crapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)
阅读全文
摘要:一. 新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令: 其中, mySpider 为项目名称,可以看到将会创建一个 scrapyDemo 文件夹,目录结构大致如下: 各个主要文件的作用: scrapy.cfg
阅读全文
摘要:Scrapy框架官方网址:http://doc.scrapy.org/en/latest Scrapy中文维护站点:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html Windows 安装方式 Python 2 / 3 升级pip版本:p
阅读全文
摘要:安装Tesseract Windows 系统 下载可执行安装文件https://code.google.com/p/tesseract-ocr/downloads/list安装。或者https://digi.bib.uni-mannheim.de/tesseract/ Mac OS X系统 用 Ho
阅读全文
摘要:selenium已经放弃PhantomJS了,建议使用火狐或者谷歌无界面浏览器。使用无界面浏览器Selenium+Headless FirefoxSelenium+Headless Firefox和Selenium+Firefox,区别就是实例option的时候设置-headless参数。前提条件:
阅读全文