917.爬虫技术 - 随笔分类 - LoaderMan

Python XmlTool

摘要：XML To Xlsx import xml.etree.ElementTree as ET import re import pandas as pd def main(): tree = ET.parse("in/strings.xml") root = tree.getroot() patte 阅读全文

posted @ 2024-08-11 22:13 LoaderMan 阅读(50) 评论(0) 推荐(0)

scrapy爬虫案例：用MongoDB保存数据

摘要：用Pymongo保存数据爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。 items.py spiders/douban.py pipelines.py 效果：阅读全文

posted @ 2019-12-14 13:14 LoaderMan 阅读(680) 评论(0) 推荐(0)

通过Fiddler进行手机抓包

摘要：通过Fiddler进行手机抓包通过Fiddler抓包工具，可以抓取手机的网络通信，但前提是手机和电脑处于同一局域网内（WI-FI或热点），然后进行以下设置：用Fiddler对Android应用进行抓包打开Fiddler设置在Connections里设置允许连接远程计算机，确认后重新启动Fid 阅读全文

posted @ 2019-12-13 20:21 LoaderMan 阅读(750) 评论(0) 推荐(0)

爬虫案例：图片下载器

摘要：items.py spiders/coser.py pipelines.py settings.py 在项目根目录下新建main.py文件,用于调试执行程序阅读全文

posted @ 2019-12-13 20:20 LoaderMan 阅读(333) 评论(0) 推荐(0)

爬虫：模拟登陆

摘要：注意：模拟登陆时，必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True 或 # COOKIES_ENABLED = False 策略一：直接POST数据（比如需要登陆的账户信息) 只要是需要提供pos 阅读全文

posted @ 2019-12-12 20:14 LoaderMan 阅读(259) 评论(0) 推荐(0)

scrapy爬虫案例：问政平台

摘要：问政平台 http://wz.sun0769.com/index.php/question/questionType?type=4 爬取投诉帖子的编号、帖子的url、帖子的标题，和帖子里的内容。 items.py import scrapy class DongguanItem(scrapy.Ite 阅读全文

posted @ 2019-12-12 20:11 LoaderMan 阅读(303) 评论(0) 推荐(0)

Scrapy爬虫Demo 爬取资讯分类

摘要：爬取新浪网导航页所有下所有大类、小类、小类里的子链接，以及子链接页面的新闻内容。效果演示图： items.py import scrapy import sys reload(sys) sys.setdefaultencoding("utf-8") class SinaItem(scrapy.It 阅读全文

posted @ 2019-12-11 20:31 LoaderMan 阅读(449) 评论(0) 推荐(0)

Scrapy中的Settings

摘要：Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置Json Pipeliine、LOG_LEVEL等。参考文档：http://scrapy-chs.read 阅读全文

posted @ 2019-12-09 21:18 LoaderMan 阅读(167) 评论(0) 推荐(0)

scrapy中的middleware

摘要：反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。) 来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.html 阅读全文

posted @ 2019-12-09 21:17 LoaderMan 阅读(452) 评论(0) 推荐(0)

Scrapy中的Request和Response

摘要：Request Request 部分源码：其中，比较常用的参数： Response 大部分参数和上面的差不多：发送POST请求可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。如果希望程序执行一开始就发送POST 阅读全文

posted @ 2019-12-09 21:16 LoaderMan 阅读(558) 评论(0) 推荐(0)

scrapy之CrawlSpiders

摘要：CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl loaderan cnblogs.com class scrapy.spiders.CrawlSpider 它是Spider的派生类，Spider类的设计原阅读全文

posted @ 2019-12-08 13:51 LoaderMan 阅读(298) 评论(0) 推荐(0)

Scrapy之Spider

摘要：Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写阅读全文

posted @ 2019-12-08 13:50 LoaderMan 阅读(607) 评论(0) 推荐(0)

scrapy中的Pipeline

摘要：当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：验证爬取的阅读全文

posted @ 2019-12-07 13:46 LoaderMan 阅读(432) 评论(0) 推荐(0)

Scrapy的 Shell终端

摘要：crapy Shell Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端) 阅读全文

posted @ 2019-12-06 20:01 LoaderMan 阅读(306) 评论(0) 推荐(0)

scrapy入门案例

摘要：一. 新建项目(scrapy startproject) 在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：其中， mySpider 为项目名称，可以看到将会创建一个 scrapyDemo 文件夹，目录结构大致如下：各个主要文件的作用： scrapy.cfg 阅读全文

posted @ 2019-12-06 19:59 LoaderMan 阅读(243) 评论(0) 推荐(0)

爬虫框架Scrapy的安装

摘要：Scrapy框架官方网址：http://doc.scrapy.org/en/latest Scrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html Windows 安装方式 Python 2 / 3 升级pip版本：p 阅读全文

posted @ 2019-12-05 22:40 LoaderMan 阅读(307) 评论(0) 推荐(0)

Tesserac初探

摘要：安装Tesseract Windows 系统下载可执行安装文件https://code.google.com/p/tesseract-ocr/downloads/list安装。或者https://digi.bib.uni-mannheim.de/tesseract/ Mac OS X系统用 Ho 阅读全文

posted @ 2019-12-04 20:10 LoaderMan 阅读(919) 评论(0) 推荐(0)

案例：动态页面模拟点击

摘要：效果：阅读全文

posted @ 2019-12-03 20:17 LoaderMan 阅读(587) 评论(0) 推荐(0)

使用PhantomJS报warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '解决方法

摘要：selenium已经放弃PhantomJS了，建议使用火狐或者谷歌无界面浏览器。使用无界面浏览器Selenium+Headless FirefoxSelenium+Headless Firefox和Selenium+Firefox，区别就是实例option的时候设置-headless参数。前提条件：阅读全文

posted @ 2019-12-02 20:52 LoaderMan 阅读(2837) 评论(0) 推荐(0)

案例：执行 JavaScript 语句

摘要：模拟滚动条滚动到底部效果：阅读全文

posted @ 2019-12-02 20:27 LoaderMan 阅读(296) 评论(0) 推荐(0)

随笔分类 - 917.爬虫技术

导航