随笔分类 - 爬虫学习笔记
摘要:import threading import requests from lxml import etree import time import os from queue import Queue #引入队列消除线程执行过程的无序性 和上锁解锁机制一样 的作用 #先用os模块创建一个文件夹 name = os.getcwd() file = name + os.sep + '斗图啦...
阅读全文
摘要:一。问题,就是我的callback没得回调函数 二:然后我查看源代码,发现: 三。我把解析页数的函数名设置为,def parse(self,response): 就没保错了 能运行成功 总结:在spider的_init_.py文件的源代码下 设置了定义的parse()函数有callback这个能定义
阅读全文
摘要:requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, u'
阅读全文
摘要:我发现文件直接用requests.get(url)会提示我AttributeError: module 'requests' has no attribute 'get' 我把问题百度了一下,解决方法是: python源文件与关键字重名了。 1. 命名py脚本时,不要与python预留字,模块名等相
阅读全文
摘要:先来看个例子: args = (1, 2, 3, 4) kwargs = {} args = () kwargs = {'a': 1, 'c': 3, 'b': 2} args = (1, 2, 3, 4) kwargs = {'a': 1, 'c': 3, 'b': 2} args = ('a',
阅读全文
摘要:一.原因: 由于pycharm中没有scrapy的一个模板,所有没办法直接在scrapy文件中调试,所有我们需要写一个自己的main.py文件,在文件里面调用命令行,来实现scrapy的一个调试。(在scrapy中可以调试,可以让我们的开发效率高) 二.注意点: 字爬虫文件中设置断点,但是需要在自己
阅读全文
摘要:一.安装 conda install Scrapy :之后在按y 表示允许安装相关的依赖库(下载速度慢的话也可以借助镜像源),安装的前提是安装了anaconda作为python , 测试scrapy是否安装成功,在窗口输入scrapy回车 注意:我这是之前安装了anaconda 所以能直接这样下载
阅读全文
摘要:2018-08--4爬取金色财经网页 网址:https://www.jinse.com/search/EOS 第一步:我观察了网页;发现了网页是一个发送ajax请求的网页,发现如下: 然后 我就先爬取第一次请求出来的信息,剩下的请求可以经过比较每次请求的参数的变化来做比较,从而发现规律。 第二步:我
阅读全文
摘要:selenium http://selenium-python.readthedocs.io/index.html https://www.seleniumhq.org/projects/ide/ 声明浏览器对象,需要安装对应的浏览器驱动,记住要跟对应的浏览器版本相同,例如,chrome,安装chr
阅读全文
摘要:进程定义: 1.一个任务就是一个进程,进程是系统中的程序执行和资源分配的基本单位。 2.每个进程都各自独立有自己的数据段(自己的数据),代码段(自己的代码)、和堆栈段。 3.在创建子进程时对全局变量做了一个备份父进程与子进程的num两个不同的变量。 4.父进程的num是父进程的堆栈定义,子进程的nu
阅读全文
摘要:单核CPU实现多任务原理:轮流让各个任务交替执行,CPU调度数据快,导致我们感觉所有任务同时执行。 多核CPU实现多任务原理:多任务在多核CPU上实现,由于任务数量远远多于CPU核心数量,所以操作系统自动把很多任务轮流调度每个核心上执行。 并发:任务数多于cpu核心数 并行:任务数小于等于cpu核数
阅读全文
摘要:1.定义:Json(JavaScript Object Notation)是一种轻量级的数据教换模式,简单来说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构。 对象:对象在js中表示为{ }括起来的内容,数据结构为{key:valu
阅读全文
摘要:相关链接: tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract 一、出现的问题 1.点击进去 进行下载 注意:其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-oc
阅读全文
摘要:一、选取节点 常用的路劲表达式: 表达式 描述 实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点,不考虑他们的位置 xpath(‘
阅读全文
摘要:百度百科上这么介绍爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 在开发爬虫时常用的工具:chrome浏览器,fiddler工具,postman插件。 有关fiddler知识的地址:http:/
阅读全文

浙公网安备 33010602011771号