爬虫学习笔记 - 随笔分类 - 不再悲伤

斗图啦+多线程（队列）

摘要：import threading import requests from lxml import etree import time import os from queue import Queue #引入队列消除线程执行过程的无序性和上锁解锁机制一样的作用 #先用os模块创建一个文件夹 name = os.getcwd() file = name + os.sep + '斗图啦... 阅读全文

posted @ 2018-09-06 22:59 不再悲伤阅读(179) 评论(0) 推荐(0)

scrapy错误-[scrapy.core.scraper] ERROR: Spider error processing

摘要：一。问题，就是我的callback没得回调函数二：然后我查看源代码，发现：三。我把解析页数的函数名设置为，def parse(self,response): 就没保错了能运行成功总结：在spider的_init_.py文件的源代码下设置了定义的parse()函数有callback这个能定义阅读全文

posted @ 2018-08-29 23:49 不再悲伤阅读(5019) 评论(0) 推荐(0)

python使用requests时报错requests.exceptions.SSLError: HTTPSConnectionPool

摘要：requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, u' 阅读全文

posted @ 2018-08-26 00:43 不再悲伤阅读(31493) 评论(0) 推荐(4)

AttributeError: module 'requests' has no attribute 'get'的错误疑惑

摘要：我发现文件直接用requests.get(url)会提示我AttributeError: module 'requests' has no attribute 'get' 我把问题百度了一下，解决方法是： python源文件与关键字重名了。 1. 命名py脚本时，不要与python预留字，模块名等相阅读全文

posted @ 2018-08-26 00:34 不再悲伤阅读(6855) 评论(0) 推荐(1)

*arg,**kwargs的参数作用的疑惑

摘要：先来看个例子： args = (1, 2, 3, 4) kwargs = {} args = () kwargs = {'a': 1, 'c': 3, 'b': 2} args = (1, 2, 3, 4) kwargs = {'a': 1, 'c': 3, 'b': 2} args = ('a', 阅读全文

posted @ 2018-08-25 00:18 不再悲伤阅读(335) 评论(0) 推荐(0)

scrapy框架--新建调试的main.py文件

摘要：一.原因：由于pycharm中没有scrapy的一个模板，所有没办法直接在scrapy文件中调试，所有我们需要写一个自己的main.py文件，在文件里面调用命令行，来实现scrapy的一个调试。（在scrapy中可以调试，可以让我们的开发效率高）二.注意点：字爬虫文件中设置断点，但是需要在自己阅读全文

posted @ 2018-08-17 21:34 不再悲伤阅读(3239) 评论(0) 推荐(0)

Scrapy框架——安装以及新建scrapy文件

摘要：一.安装 conda install Scrapy ：之后在按y 表示允许安装相关的依赖库（下载速度慢的话也可以借助镜像源），安装的前提是安装了anaconda作为python ，测试scrapy是否安装成功,在窗口输入scrapy回车注意：我这是之前安装了anaconda 所以能直接这样下载阅读全文

posted @ 2018-08-16 23:01 不再悲伤阅读(323) 评论(0) 推荐(0)

爬虫-ajax请求遇到Unicode编码问题

摘要：2018-08--4爬取金色财经网页网址：https://www.jinse.com/search/EOS 第一步：我观察了网页；发现了网页是一个发送ajax请求的网页，发现如下：然后我就先爬取第一次请求出来的信息，剩下的请求可以经过比较每次请求的参数的变化来做比较，从而发现规律。第二步：我阅读全文

posted @ 2018-08-04 02:37 不再悲伤阅读(449) 评论(0) 推荐(0)

selenium学习笔记（1）

摘要：selenium http://selenium-python.readthedocs.io/index.html https://www.seleniumhq.org/projects/ide/ 声明浏览器对象,需要安装对应的浏览器驱动，记住要跟对应的浏览器版本相同，例如，chrome,安装chr 阅读全文

posted @ 2018-06-25 21:00 不再悲伤阅读(521) 评论(0) 推荐(0)

进程基本知识

摘要：进程定义： 1.一个任务就是一个进程，进程是系统中的程序执行和资源分配的基本单位。 2.每个进程都各自独立有自己的数据段(自己的数据)，代码段(自己的代码)、和堆栈段。 3.在创建子进程时对全局变量做了一个备份父进程与子进程的num两个不同的变量。 4.父进程的num是父进程的堆栈定义，子进程的nu 阅读全文

posted @ 2018-06-25 19:49 不再悲伤阅读(211) 评论(0) 推荐(0)

多任务原理

摘要：单核CPU实现多任务原理：轮流让各个任务交替执行，CPU调度数据快，导致我们感觉所有任务同时执行。多核CPU实现多任务原理：多任务在多核CPU上实现，由于任务数量远远多于CPU核心数量，所以操作系统自动把很多任务轮流调度每个核心上执行。并发：任务数多于cpu核心数并行：任务数小于等于cpu核数阅读全文

posted @ 2018-06-25 19:37 不再悲伤阅读(592) 评论(0) 推荐(0)

数据转化之JSON

摘要：1.定义：Json（JavaScript Object Notation）是一种轻量级的数据教换模式，简单来说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构。对象：对象在js中表示为{ }括起来的内容，数据结构为{key:valu 阅读全文

posted @ 2018-06-23 00:12 不再悲伤阅读(414) 评论(0) 推荐(0)

安装Treserocr遇到的问题

摘要：相关链接： tesseract下载地址：http://digi.bib.uni-mannheim.de/tesseract 一、出现的问题 1.点击进去进行下载注意：其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，例如可以选择下载tesseract-oc 阅读全文

posted @ 2018-06-21 15:38 不再悲伤阅读(275) 评论(0) 推荐(0)

Python爬虫：Xpath语法笔记

摘要：一、选取节点常用的路劲表达式：表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点，不考虑他们的位置 xpath(‘ 阅读全文

posted @ 2018-05-27 22:37 不再悲伤阅读(180) 评论(0) 推荐(0)

爬虫基础-http请求的基础知识

摘要：百度百科上这么介绍爬虫：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。在开发爬虫时常用的工具：chrome浏览器，fiddler工具，postman插件。有关fiddler知识的地址：http:/ 阅读全文

posted @ 2018-05-27 01:18 不再悲伤阅读(341) 评论(0) 推荐(0)

不再悲伤

随笔分类 - 爬虫学习笔记

公告