随笔分类 - 爬虫
摘要:下载 scrapy 创建爬虫 scrapy startproject 项目名 cd scrapy genspider 爬虫名 初始网址 下载Django django-admin startapp 名字 结合的地方 scrapy item中 下载 scrapy_djangoitem scrapy 蜘
阅读全文
摘要:数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析和异步多线程的,所以scrapy的数据解析速度,要远高于数据的写入数据库的速度。如果数据写入过慢,会造成数据库写入的阻塞,影响数据库写入的效率。通过多线程异步的形式对数据进行写入,可以提高数据的写入速度。 使用twisted异步IO框架,实现数据的异步写入。 from tw...
阅读全文
摘要:为了让pipeline.py生效,还需要在settings.py文件中增加设置,内容如下:
阅读全文
摘要:xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为
阅读全文
摘要:# 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css哪种方法都可以用,可以根据实际情况选用方式爬取静态页面 比较好爬取,一般的措施是cookie中登录信息,或者c
阅读全文
摘要:爬虫网络请求方式的一种 爬虫数据提取方式我们用的是正则表达式 我们用到的: re模块 在我的随笔中有这个 Request 用来创建请求对象 urlopen 发送请求 导入: res中的数据可能含有一些我们不需要的字符串 注:因为我们用的正则匹配的对象是字符串,所以匹配出来的可能含一些杂乱的字符串 所
阅读全文
posted @ 2018-06-09 11:12
Eunuch_Li
摘要:爬虫数据提取方式的一种 re:是用于提起字符串内容的模块 我们用到的方法有: re.compile() 创建正则正则对象 re.findall() 匹配查找,返回的是列表 re.S 可以将正则的搜索域不在是一行,而是整个html字符串 分为三个步骤: 一、创建正则对象 二、匹配查找 三、提取数据保存
阅读全文
posted @ 2018-06-08 20:53
Eunuch_Li
摘要:Charles是一个抓包工具 是一个HTTP代理服务器,HTTP监视器,反转代理服务器,当浏览器连接Charles的代理访问互联网时,Charles可以监控浏览器发送和接收的所有数据。它允许一个开发者查看所有连接互联网的HTTP通信,这些包括request, response和HTTP header
阅读全文
posted @ 2018-06-08 19:22
Eunuch_Li

浙公网安备 33010602011771号