摘要: 目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用。 来源 少部分来源于书。python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找,然后抓取网页中的信息。存储csv中。然后再转换为Excel,并对其中的数据进行二次处理。 代码 整阅读全文
posted @ 2019-07-16 18:58 嘘,小点声 阅读(12) 评论(0) 编辑
摘要: 目标意义 为了理解动态网站中一些数据如何获取,做一个简单的分析。 说明 思路,原始代码来源于:https://book.douban.com/subject/27061630/。 构造-下载器 构造分下载器,下载原始网页,用于原始网页的获取,动态网页中,js部分的响应获取。 通过浏览器模仿,合理制作阅读全文
posted @ 2019-07-12 17:12 嘘,小点声 阅读(322) 评论(3) 编辑
摘要: 目的意义 爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务,提高了数据爬取的效率。 以百度百科的一条为起点,抓取百度百科2000左右词条数据。 说明 参阅模仿了:https://book.douban.com/subject/27061630/。 作者说是简单的分布式爬虫(阅读全文
posted @ 2019-06-27 17:32 嘘,小点声 阅读(204) 评论(0) 编辑
摘要: 目的意义 基础爬虫分5个模块,使用多个文件相互配合,实现一个相对完善的数据爬取方案,便于以后更完善的爬虫做准备。 这里目的是爬取200条百度百科信息,并生成一个html文件,存储爬取的站点,词条,解释。 本文思路来源书籍。其代码部分来源书籍。https://book.douban.com/subje阅读全文
posted @ 2019-06-09 20:40 嘘,小点声 阅读(252) 评论(0) 编辑
摘要: 目的意义 使用Email自动发送,有利于实时获取爬取信息,更方便的掌握要闻。 导入相关库 MINEText库定义了发送信息, Header定义了发送的主题 formate定义了收件人和发件人的格式信息。 smtplib定义了发送邮件的方案 time用于延时发送 定义发送内容格式与服务器等 from_阅读全文
posted @ 2019-06-07 23:07 嘘,小点声 阅读(23) 评论(0) 编辑
摘要: 目的 批量下载网页图片 导入库 urllib中的request中的urlretrieve方法,可以下载图片 lxml用于解析网页 requests用于获取网站信息 定义回调函数 回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。 在使用urllib中的request阅读全文
posted @ 2019-06-07 21:57 嘘,小点声 阅读(27) 评论(0) 编辑
摘要: 目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据。一些参考:https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码阅读全文
posted @ 2019-06-07 17:53 嘘,小点声 阅读(190) 评论(0) 编辑
摘要: 爬取静态数据并存储json阅读全文
posted @ 2019-06-04 13:26 嘘,小点声 阅读(28) 评论(0) 编辑
摘要: 创建并显示原始内容 其中的lxml第三方解释器加快解析速度 控制台显示出soup需要处理的内容: 提取对象内容和属性 搜索包括了所有的标签。默认提取第一个符合条件的标签。 提取Tag对象 其中,name用于显示标签名,去掉name则内容直接显示。 控制台输出效果如下: 显示属性 attrs用于显示属阅读全文
posted @ 2019-06-02 22:12 嘘,小点声 阅读(39) 评论(0) 编辑
摘要: 基本模型 请求与响应 Cookie处理 呵呵 Timeout处理 设置局部的Timeout 超时会抛出异常 修改全局的Timeout 返回响应代码 正常200,网页丢失404 检查重定向问题 当访问的网址返回后仍然是该网址,则未发生重定向。 另外一种使用类进行的重定向检查 代理设置 使用instal阅读全文
posted @ 2019-06-02 19:18 嘘,小点声 阅读(21) 评论(0) 编辑
摘要: import urllib2 源地址 在python3.3里面,用urllib.request代替urllib2 import cookielib 源地址 Python3中,import cookielib改成 import http.cookiejar from urlparse import u阅读全文
posted @ 2019-06-02 17:28 嘘,小点声 阅读(36) 评论(1) 编辑
摘要: 文件写入 文件读取 序列化操作 把内存中的数据变为可保存和共享,实现状态保存。cPickle使用C语言编写,效率高,优先使用。如果不存在则使用pickle。pickle使用dump和dumps实现序列化。 反序列化操作 使用load实现反序列化 多进程创建 多进程使用os的fork复制完全相同的进程阅读全文
posted @ 2019-06-01 19:05 嘘,小点声 阅读(70) 评论(0) 编辑
摘要: 获取响应内容: 获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等。 定制Request请求 传递URL参数 定制请求头 发送POST请求 POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。 超时并抛出异常 获取top250电影数据阅读全文
posted @ 2019-05-31 22:10 嘘,小点声 阅读(58) 评论(0) 编辑
摘要: 囚徒博弈 两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终阅读全文
posted @ 2019-05-24 17:16 嘘,小点声 阅读(28) 评论(0) 编辑
摘要: 出于未知原因,想装一下。 因为有光盘,所以就从光盘安装就可以了。 首先是配置yum下的下载地址: 找到yum的地址,然后打开文件。 然后建立该文件的/media/cdrom路径。将光盘挂载到该路径下。注意enable取1 查询光盘设备: 挂载光盘到目录下,并查看: 查看配置状态: 完成。 尝试yum阅读全文
posted @ 2019-05-17 22:40 嘘,小点声 阅读(29) 评论(0) 编辑