06 2019 档案

摘要:目的意义 爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务,提高了数据爬取的效率。 以百度百科的一条为起点,抓取百度百科2000左右词条数据。 说明 参阅模仿了:https://book.douban.com/subject/27061630/。 作者说是简单的分布式爬虫( 阅读全文
posted @ 2019-06-27 17:32 大浪淘沙、 阅读(587) 评论(0) 推荐(1)
摘要:目的意义 基础爬虫分5个模块,使用多个文件相互配合,实现一个相对完善的数据爬取方案,便于以后更完善的爬虫做准备。 这里目的是爬取200条百度百科信息,并生成一个html文件,存储爬取的站点,词条,解释。 本文思路来源书籍。其代码部分来源书籍。https://book.douban.com/subje 阅读全文
posted @ 2019-06-09 20:40 大浪淘沙、 阅读(653) 评论(0) 推荐(0)
摘要:目的意义 使用Email自动发送,有利于实时获取爬取信息,更方便的掌握要闻。 导入相关库 MINEText库定义了发送信息, Header定义了发送的主题 formate定义了收件人和发件人的格式信息。 smtplib定义了发送邮件的方案 time用于延时发送 from email.mime.tex 阅读全文
posted @ 2019-06-07 23:07 大浪淘沙、 阅读(320) 评论(0) 推荐(0)
摘要:目的 批量下载网页图片 导入库 urllib中的request中的urlretrieve方法,可以下载图片 lxml用于解析网页 requests用于获取网站信息 import urllib from lxml import etree import requests 定义回调函数 回调函数中,co 阅读全文
posted @ 2019-06-07 21:57 大浪淘沙、 阅读(233) 评论(0) 推荐(0)
摘要:目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据。一些参考:https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码 阅读全文
posted @ 2019-06-07 17:53 大浪淘沙、 阅读(762) 评论(0) 推荐(0)
摘要:爬取静态数据并存储json import requests import chardet from bs4 import BeautifulSoup import json user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53 阅读全文
posted @ 2019-06-04 13:26 大浪淘沙、 阅读(219) 评论(0) 推荐(0)
摘要:创建并显示原始内容 其中的lxml第三方解释器加快解析速度 import bs4 from bs4 import BeautifulSoup html_str = """ <html><head><title>The Dormouse's story</title></head> <body> <p 阅读全文
posted @ 2019-06-02 22:12 大浪淘沙、 阅读(347) 评论(0) 推荐(0)
摘要:基本模型 请求与响应 import urllib.request as urllib2 request=urllib2.Request('http://www.zhihu.com') response=urllib2.urlopen(request) html=response.read() pri 阅读全文
posted @ 2019-06-02 19:18 大浪淘沙、 阅读(304) 评论(0) 推荐(0)
摘要:import urllib2 源地址 在python3.3里面,用urllib.request代替urllib2 import urllib.request as urllib2 import cookielib 源地址 Python3中,import cookielib改成 import http 阅读全文
posted @ 2019-06-02 17:28 大浪淘沙、 阅读(806) 评论(1) 推荐(0)
摘要:文件写入 def storFile(data,fileName,method='a'): with open(fileName,method,newline ='') as f: f.write(data) pass pass storFile('123', '1.txt') 文件读取 with o 阅读全文
posted @ 2019-06-01 19:05 大浪淘沙、 阅读(283) 评论(0) 推荐(0)