摘要: import xlwtimport requestsfrom lxml import etreeimport time# 初始化列表,存入爬虫数据all_info_list = []# 定义获取爬虫信息的函数def get_info(url): html = requests.get(url) se 阅读全文
posted @ 2020-07-30 21:38 十六m 阅读(183) 评论(0) 推荐(0)
摘要: # 爬取豆瓣图书TOP250,爬取的数据存储到CSV文件中from lxml import etreeimport requestsimport csv# wt是python中以文本写 的方式打开,只能写文件,如果文件不存在则创建该文件fp = open("D://pytext/douban_top 阅读全文
posted @ 2020-07-30 21:27 十六m 阅读(151) 评论(0) 推荐(0)
摘要: 一、正则表达式 1.Flags:Flags 写在结束的/之后,可以影响整个正则表达式的匹配行为。 g:全局匹配(global);正则表达式默认只会返回第一个匹配结果,使用标志符g则可以返回所有匹配 i:忽略大小写(case-insensitive);在匹配时忽略英文字母的大小写 m:多行匹配(mul 阅读全文
posted @ 2020-07-29 12:12 十六m 阅读(163) 评论(0) 推荐(0)
摘要: 一、案例一:酷狗top50分析: 1.Requests库用于请求网页获取网页数据,BeautifulSoup用于解析网页数据,time库的sleep()方法可以让程序暂停 2.添加User-Agent,用于伪装为浏览器,便于爬虫的稳定性。 3.定义get_info()函数,用于获取网页信息并输出信息 阅读全文
posted @ 2020-07-28 19:10 十六m 阅读(238) 评论(0) 推荐(0)
摘要: 一、requests库 1.引入 :import requests 2.基本get 请求: response = requests.get('http://httpbin.org/get')print(response.text) 带参get请求: response = requests.get(' 阅读全文
posted @ 2020-07-28 14:51 十六m 阅读(104) 评论(0) 推荐(0)