十六m

2020年7月30日

摘要： import xlwtimport requestsfrom lxml import etreeimport time# 初始化列表，存入爬虫数据all_info_list = []# 定义获取爬虫信息的函数def get_info(url): html = requests.get(url) se 阅读全文

posted @ 2020-07-30 21:38 十六m 阅读(185) 评论(0) 推荐(0)

xpath之豆瓣图书案例

摘要： # 爬取豆瓣图书TOP250,爬取的数据存储到CSV文件中from lxml import etreeimport requestsimport csv# wt是python中以文本写的方式打开,只能写文件,如果文件不存在则创建该文件fp = open("D://pytext/douban_top 阅读全文

posted @ 2020-07-30 21:27 十六m 阅读(152) 评论(0) 推荐(0)

2020年7月29日

正则表达式、re模块以及《斗破苍穹》案例学习

摘要：一、正则表达式 1.Flags：Flags 写在结束的/之后，可以影响整个正则表达式的匹配行为。 g：全局匹配（global）；正则表达式默认只会返回第一个匹配结果，使用标志符g则可以返回所有匹配 i：忽略大小写（case-insensitive）；在匹配时忽略英文字母的大小写 m：多行匹配（mul 阅读全文

posted @ 2020-07-29 12:12 十六m 阅读(166) 评论(0) 推荐(0)

2020年7月28日

python爬虫案例

摘要：一、案例一：酷狗top50分析： 1.Requests库用于请求网页获取网页数据，BeautifulSoup用于解析网页数据，time库的sleep()方法可以让程序暂停 2.添加User-Agent，用于伪装为浏览器，便于爬虫的稳定性。 3.定义get_info()函数，用于获取网页信息并输出信息阅读全文

posted @ 2020-07-28 19:10 十六m 阅读(243) 评论(0) 推荐(0)

requests和beautifulsoup笔记

摘要：一、requests库 1.引入：import requests 2.基本get 请求： response = requests.get('http://httpbin.org/get')print(response.text) 带参get请求： response = requests.get(' 阅读全文

posted @ 2020-07-28 14:51 十六m 阅读(110) 评论(0) 推荐(0)

公告