随笔分类 -  Python爬虫

爬虫复习
爬取汽车之家新闻的数据
摘要:1.使用requests获取请求 response= requests.get(url) # 获取请求 response.text # 获取文本 response.content # 获取内容 response.encoding # 解码 response.aparent_encoding # 转码 阅读全文
posted @ 2020-07-09 19:18 Leilok 阅读(217) 评论(0) 推荐(0)
爬取简书
摘要:爬取简书思路: 1)使用selenium模拟浏览器打开网页2)由于分页是通过点击【阅读更多】按钮来加载数据的,因此需要模拟单击该按钮3)确定要爬取多少页的数据,如果要爬取10页的数据,就需要模拟单机10次【阅读更多】按钮4)单击该按钮后,需要定位这个信息列表元素,然后使用xpath提取数据5)提取到 阅读全文
posted @ 2020-05-19 19:15 Leilok 阅读(225) 评论(0) 推荐(0)
贴吧爬取保存到本地
摘要:面向过程的代码 import requests # 步骤 # 确定url地址,生成一个url列表 # 遍历url列表,请求数据 # 把返回的数据保存到本地 # https://tieba.baidu.com/f?kw=武汉&pn=0 50*0 # https://tieba.baidu.com/f? 阅读全文
posted @ 2020-04-20 01:44 Leilok 阅读(417) 评论(0) 推荐(0)
python_爬虫_数据提取
摘要:数据提取 结构化 非结构化 阅读全文
posted @ 2020-04-18 15:40 Leilok 阅读(152) 评论(0) 推荐(0)
python_爬虫_requests
摘要:requests_get请求 requests_post请求和cookie处理 requests 其他方法 阅读全文
posted @ 2020-04-18 15:36 Leilok 阅读(126) 评论(0) 推荐(0)
python_爬虫
摘要:什么是爬虫 阅读全文
posted @ 2020-04-18 15:33 Leilok 阅读(132) 评论(0) 推荐(0)
爬虫基础
摘要:聚焦爬虫的流程 得到url_list即需要爬取的url地址, 发起请求,返回响应内容, 如果响应内容中还有你需要爬取的url再添加到url_list中, 再次发起请求,直到没有url或者不需要爬取的url, 提取数据,提取需要的数据, 最后一步,把数据存入数据库 requests模块 作用:发起请求 阅读全文
posted @ 2020-04-12 17:23 Leilok 阅读(116) 评论(0) 推荐(0)