随笔分类 - Python爬虫
爬虫复习
爬取汽车之家新闻的数据
摘要:1.使用requests获取请求 response= requests.get(url) # 获取请求 response.text # 获取文本 response.content # 获取内容 response.encoding # 解码 response.aparent_encoding # 转码
阅读全文
爬取简书
摘要:爬取简书思路: 1)使用selenium模拟浏览器打开网页2)由于分页是通过点击【阅读更多】按钮来加载数据的,因此需要模拟单击该按钮3)确定要爬取多少页的数据,如果要爬取10页的数据,就需要模拟单机10次【阅读更多】按钮4)单击该按钮后,需要定位这个信息列表元素,然后使用xpath提取数据5)提取到
阅读全文
贴吧爬取保存到本地
摘要:面向过程的代码 import requests # 步骤 # 确定url地址,生成一个url列表 # 遍历url列表,请求数据 # 把返回的数据保存到本地 # https://tieba.baidu.com/f?kw=武汉&pn=0 50*0 # https://tieba.baidu.com/f?
阅读全文
python_爬虫_requests
摘要:requests_get请求 requests_post请求和cookie处理 requests 其他方法
阅读全文
爬虫基础
摘要:聚焦爬虫的流程 得到url_list即需要爬取的url地址, 发起请求,返回响应内容, 如果响应内容中还有你需要爬取的url再添加到url_list中, 再次发起请求,直到没有url或者不需要爬取的url, 提取数据,提取需要的数据, 最后一步,把数据存入数据库 requests模块 作用:发起请求
阅读全文
浙公网安备 33010602011771号