随笔分类 - python爬虫
spider
摘要:我的CSDN博客地址: https://blog.csdn.net/qq_42658739 我的个人博客地址: http://love520.ltd/ 欢迎大家关注。
阅读全文
摘要:1.使用自己搭好的代理池或者别人搭建好的代理池,一般都是网页api的形式。 【建议多去Github逛逛,有你意想不到的收获,也能提高英语和参与一点项目的改进】 (1)第一步当然是你的api地址了。 例如: self.PROXY_POOL_URL = 'http://localhost:5000/ge
阅读全文
摘要:思路: 【声明,少量爬取公开数据仅供分析以及爬虫学习使用】 1.确定起始URL:https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,1.htm
阅读全文
摘要:json常用方法 1. json.load(json_data)与json.dump(python_data) json.load()用来将读取json文件,json.dump()用来将数据写入json文件 2. json.loads()与json.dumps() json.dumps 将 Pyth
阅读全文
摘要:selenium是一个自动化测试的工具,我不是搞那方面的,所以也在那方面的具体应用不太了解。但是,这并不影响我在爬虫和其它方面的使用。 安装: 使用pip安装就可以了。 注:使用selenium之前需要下载chromedriver.exe放入chorme安装的文件夹,并配置环境变量哦!具体自行百度解
阅读全文
摘要:如有不得当之处,请联系我会及时删除 这次的抓取我用的是requests和Xpath,因为没有必要使用大型工具 import requests from lxml import etree 思路: 1.目的是下载爬虫教程 2.分析网页以及规则,使用Xpath简单获取下载url 3.循环下载 代码如下:
阅读全文
摘要:引入BeautifulSoup: from bs4 import BeautifulSoup #意思就是从bs4这个包里面引入BeautifulSoup这个类 之后,使用以下语法来把请求之后的响应传入解析器: soup = BeautifulSoup(response.text, features=
阅读全文

浙公网安备 33010602011771号