随笔分类 -  python爬虫

spider
摘要:我的CSDN博客地址: https://blog.csdn.net/qq_42658739 我的个人博客地址: http://love520.ltd/ 欢迎大家关注。 阅读全文
posted @ 2020-04-03 15:01 Tony学长 阅读(62) 评论(0) 推荐(0)
摘要:1.使用自己搭好的代理池或者别人搭建好的代理池,一般都是网页api的形式。 【建议多去Github逛逛,有你意想不到的收获,也能提高英语和参与一点项目的改进】 (1)第一步当然是你的api地址了。 例如: self.PROXY_POOL_URL = 'http://localhost:5000/ge 阅读全文
posted @ 2019-06-09 22:05 Tony学长 阅读(775) 评论(0) 推荐(0)
摘要:思路: 【声明,少量爬取公开数据仅供分析以及爬虫学习使用】 1.确定起始URL:https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,1.htm 阅读全文
posted @ 2019-06-09 21:43 Tony学长 阅读(190) 评论(0) 推荐(0)
摘要:json常用方法 1. json.load(json_data)与json.dump(python_data) json.load()用来将读取json文件,json.dump()用来将数据写入json文件 2. json.loads()与json.dumps() json.dumps 将 Pyth 阅读全文
posted @ 2019-05-14 13:38 Tony学长 阅读(254) 评论(0) 推荐(0)
摘要:selenium是一个自动化测试的工具,我不是搞那方面的,所以也在那方面的具体应用不太了解。但是,这并不影响我在爬虫和其它方面的使用。 安装: 使用pip安装就可以了。 注:使用selenium之前需要下载chromedriver.exe放入chorme安装的文件夹,并配置环境变量哦!具体自行百度解 阅读全文
posted @ 2019-05-06 23:37 Tony学长 阅读(172) 评论(0) 推荐(0)
摘要:如有不得当之处,请联系我会及时删除 这次的抓取我用的是requests和Xpath,因为没有必要使用大型工具 import requests from lxml import etree 思路: 1.目的是下载爬虫教程 2.分析网页以及规则,使用Xpath简单获取下载url 3.循环下载 代码如下: 阅读全文
posted @ 2019-05-04 13:26 Tony学长 阅读(334) 评论(0) 推荐(0)
摘要:引入BeautifulSoup: from bs4 import BeautifulSoup #意思就是从bs4这个包里面引入BeautifulSoup这个类 之后,使用以下语法来把请求之后的响应传入解析器: soup = BeautifulSoup(response.text, features= 阅读全文
posted @ 2019-05-04 13:14 Tony学长 阅读(1488) 评论(0) 推荐(0)