随笔分类 -  爬虫案例

摘要:采集网址:https://www.zhihu.com/people/ponyma/followers 爬虫文件 import scrapy import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = [ 阅读全文
posted @ 2019-07-17 16:18 菜鸟SSS 阅读(377) 评论(0) 推荐(0)
摘要:目标网址:http://www.7799520.com/jiaoyou.html 一 创建项目: scrapy startproject 项目名(我这里是wzlySpider) 进入创建好的wzlySpider 目录文件下 创建爬虫文件 scrapy genspider wzly www.77005 阅读全文
posted @ 2019-07-12 17:48 菜鸟SSS 阅读(417) 评论(0) 推荐(0)
摘要:import requests # 定义爬取url地址 base_url = 'https://www.baidu.com/' # 定义代理IP地址 proxies = {'http':'http://121.31.193.38:8123'} # 使用代理获取想要的页面 response = requests.request('get', base_url, proxies=proxies... 阅读全文
posted @ 2019-02-22 21:45 菜鸟SSS 阅读(255) 评论(0) 推荐(0)
摘要:一、静态爬取页面信息 有道翻译网址:http://fanyi.youdao.com/ 在翻译中输入python 找到接口和请求的方式 参数是From Data类型 需要把参数数据转换为字典, 复制粘贴后按住Ctrl + r ,然后 Headers 内容的长度是data携带参数的长度 代码实现 分析: 阅读全文
posted @ 2019-02-22 20:10 菜鸟SSS 阅读(2872) 评论(1) 推荐(1)
摘要:1、打开网站:https://www.amap.com/ 2、按F12进入开发者界面,如下图 3、点击Network--XHR--刷新,如下图 4、找到存放天气的文件 如何获取图中adcode,因为adcode为获取每个城市天气的标识。 ①复制adcode在上个图中的左下方文件中的Preview找到 阅读全文
posted @ 2019-02-22 19:52 菜鸟SSS 阅读(1541) 评论(0) 推荐(0)