随笔分类 -  python爬虫

新手学习爬虫
摘要:2018-11-13 1.爬虫:模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序。 模拟客户端(浏览器)发送网络请求:照着浏览器发送一模一样的请求,获取和浏览器一模一样的数据 2.爬虫的数据去哪了? 呈现出来:展现在网页上,或者展示在app上 进行分析:从数据中 一些规律 3. u 阅读全文
posted @ 2019-03-01 08:53 Miss-Gao 阅读(627) 评论(0) 推荐(0)
摘要:爬虫四步: 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目 明确目标 (编写items.py):明确你想要抓取的目标 制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页 存储内容 (pipelines.py):设计管道存储爬取内容 爬取内容 阅读全文
posted @ 2018-12-04 10:38 Miss-Gao 阅读(193) 评论(0) 推荐(0)
摘要:1.items.py 2.myspider.py 3.settingd.py 4.pipelines.py 遇到的问题: 阅读全文
posted @ 2018-12-04 09:34 Miss-Gao 阅读(243) 评论(0) 推荐(0)
摘要:在豆瓣图书爬取书籍信息为例(爬取下面划红线的信息) 1.先创建一个mySpider项目(如何创建项目上面已经说过了) 2.打开mySpider目录下的items.py Item 定义结构化数据字段,用来保存爬取到的数据(因为要爬取的是两行信息,下面定义两个变量来存取字符串) 2.在Terminal终 阅读全文
posted @ 2018-12-03 15:53 Miss-Gao 阅读(283) 评论(0) 推荐(0)
摘要:最近在自学爬虫,一开始以为scrapy项目可以手动创建的,后来百度发现要想在pyCharm中创建scrapy项目,要在Terminal终端上写命令行。 1.先找到Terminal终端 2.在终端输入 :scrapy startproject mySpider 列表中出现 mySpider/ :项目的 阅读全文
posted @ 2018-12-02 09:48 Miss-Gao 阅读(2372) 评论(0) 推荐(0)
摘要:1.cmd中通过ipconfig查看电脑ip地址 2.手机无线局域网中点击自己连接的无线网后面的感叹号标志,选择配置代理->手动->将查看电脑的ip地址输入到服务器中,端口号为fiddler中自己设置的端口号 3.打开safari浏览器,输入刚才的ip地址:端口号(如:1.1.1.1:8888),i 阅读全文
posted @ 2018-11-30 16:32 Miss-Gao 阅读(3690) 评论(0) 推荐(0)