爬虫 - 随笔分类 - 凌逆战

爬虫总结

摘要：爬取网站的思路多级页面数据抓取 1、爬取一级页面，提取所需数据+链接，继续跟进 2、爬取二级页面，提取所需数据+链接，继续跟进 3、... 爬虫代码规范书写：常见的反爬总结基于User-Agent反爬一般被关注的变量是userAgent和Referer和Cookie，可以考虑用浏览器中 1、阅读全文

posted @ 2019-09-11 08:45 凌逆战阅读(1021) 评论(1) 推荐(1)

Fiddler 手机爬虫

摘要：Fiddler抓包工具配置Fiddler 配置浏览器代理 1、安装Proxy SwitchyOmega插件2、浏览器右上角：SwitchyOmega->选项->新建情景模式->AID1901(名字)->创建输入：HTTP:// 127.0.0.1 8888 点击：应用选项3、点击右上角Swi 阅读全文

posted @ 2019-09-09 16:23 凌逆战阅读(1273) 评论(0) 推荐(3)

多线程爬虫

摘要：应用场景 1、多进程：CPU密集程序2、多线程：爬虫(网络I/O)、本地磁盘I/O 知识点回顾队列线程模块小米应用商店抓取(多线程) 目标实现步骤 1、确认是否为动态加载 1、页面局部刷新 2、右键查看网页源代码，搜索关键字未搜到，因此此网站为动态加载网站，需要抓取网络数据包分析 2、F 阅读全文

posted @ 2019-09-09 09:54 凌逆战阅读(1966) 评论(11) 推荐(6)

selenium爬虫

摘要：Web自动化测试工具，可运行在浏览器，根据指令操作浏览器，只是工具，必须与第三方浏览器结合使用，相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找，不用确定源码中是否存在。安装 Linux: sudo pip3 instal 阅读全文

posted @ 2019-09-08 01:14 凌逆战阅读(8949) 评论(5) 推荐(21)

scrapy爬虫框架

摘要：scrapy框架是异步处理框架，可配置和可扩展程度非常高，Python中使用最广泛的爬虫框架。安装 Ubuntu安装 1、安装依赖包 2、安装scrapy框架 Windows安装 cmd命令行(管理员): python -m pip install Scrapy Scrapy框架五大组件下载器中阅读全文

posted @ 2019-09-07 16:20 凌逆战阅读(1914) 评论(2) 推荐(5)

爬虫——cookie模拟登陆

摘要：cookie适用于抓取需要登录才能访问的页面网站 cookie和session机制 http协议为无连接协议，cookie: 存放在客户端浏览器，session: 存放在Web服务器人人网登录案例方法一：登录网站手动抓取Cookie 1、先登录成功1次，获取到携带登陆信息的Cookie 登录成功阅读全文

posted @ 2019-09-06 16:19 凌逆战阅读(6746) 评论(0) 推荐(2)

爬虫——网页解析利器--re & xpath

摘要：正则解析模块re re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) 方法二创建正则编译对象 pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html) 正则表达式元字符：http 阅读全文

posted @ 2019-09-06 09:07 凌逆战阅读(2266) 评论(0) 推荐(3)

爬虫——控制台抓包和requests.post()发送请求

摘要：控制台抓包打开方式及常用选项 1、打开浏览器，F12打开控制台，找到Network选项卡 2、控制台常用选项 1、Network: 抓取网络数据包 1、ALL: 抓取所有的网络数据包 2、XHR：抓取异步加载的网络数据包 3、JS : 抓取所有的JS文件 2、Sources: 格式化输出并打断点调阅读全文

posted @ 2019-09-05 08:48 凌逆战阅读(8476) 评论(3) 推荐(3)

爬虫——爬取Ajax动态加载网页

摘要：常见的反爬机制及处理方式 1、Headers反爬虫：Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制：网站根据IP地址访问频率进行反爬,短时间内进制IP访问解决方案: 1、构造自己IP代理池,每次访阅读全文

posted @ 2019-09-04 19:49 凌逆战阅读(9527) 评论(2) 推荐(7)

爬虫——urllib爬虫模块

摘要：网络爬虫也称为网络蜘蛛、网络机器人，抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析，或者公司项目做数据测试，公司业务所需数据。而数据来源可以来自于公司内部数据，第三方平台购买的数据，还可以通过网络爬虫爬取数据。pyt 阅读全文

posted @ 2019-09-03 10:15 凌逆战阅读(700) 评论(0) 推荐(0)

猫眼电影和电影天堂数据csv和mysql存储

摘要：字符串常用方法 csv模块作用：将爬取的数据存放到本地的csv文件中使用流程 Windows中使用csv模块默认会在每行后面添加一个空行，使用newline=''可解决 with open('xxx.csv','w',newline='') as f: 猫眼电影top100抓取案例确定URL网阅读全文

posted @ 2019-09-03 09:35 凌逆战阅读(1594) 评论(0) 推荐(0)

爬虫：requests.get爬虫模块参数

摘要：地址和请求头参数--url和header res = requests.get(url,headers=headers) 向网站发起请求，并获取响应对象参数 url ：需要抓取的URL地址 headers : 请求头 timeout : 超时时间，超过时间会抛出异常响应对象(res)属性 enc 阅读全文

posted @ 2019-09-02 14:50 凌逆战阅读(17306) 评论(1) 推荐(24)

随笔分类 - Web前后端 / 爬虫

公告