随笔分类 -  Web前后端 / 爬虫

网络爬虫的学习经验分享
摘要:爬取网站的思路 多级页面数据抓取 1、爬取一级页面,提取所需数据+链接,继续跟进 2、爬取二级页面,提取所需数据+链接,继续跟进 3、... 爬虫代码规范书写: 常见的反爬总结 基于User-Agent反爬 一般被关注的变量是userAgent和Referer和Cookie,可以考虑用浏览器中 1、 阅读全文
posted @ 2019-09-11 08:45 凌逆战 阅读(1021) 评论(1) 推荐(1)
摘要:Fiddler抓包工具 配置Fiddler 配置浏览器代理 1、安装Proxy SwitchyOmega插件2、浏览器右上角:SwitchyOmega->选项->新建情景模式->AID1901(名字)->创建 输入 :HTTP:// 127.0.0.1 8888 点击 :应用选项3、点击右上角Swi 阅读全文
posted @ 2019-09-09 16:23 凌逆战 阅读(1273) 评论(0) 推荐(3)
摘要:应用场景 1、多进程 :CPU密集程序2、多线程 :爬虫(网络I/O)、本地磁盘I/O 知识点回顾 队列 线程模块 小米应用商店抓取(多线程) 目标 实现步骤 1、确认是否为动态加载 1、页面局部刷新 2、右键查看网页源代码,搜索关键字未搜到,因此此网站为动态加载网站,需要抓取网络数据包分析 2、F 阅读全文
posted @ 2019-09-09 09:54 凌逆战 阅读(1966) 评论(11) 推荐(6)
摘要:Web自动化测试工具,可运行在浏览器,根据指令操作浏览器,只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找,不用确定源码中是否存在。 安装 Linux: sudo pip3 instal 阅读全文
posted @ 2019-09-08 01:14 凌逆战 阅读(8949) 评论(5) 推荐(21)
摘要:scrapy框架是异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架。 安装 Ubuntu安装 1、安装依赖包 2、安装scrapy框架 Windows安装 cmd命令行(管理员): python -m pip install Scrapy Scrapy框架五大组件 下载器中 阅读全文
posted @ 2019-09-07 16:20 凌逆战 阅读(1914) 评论(2) 推荐(5)
摘要:cookie适用于抓取需要登录才能访问的页面网站 cookie和session机制 http协议为无连接协议,cookie: 存放在客户端浏览器,session: 存放在Web服务器 人人网登录案例 方法一:登录网站手动抓取Cookie 1、先登录成功1次,获取到携带登陆信息的Cookie 登录成功 阅读全文
posted @ 2019-09-06 16:19 凌逆战 阅读(6746) 评论(0) 推荐(2)
摘要:正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 创建正则编译对象 pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html) 正则表达式元字符:http 阅读全文
posted @ 2019-09-06 09:07 凌逆战 阅读(2266) 评论(0) 推荐(3)
摘要:控制台抓包 打开方式及常用选项 1、打开浏览器,F12打开控制台,找到Network选项卡 2、控制台常用选项 1、Network: 抓取网络数据包 1、ALL: 抓取所有的网络数据包 2、XHR:抓取异步加载的网络数据包 3、JS : 抓取所有的JS文件 2、Sources: 格式化输出并打断点调 阅读全文
posted @ 2019-09-05 08:48 凌逆战 阅读(8476) 评论(3) 推荐(3)
摘要:常见的反爬机制及处理方式 1、Headers反爬虫 :Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问 解决方案: 1、构造自己IP代理池,每次访 阅读全文
posted @ 2019-09-04 19:49 凌逆战 阅读(9527) 评论(2) 推荐(7)
摘要:网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据。而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据。pyt 阅读全文
posted @ 2019-09-03 10:15 凌逆战 阅读(700) 评论(0) 推荐(0)
摘要:字符串常用方法 csv模块 作用:将爬取的数据存放到本地的csv文件中 使用流程 Windows中使用csv模块默认会在每行后面添加一个空行,使用newline=''可解决 with open('xxx.csv','w',newline='') as f: 猫眼电影top100抓取案例 确定URL网 阅读全文
posted @ 2019-09-03 09:35 凌逆战 阅读(1594) 评论(0) 推荐(0)
摘要:地址和请求头参数--url和header res = requests.get(url,headers=headers) 向网站发起请求,并获取响应对象 参数 url :需要抓取的URL地址 headers : 请求头 timeout : 超时时间,超过时间会抛出异常 响应对象(res)属性 enc 阅读全文
posted @ 2019-09-02 14:50 凌逆战 阅读(17306) 评论(1) 推荐(24)