随笔分类 -  爬虫

摘要:各位老铁好,现如今移动端抓取数据是一种趋势化,今天我以抓取移动端搜狐视频为例向大家做一个抓取移动端数据的示例 1.首先下载Fiddler抓包工具: 链接: https://pan.baidu.com/s/1_3l6POqbRFoQjJT02YQ8DQ 提取码: d4n2 复制这段内容后打开百度网盘手 阅读全文
posted @ 2019-04-12 15:17 chenyibai 阅读(1169) 评论(0) 推荐(0)
摘要:一、设置Fiddler代理 1.点击Tools-Fiddler Options进入Fiddler Options页面 2.点击Connections,将Fiddler listens on port设为8888,勾选Allow remote computers to connect 3.点击OK,代 阅读全文
posted @ 2019-04-11 19:03 chenyibai 阅读(24430) 评论(0) 推荐(1)
摘要:下载地址:https://www.filecroco.com/download-gather-proxy/download/ 下载好之后解压 股 <!--阅读全文(测试用,现在可能不用了)--> <!--防止文章内容有不完整标签--> 下载地址:https://www.filecroco.com/d 阅读全文
posted @ 2019-04-10 11:37 chenyibai 阅读(2802) 评论(0) 推荐(0)
摘要:简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: ''' Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代 阅读全文
posted @ 2019-03-27 20:56 chenyibai 阅读(325) 评论(0) 推荐(0)
摘要:有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver,以为这样就能做到不被网站的反爬虫机制发现。 先不说淘宝这种基于用户行为的反爬虫策略,仅仅是一个普通的小网站,使用一行Javascript代码,就能轻轻松松识别你是否使用了Selenium + Chromedriver 阅读全文
posted @ 2019-03-27 20:07 chenyibai 阅读(3404) 评论(1) 推荐(0)
摘要:使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制。它的应用,使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹,因此无法被网站直接识别和拦截。 这是不是就意味着sel 阅读全文
posted @ 2019-03-27 19:55 chenyibai 阅读(5811) 评论(0) 推荐(0)
摘要:1.输入式验证码 这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2 解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接 阅读全文
posted @ 2019-03-27 19:44 chenyibai 阅读(3574) 评论(0) 推荐(0)
摘要:前言 写爬虫有一个绕不过去的问题,那就是验证码,比如像某乎,如果不先登陆,连里面的内容数据都爬不到,而验证码就是网站进行发爬虫的一种措施,随着技术的发展,验证码越来越复杂,爬虫的工作越来越艰苦,所以这次就来讲解,怎么来识别验证码;(听上去口气很大的感觉) 先来看看,目前遇到的验证码种类有哪些? 1) 阅读全文
posted @ 2019-03-26 21:57 chenyibai 阅读(3294) 评论(0) 推荐(1)
摘要:步骤一:点击按钮,弹出没有缺口的图片 #步骤二:获取步骤一的图片 #步骤三:点击滑动按钮,弹出带缺口的图片 #步骤四:获取带缺口的图片 #步骤五:对比两张图片的所有RBG像素点,得到不一样像素点的x值,即要移动的距离 #步骤六:模拟人的行为习惯(先匀加速拖动后匀减速拖动),把需要拖动的总距离分成一段 阅读全文
posted @ 2019-03-20 22:33 chenyibai 阅读(505) 评论(0) 推荐(0)
摘要:前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 今日概要 fiddler简介 手机APP抓包设置 fi 阅读全文
posted @ 2019-03-17 14:31 chenyibai 阅读(267) 评论(0) 推荐(0)