2019 年 3月随笔档案 - chenyibai

beautifulsoup的简单使用

摘要：简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： ''' Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代阅读全文

posted @ 2019-03-27 20:56 chenyibai 阅读(326) 评论(0) 推荐(0)

服务端如何识别是selenium在访问以及解决方案参考二

摘要：有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver，以为这样就能做到不被网站的反爬虫机制发现。先不说淘宝这种基于用户行为的反爬虫策略，仅仅是一个普通的小网站，使用一行Javascript代码，就能轻轻松松识别你是否使用了Selenium + Chromedriver 阅读全文

posted @ 2019-03-27 20:07 chenyibai 阅读(3404) 评论(1) 推荐(0)

服务端如何识别是selenium在访问以及解决方案参考一

摘要：使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案，它通吃各种数据加载方式，能够绕过客户JS加密，绕过爬虫检测，绕过签名机制。它的应用，使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹，因此无法被网站直接识别和拦截。这是不是就意味着sel 阅读全文

posted @ 2019-03-27 19:55 chenyibai 阅读(5811) 评论(0) 推荐(0)

python爬虫四种验证码的解决思路

摘要：1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图图1 图2 解决思路：这种是最简单的一种，只要识别出里面的内容，然后填入到输入框中即可。这种识别技术叫OCR，这里我们推荐使用Python的第三方库，tesserocr。对于没有什么背影影响的验证码如图2，直接阅读全文

posted @ 2019-03-27 19:44 chenyibai 阅读(3574) 评论(0) 推荐(0)

Python破解图形验证码

摘要：前言写爬虫有一个绕不过去的问题，那就是验证码，比如像某乎，如果不先登陆，连里面的内容数据都爬不到，而验证码就是网站进行发爬虫的一种措施，随着技术的发展，验证码越来越复杂，爬虫的工作越来越艰苦，所以这次就来讲解，怎么来识别验证码；（听上去口气很大的感觉）先来看看，目前遇到的验证码种类有哪些？ 1）阅读全文

posted @ 2019-03-26 21:57 chenyibai 阅读(3295) 评论(0) 推荐(1)

破解滑动验证码案例

摘要：步骤一:点击按钮，弹出没有缺口的图片 #步骤二：获取步骤一的图片 #步骤三：点击滑动按钮，弹出带缺口的图片 #步骤四：获取带缺口的图片 #步骤五：对比两张图片的所有RBG像素点，得到不一样像素点的x值，即要移动的距离 #步骤六：模拟人的行为习惯（先匀加速拖动后匀减速拖动），把需要拖动的总距离分成一段阅读全文

posted @ 2019-03-20 22:33 chenyibai 阅读(505) 评论(0) 推荐(0)

移动端数据爬取

摘要：前言随着移动市场的火热，各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据，那这些数据我们是否可以去享用一下呢？那么接下来就进入我们的移动端APP数据的爬虫中来吧。今日概要 fiddler简介手机APP抓包设置 fi 阅读全文

posted @ 2019-03-17 14:31 chenyibai 阅读(267) 评论(0) 推荐(0)

日志配置

摘要：settings.py中 DEBUG_TOOLBAR_CONFIG = { "JQUERY_URL": '//cdn.bootcss.com/jquery/2.2.4/jquery.min.js', } INTERNAL_IPS = ['127.0.0.1', ] BASE_LOG_DIR = os.path.join(BASE_DIR, "log") LOGGING = { ... 阅读全文

posted @ 2019-03-12 17:02 chenyibai 阅读(166) 评论(0) 推荐(0)

调用支付宝接口

摘要：url.py urlpatterns = [ url(r'^page1/', views.page1), url(r'^page2/', views.page2), ] views.py from django.shortcuts import render, redirect, HttpResponse from utils.pay import AliPay import... 阅读全文

posted @ 2019-03-08 15:40 chenyibai 阅读(420) 评论(0) 推荐(0)

chenyibai

03 2019 档案

公告