随笔分类 -  爬虫从入门到放弃

文字混淆反爬虫
该文被密码保护。
posted @ 2020-02-07 16:20 Rannie` 阅读(2) 评论(0) 推荐(0)
动态渲染反爬虫
摘要:[TOC] 动态渲染反爬虫 动态网页比静态网页更具有交互性,能给用户提供更好的体验 动态网页中常见的表现形式有 下拉刷新,点击切换和悬停显示等 由 JavaScript 改变 HTML "DOM" 导致页面内容发生变化的现象称为动态渲染 动态渲染的通用解决办法 如果每次遇到很麻烦的动态渲染页面,都需 阅读全文
posted @ 2020-02-02 17:51 Rannie` 阅读(683) 评论(0) 推荐(0)
Pyppeteer
摘要:[TOC] Pyppeteer 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动 最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部 阅读全文
posted @ 2020-02-02 11:09 Rannie` 阅读(766) 评论(0) 推荐(0)
WebSocket 反爬虫
摘要:[TOC] WebSocket握手验证反爬虫 ! "HTTP协议" "请求头" 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据 Web 领域中,用于实现数据'实时'更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一 阅读全文
posted @ 2020-01-30 13:32 Rannie` 阅读(1640) 评论(0) 推荐(0)
绕过反爬虫
摘要:"1 签名验证反爬虫" "2 WebSocket 反爬虫" "3 动态渲染反爬虫" "4 文字混淆反爬虫" "5 特征识别爬虫" "6 APP 爬虫" "7 IP 池代理" "8 验证码处理" 阅读全文
posted @ 2020-01-29 12:05 Rannie` 阅读(514) 评论(0) 推荐(0)
签名验证反爬虫
该文被密码保护。
posted @ 2020-01-28 17:15 Rannie` 阅读(6) 评论(0) 推荐(0)
爬虫流程
摘要:爬虫的流程 网络爬虫的流程其实非常简单 主要可以分为四部分: 1 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:www.baidu.com,然后点击 阅读全文
posted @ 2019-12-29 14:56 Rannie` 阅读(568) 评论(0) 推荐(2)
爬虫能干什么
摘要:[TOC] 1 后来 我第一次听到爬虫这个词的时候 以为是什么爬行的昆虫...后来才知道 后来, 后来,我终于明白爬虫是互联网中数据抓取的用语 2 爬虫趋势 随着大数据时代的来临,网络爬虫在互联网中的地位越来越重要 互联网中的数据是海量的,网络爬虫可以为我们自动高效的获取网络中对我们有用的信息 网络 阅读全文
posted @ 2019-12-29 01:08 Rannie` 阅读(2096) 评论(0) 推荐(0)
爬虫高性能asyncio+ahttpio
摘要:async实现协程,异步编程 我们都知道,现在的服务器开发对于IO调度的优先级控制权已经不再依靠系统,都希望采用协程的方式实现高效的并发任务,如js、lua等在异步协程方面都做的很强大。 python在3.4版本也加入了协程的概念,并在3.5确定了基本完善的语法和实现方式。同时3.6也对其进行了如解 阅读全文
posted @ 2019-12-03 08:33 Rannie` 阅读(506) 评论(0) 推荐(1)
高效爬虫
摘要:[TOC] Gevent gevent基础之阻塞,非阻塞 1.gevent中一个很大的改进就是将阻塞IO改为非阻塞IO; 阻塞调用是指调用结果返回之前,当前线程会被挂起。函数只有在得到结果之后才会返回 非阻塞指在不能立刻得到结果之前,该函数不会阻塞当前线程,而会立刻返回 同步,异步概念 1.同步就是 阅读全文
posted @ 2019-11-25 18:55 Rannie` 阅读(202) 评论(0) 推荐(0)
MongonDB
摘要:[TOC] 1、下载MongoDB "MongoDB的官网" "简单下载方法" "win32/mongodb win32 x86_64 2008plus ssl v4.0 latest signed.msi" 2、启动MongoDB 启动服务:打开命令行输入命令 解析:mongod –dbpath 阅读全文
posted @ 2019-11-16 20:55 Rannie` 阅读(160) 评论(0) 推荐(0)
XPath
摘要:1、什么是XPath XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath是什么? 全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文
posted @ 2019-11-12 22:18 Rannie` 阅读(173) 评论(0) 推荐(0)
爬虫从入门到放弃!!!
摘要:写爬虫,是一个非常考验综合实力的活儿。 有时候,你轻而易举地就抓取到了想要的数据; 有时候,你费尽心思却毫无所获。 好多Python爬虫的入门教程都是一行代码就把你骗上了**“贼船”**,等上了贼船才发现,水好深~ 比如爬取一个网页可以是很简单的一行代码: requests.get('https:/ 阅读全文
posted @ 2019-11-06 19:00 Rannie` 阅读(520) 评论(0) 推荐(0)
Requests
摘要:Requests 基本使用 python发送请求时,可以用requests模块,这个模块不是内置模块 需要安装 pip install requests Requests库的七个主要方法: 方法 描述 requests.request() 构造一个请求,支撑一下各方法的基础方法 requests.g 阅读全文
posted @ 2019-11-06 18:55 Rannie` 阅读(233) 评论(0) 推荐(0)
初识爬虫
摘要:1、初识爬虫 明晰路径 一般来说,传统的拿数据的做法是:通过浏览器上网,手动下载所需要的数据。其实在这背后,浏览器做了很多我们看不见的工作,而只有了解浏览器的工作原理后,才能真正理解爬虫在帮我们做什么。 浏览器的工作原理 实不相瞒,在这个过程中,浏览器的交流对象不只有你,还有【服务器】。我们可以把服 阅读全文
posted @ 2019-11-06 18:53 Rannie` 阅读(148) 评论(0) 推荐(0)
Selenium XPath
摘要:1、selenium是什么呢? selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。 它可以做什么呢?它可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。 selenium允许让人去 阅读全文
posted @ 2019-11-05 17:35 Rannie` 阅读(287) 评论(0) 推荐(0)
Beautiful Soup
摘要:Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简 阅读全文
posted @ 2019-11-03 18:53 Rannie` 阅读(330) 评论(0) 推荐(0)
cookies
摘要:[TOC] Cookie简介 HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。 对于服务器来说,并不关心,也并不知道是哪个用户的请求。 对于一般浏览性的网页来说,没有任何问题。 但是,现在很多的网站,是需要用户登录的。以淘宝为例:比如说某个用户想购买一个产品 阅读全文
posted @ 2019-11-01 20:12 Rannie` 阅读(219) 评论(0) 推荐(0)

去除动画
找回动画