爬虫 - 随笔分类 - MiaoQinHong

Selenium

摘要：python爬虫之初始Selenium 1、初始 Selenium[1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chro 阅读全文

posted @ 2019-08-31 07:53 MiaoQinHong 阅读(79) 评论(0) 推荐(0)

xpath

摘要：python爬虫之xpath的基本使用一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。二、安装 1 阅读全文

posted @ 2019-08-31 07:32 MiaoQinHong 阅读(173) 评论(0) 推荐(0)

常见的反爬机制及应对策略

摘要：1.Headers: 从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法，还有一些网站会对Referer （上级链接）进行检测从而实现爬虫。相应的解决措施：通过审查元素或者开发者工具获取相应的heade 阅读全文

posted @ 2019-08-27 19:34 MiaoQinHong 阅读(1831) 评论(0) 推荐(0)

九、爬虫框架之Scrapy

摘要：爬虫框架之Scrapy 一、介绍二、安装三、命令行工具四、项目结构以及爬虫应用简介五、Spiders 六、Selectors 七、Items 八、Item Pipelin 九、 Dowloader Middeware 十、Sider Middlewear 十一、自定义扩展十二、setiti 阅读全文

posted @ 2019-08-17 23:29 MiaoQinHong 阅读(304) 评论(0) 推荐(0)

八、asynicio模块以及爬虫应用asynicio模块(高性能爬虫)

摘要：asynicio模块以及爬虫应用asynicio模块(高性能爬虫) asynicio模块以及爬虫应用asynicio模块(高性能爬虫) 一、背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续阅读全文

posted @ 2019-08-17 23:16 MiaoQinHong 阅读(366) 评论(0) 推荐(0)

第七篇：爬虫实战— 4、爬取校花网视频示例（点开往下拉）

摘要：1、爬取校花网示例1： 1 import requests #pip3 install requests 2 import re 3 import hashlib 4 import time 5 6 movie_path=r'C:\mp4' 7 8 def get_page(url): 9 try: 阅读全文

posted @ 2019-08-17 23:10 MiaoQinHong 阅读(315) 评论(0) 推荐(0)

第七篇：爬虫实战— 3、自动登录123并且自动发送邮箱；自动爬取京东商品信息

摘要：selenium模块 selenium模块阅读目录一、介绍二、安装三、基本使用四、选择器五、等待元素被加载六、元素交互操作七、其他八、练习一、介绍 selenium最初是一个测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 sele 阅读全文

posted @ 2019-08-17 23:06 MiaoQinHong 阅读(665) 评论(0) 推荐(0)

第七篇：爬虫实战—2、投递拉钩网简历

摘要：爬虫投递简历小示例爬虫投递简历小示例一、流程分析第一步：获取登录页，获取X_Anti_Forge_Token，X_Anti_Forge_Code 1、请求url：https://passport.lagou.com/login/login.html 2、请求方式：get 3、请求头: - co 阅读全文

posted @ 2019-08-17 22:54 MiaoQinHong 阅读(370) 评论(0) 推荐(0)

第七篇：爬虫实战---　1、破解滑动验证码

摘要：破解极验滑动验证码破解极验滑动验证码一、介绍一些网站会在正常的账号密码认证之外加一些验证码，以此来明确地区分人/机行为，从一定程度上达到反爬的效果，对于简单的校验码Tesserocr就可以搞定，如下但一些网站加入了滑动验证码，最典型的要属于极验滑动认证了，极验官网：http://www.ge 阅读全文

posted @ 2019-08-17 22:52 MiaoQinHong 阅读(545) 评论(0) 推荐(0)

第六篇：Scrapy框架

摘要：爬虫框架之Scrapy 一、介绍二、安装三、命令行工具四、项目结构以及爬虫应用简介五、Spiders 六、Selectors 七、Items 八、Item Pipelin 九、 Dowloader Middeware 十、Sider Middlewear 十一、自定义扩展十二、setiti 阅读全文

posted @ 2019-08-17 21:04 MiaoQinHong 阅读(224) 评论(0) 推荐(0)

第五篇：爬虫高性能相关

摘要：asynicio模块以及爬虫应用asynicio模块(高性能爬虫) asynicio模块以及爬虫应用asynicio模块(高性能爬虫) 一、背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续阅读全文

posted @ 2019-08-17 20:40 MiaoQinHong 阅读(215) 评论(0) 推荐(1)

第四篇：存储库之mongodb、redis、mysql

摘要：MongoDB的简单操作 MongoDB的简单操作一、简介二、MongoDB基础知识三、安装四、基本数据类型五、增删改查操作六、可视化工具七、pymongo 一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库 MongoDB 是由C++语言编写的，是一个基于分布式文件存阅读全文

posted @ 2019-08-17 20:36 MiaoQinHong 阅读(285) 评论(0) 推荐(0)

第三篇：解析库之re、beautifulsoup、pyquery

摘要：BeatifulSoup模块 BeatifulSoup模块一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻阅读全文

posted @ 2019-08-17 20:24 MiaoQinHong 阅读(203) 评论(0) 推荐(0)

第二篇：请求库之requests,selenium

摘要：requests模块 requests模块一、介绍 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目阅读全文

posted @ 2019-08-17 20:02 MiaoQinHong 阅读(473) 评论(0) 推荐(0)

第一篇：爬虫基本原理

摘要：一、爬虫是什么? 二、爬虫的基本流程三、请求与响应四、Request 1 import requests 2 from urllib.parse import urlencode 3 # 请求方式 4 kwords = input("请输入关键字:>>").strip() 5 res = url 阅读全文

posted @ 2019-08-17 19:35 MiaoQinHong 阅读(146) 评论(0) 推荐(0)

mqhpyh

随笔分类 - 爬虫

公告