2018 年 9月 6 日随笔档案 - xpwi

2018年9月6日

摘要： Python爬虫教程 34 分布式爬虫介绍分布式爬虫在实际应用中还算是多的，本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。其实搜索引擎都是爬虫，负责从世界各地的网站上爬取内容，当你搜索关键词时就把相关的阅读全文

posted @ 2018-09-06 21:17 xpwi 阅读(3414) 评论(0) 推荐(0)

Python爬虫教程-33-scrapy shell 的使用

摘要：本篇详细介绍 scrapy shell 的使用，也介绍了使用 xpath 进行精确查找 Python爬虫教程 33 scrapy shell 的使用 scrapy shell 的使用条件：我们需要先在环境中，安装 scrapy 包，如果还没有安装，请参照： "Python爬虫教程 30 Scra 阅读全文

posted @ 2018-09-06 21:16 xpwi 阅读(9888) 评论(0) 推荐(1)

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍

摘要：本篇介绍项目开发的过程中，对 Setting 文件的配置和使用 Python爬虫教程 32 Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 settings.py文件的更多内容，可查看中文文档： https://scrapy chs.rea 阅读全文

posted @ 2018-09-06 21:15 xpwi 阅读(901) 评论(0) 推荐(0)

Python爬虫教程-31-创建 Scrapy 爬虫框架项目

摘要：本篇是介绍在 Anaconda 环境下，创建 Scrapy 爬虫框架项目的步骤，且介绍比较详细 Python爬虫教程 31 创建 Scrapy 爬虫框架项目首先说一下，本篇是在 Anaconda 环境下，所以如果没有安装 Anaconda 请先到官网下载安装 Anaconda 下载地址：https 阅读全文

posted @ 2018-09-06 21:14 xpwi 阅读(1577) 评论(0) 推荐(0)

Python爬虫教程-30-Scrapy 爬虫框架介绍

摘要：从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程 30 Scrapy 爬虫框架介绍框架：框架就是对于相同的相似的部分，代码做到不出错，而我们就可以将注意力放到我们自己的部分了常见爬虫框架： scrapy pyspider crawley Scrapy 是一个为了爬取网站数据，提取结构阅读全文

posted @ 2018-09-06 21:13 xpwi 阅读(2572) 评论(0) 推荐(0)

Python爬虫教程-29-验证码识别-Tesseract-OCR

摘要：本篇是关于验证码识别问题，也是Python爬虫笔记的一个结尾，使用 Tesseract Python爬虫教程 29 验证码识别 Tesseract OCR 常见反爬虫手段：验证码 1.简单图片，扭曲数字验证码 2.中文顺序点击 3.动态验证码 4.滑动验证：滑动小方块到缺口 5.语音验证 6.极验阅读全文

posted @ 2018-09-06 21:12 xpwi 阅读(1597) 评论(0) 推荐(0)

Python爬虫教程-28-Selenium 操纵 Chrome

摘要：我觉得本篇是很有意思的，闲着没事来看看！ Python爬虫教程 28 Selenium 操纵 Chrome PhantomJS 幽灵浏览器，无界面浏览器，不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲阅读全文

posted @ 2018-09-06 21:11 xpwi 阅读(2008) 评论(0) 推荐(0)

Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表

摘要：我们使用Selenium+Chrome时，版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接： http://npm.taobao.org/mirrors/chromedriver/ 请根据下面表格下载支持自己 Chrome 的版本 Selenium 阅读全文

posted @ 2018-09-06 21:06 xpwi 阅读(1233) 评论(0) 推荐(0)

Python爬虫教程-26-Selenium + PhantomJS

摘要： Python爬虫教程 26 Selenium + PhantomJS 动态前端页面： JavaScript： JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在阅读全文

posted @ 2018-09-06 21:03 xpwi 阅读(1278) 评论(0) 推荐(0)

Python爬虫教程-25-数据提取-BeautifulSoup4（三）

摘要： Python爬虫教程 25 数据提取 BeautifulSoup4（三）本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标签名称：soup.select("title") 通过类名：soup.select(".centen 阅读全文

posted @ 2018-09-06 21:02 xpwi 阅读(733) 评论(0) 推荐(0)

Python爬虫教程-24-数据提取-BeautifulSoup4（二）

摘要： Python爬虫教程 24 数据提取 BeautifulSoup4（二）本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents：tag 的子节点以列表的方式输出 children：子节点以迭代器形式返回 descendants：所有子孙节点 string：用string打印出标签的具阅读全文

posted @ 2018-09-06 21:01 xpwi 阅读(551) 评论(0) 推荐(0)

Python爬虫教程-23-数据提取-BeautifulSoup4（一）

摘要： Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据，查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Python爬虫教程 23 数据提取 BeautifulSoup4（一） Beautiful 阅读全文

posted @ 2018-09-06 20:59 xpwi 阅读(1738) 评论(0) 推荐(1)

Python爬虫教程-22-lxml-etree和xpath配合使用

摘要： Python爬虫教程 22 lxml etree和xpath配合使用 lxml：python 的HTML/XML的解析器官网文档：https://lxml.de/ 使用前，需要安装安 lxml 包功能： 1.解析HTML：使用 etree.HTML(text) 将字符串格式的 html 片段解析阅读全文

posted @ 2018-09-06 20:57 xpwi 阅读(867) 评论(0) 推荐(0)

Python爬虫教程-21-xpath 简介

摘要：本篇简单介绍 xpath 在python爬虫方面的使用，想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档：http://www.w3school.com.cn/xpath/index.asp Python爬虫教程 21 xpath 什么是 XPath? XP 阅读全文

posted @ 2018-09-06 20:56 xpwi 阅读(774) 评论(0) 推荐(0)

Python爬虫教程-20-xml 简介

摘要：本篇简单介绍 xml 在python爬虫方面的使用，想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接：http://www.w3school.com.cn/xmldom/xmldom_reference.asp Python爬虫教程 20 xml简介 XML(Ex 阅读全文

posted @ 2018-09-06 20:55 xpwi 阅读(465) 评论(0) 推荐(0)

Python爬虫教程-19-数据提取-正则表达式(re)

摘要：本篇主页内容：match的基本使用，search的基本使用，findall,finditer的基本使用，匹配中文，贪婪与非贪婪模式 Python爬虫教程 19 数据提取正则表达式(re) 正则表达式：一套规则，可以在字符串文本中进行搜查替换等正则使用步骤： 1.使用 compile 函数将正则表阅读全文

posted @ 2018-09-06 20:53 xpwi 阅读(950) 评论(0) 推荐(0)

Python爬虫教程-18-页面解析和数据提取

摘要：本篇针对的数据是已经存在在页面上的数据，不包括动态生成的数据，今天是对HTML中提取对我们有用的数据，去除无用的数据 Python爬虫教程 18 页面解析和数据提取结构化数据：先有的结构，再谈数据 json数据 1.处理此类数据，通常使用JSON Path 2.转换成python类型的数据，再进行阅读全文

posted @ 2018-09-06 20:52 xpwi 阅读(884) 评论(0) 推荐(0)

Python爬虫教程-17-ajax爬取实例（豆瓣电影）

摘要： Python爬虫教程 17 ajax爬取实例（豆瓣电影） ajax：简单的说，就是一段js代码，通过这段代码，可以让页面发送异步的请求，或者向服务器发送一个东西，即和服务器进行交互对于ajax： 1.一定会有 url，请求方法(get, post)，可能有数据 2.一般使用 json 格式爬取阅读全文

posted @ 2018-09-06 20:50 xpwi 阅读(3846) 评论(0) 推荐(2)

Python爬虫教程-16-破解js加密实例（有道在线翻译）

摘要： python爬虫教程 16 破解js加密实例（有道在线翻译）在爬虫爬取网站的时候，经常遇到一些反爬虫技术，比如：加cookie，身份验证UserAgent 图形验证，还有很难破解的滑动验证 js签名验证，对传输数据进行加密处理对于js加密经过加密传输的就是密文，但是加密函数或者过程一定是在浏阅读全文

posted @ 2018-09-06 20:48 xpwi 阅读(956) 评论(0) 推荐(0)

Python爬虫教程-15-读取cookie(人人网)和SSL(12306官网)

摘要： Python爬虫教程 15 爬虫读取cookie(人人网)和SSL(12306官网) 上一篇写道关于存储cookie文件，本篇介绍怎样读取cookie文件 cookie的读取案例v16ssl文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py16 阅读全文

posted @ 2018-09-06 20:34 xpwi 阅读(1024) 评论(0) 推荐(0)

Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)

摘要： Python爬虫教程 14 爬虫使用filecookiejar保存cookie文件(人人网) 上一篇介绍了利用CookieJar访问人人网，本篇将使用filecookiejar将cookie以文件形式保存自动使用cookie登录，使用步骤： 1.打开登录页面后，通过用户名密码登录 2.自动提取反馈阅读全文

posted @ 2018-09-06 20:32 xpwi 阅读(635) 评论(0) 推荐(0)

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）

摘要： Python爬虫教程 13 爬虫使用cookie爬取登录后的页面（下）自动使用cookie的方法，告别手动拷贝cookie http模块包含一些关于cookie的模块，通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie，向传出的http请求添加cookie 这里Coo 阅读全文

posted @ 2018-09-06 20:30 xpwi 阅读(1375) 评论(0) 推荐(0)

Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）

摘要： Python爬虫教程 12 爬虫使用cookie（上）爬虫关于cookie和session，由于http协议无记忆性，比如说登录淘宝网站的浏览记录，下次打开是不能直接记忆下来的，后来就有了cookie和session机制 Python爬虫爬取登录后的页面所以怎样让爬虫使用验证用户身份信息的coo 阅读全文

posted @ 2018-09-06 20:27 xpwi 阅读(6001) 评论(0) 推荐(0)

Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）

摘要： Python爬虫教程 11 proxy代理IP，隐藏地址（猫眼电影） ProxyHandler处理（代理服务器），使用代理IP，是爬虫的常用手段，通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP，但是我们使用代理IP就不怕它封了我们的IP了获取代理IP的的网站： www.gouba 阅读全文

posted @ 2018-09-06 20:24 xpwi 阅读(1634) 评论(0) 推荐(0)

Python爬虫教程-10-UserAgent和常见浏览器UA值

摘要： Python爬虫教程 10 UserAgent和常见浏览器UA值有时候使用爬虫会被网站封了IP，所以需要去模拟浏览器，隐藏用户身份， UserAgent 包含浏览器信息，用户身份，设备系统信息 UserAgent：用户代理，简称UA，属于headers的一部分，服务器通过UA来判断访问者身份使用阅读全文

posted @ 2018-09-06 20:23 xpwi 阅读(3676) 评论(0) 推荐(0)

Python爬虫教程-09-error 模块

摘要： Python爬虫教程 09 error模块今天的主角是error，爬取的时候，很容易出现错，所以我们要在代码里做一些，常见错误的处，关于urllib.error URLError URLError 产生的原因： 1.无网络连接 2.服务器连接失败 3.找不到指定的服务器 4.URLError是OS 阅读全文

posted @ 2018-09-06 20:14 xpwi 阅读(829) 评论(0) 推荐(0)

Python爬虫教程-08-post介绍(百度翻译)（下）

摘要： Python爬虫教程 08 post介绍（下）为了更多的设置请求信息，单纯的通过urlopen已经不太能满足需求，此时需要使用request.Request类构造Request 实例发出请求文件：案例v8文件：https://xpwi.github.io/py/py%E7%88%AC%E8 阅读全文

posted @ 2018-09-06 20:12 xpwi 阅读(737) 评论(0) 推荐(0)

Python爬虫教程-07-post介绍(百度翻译)（上）

摘要： Python爬虫教程 07 post介绍(百度翻译)（上）访问网络两种方法 get：利用参数给服务器传递信息参数为dict，使用parse编码 post ：（今天给大家介绍的post) 一般向服务器传递参数使用 post是把信息自动加密处理使用post传递信息，需要用到data参数使用po 阅读全文

posted @ 2018-09-06 20:10 xpwi 阅读(724) 评论(0) 推荐(0)

Python爬虫教程-06-爬虫实现百度翻译(requests)

摘要：使用python爬虫实现百度翻译（requests） python爬虫上一篇介绍了怎么使用浏览器的【开发者工具】获取请求的【地址、状态、参数】以及使用python爬虫实现百度翻译功能【urllib】版上一篇链接：https://blog.csdn.net/qq_40147863/article/ 阅读全文

posted @ 2018-09-06 20:09 xpwi 阅读(1778) 评论(0) 推荐(0)

Python爬虫教程-04-response简介

摘要： Spider 04 response简介本小节介绍urlopen的返回对象，和简单调试方法案例v3 研究request的返回值，输出返回值类型，打印内容 geturl：返回请求对象的url info：请求返回对象的meta信息 getcode：返回的http code py04v3.py文件：h 阅读全文

posted @ 2018-09-06 20:08 xpwi 阅读(1278) 评论(0) 推荐(0)

Python爬虫教程-05-python爬虫实现百度翻译

摘要：使用python爬虫实现百度翻译功能 python爬虫实现百度翻译： python解释器【模拟浏览器】，发送【post请求】，传入待【翻译的内容】作为参数，获取【百度翻译的结果】通过开发者工具，获取发送请求的地址提示：翻译内容发送的请求地址，绝对不是打开百度翻译的那个地址，想要抓取地址，就要借阅读全文

posted @ 2018-09-06 20:08 xpwi 阅读(2474) 评论(0) 推荐(1)

Python爬虫教程-03-使用 chardet 检测编码

摘要： Spider 03 使用chardet 继续学习python爬虫，我们经常出现解码问题，因为所有的页面编码都不统一，我们使用chardet检测页面的编码，尽可能的减少编码问题的出现网页编码问题解决使用chardet 可以自动检测页面文件的编码格式，但是也有可能出错需要安装chardet，如果阅读全文

posted @ 2018-09-06 20:07 xpwi 阅读(1260) 评论(0) 推荐(0)

Python爬虫教程-02-使用urlopen

摘要： Spider 02 使用urlopen 做一个最简单的python爬虫，使用爬虫爬取：智联招聘某招聘信息的DOM urllib 包含模块 urllib.request：打开和读取urls urllib.error：包含urllib.request产生的常见错误，使用try捕捉 urllib.pars 阅读全文

posted @ 2018-09-06 20:03 xpwi 阅读(1245) 评论(0) 推荐(0)

Python爬虫教程-01-爬虫介绍

摘要： Spider 01 爬虫介绍 Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrapy，人民邮电出版社基础知识 url, http web前端，html，css，js ajax re 阅读全文

posted @ 2018-09-06 20:01 xpwi 阅读(2360) 评论(0) 推荐(2)

Python爬虫教程-00-写在前面

摘要：鉴于好多人想学Python爬虫，缺没有简单易学的教程，我将在CSDN和大家分享Python爬虫的学习笔记，不定期更新基础要求 Python 基础知识 Python 的基础知识，大家可以去菜鸟教程进行学习菜鸟教程python基础 http://www.runoob.com/python/pytho 阅读全文

posted @ 2018-09-06 19:20 xpwi 阅读(1063) 评论(0) 推荐(1)

xpwi

Stay hungry，stay foolish！

公告