python爬虫 - 文章分类 - 丰study

【Scrapy框架】Spider

摘要：Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写阅读全文

posted @ 2017-10-18 17:58 丰study 阅读(101) 评论(0) 推荐(0)

【Scrapy框架】Item Pipeline

摘要：Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2017-10-18 17:49 丰study 阅读(91) 评论(0) 推荐(0)

【Scrapy框架】Scrapy Shell

摘要：Scrapy Shell Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端阅读全文

posted @ 2017-10-18 17:46 丰study 阅读(112) 评论(0) 推荐(0)

【Scrapy框架】入门案例

摘要：入门案例学习目标创建一个Scrapy项目定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject) 在开始爬取之前，必须创建阅读全文

posted @ 2017-10-18 17:43 丰study 阅读(110) 评论(0) 推荐(0)

【Scrapy框架】配置安装

摘要：制作 Scrapy 爬虫一共需要4步：新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目明确目标（编写items.py）：明确你想要抓取的目标制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页存储内容（pipelines.py）：阅读全文

posted @ 2017-10-18 17:35 丰study 阅读(92) 评论(0) 推荐(0)

【动态HTML和机器图形识别】机器学习：训练Tesseract

摘要：训练Tesseract 大多数其他的验证码都是比较简单的。例如，流行的 PHP 内容管理系统 Drupal 有一个著名的验证码模块(https://www.drupal.org/project/captcha)，可以生成不同难度的验证码。那么与其他验证码相比，究竟是什么让这个验证码更容易被人类和阅读全文

posted @ 2017-10-18 17:32 丰study 阅读(313) 评论(0) 推荐(0)

【动态HTML和机器图形识别】案例：尝试对验证码进行机器识别处理

摘要：尝试对知乎网验证码进行处理：许多流行的内容管理系统即使加了验证码模块，其众所周知的注册页面也经常会遭到网络机器人的垃圾注册。那么，这些网络机器人究，竟是怎么做的呢?既然我们已经，可以成功地识别出保存在电脑上的验证码了，那么如何才能实现一个全能的网络机器人呢? 大多数网站生成的验证码图片都具有阅读全文

posted @ 2017-10-18 17:30 丰study 阅读(221) 评论(0) 推荐(0)

【动态HTML和机器图形识别】处理给规范的文字

摘要：处理给规范的文字你要处理的大多数文字都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。通常,格式规范的文字具有以下特点: 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体) • 虽然被复印或拍照,字体还是很清晰阅读全文

posted @ 2017-10-18 17:28 丰study 阅读(169) 评论(0) 推荐(0)

【动态HTML和机器图形识别】机器视觉与Tesseract介绍

摘要：机器视觉从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。我们将重点介绍机器视觉的一个分支：文字识别，介绍如何用一些 Python库来识别和使用在线图片中的文字。我们可以很轻松的阅读图片里的文字，但是机器阅读这些图片就阅读全文

posted @ 2017-10-18 17:10 丰study 阅读(275) 评论(0) 推荐(0)

【动态HTML和机器图形识别】案例三：执行 JavaScript 语句

摘要：案例三：执行 JavaScript 语句阅读全文

posted @ 2017-10-18 17:07 丰study 阅读(118) 评论(0) 推荐(0)

【动态HTML和机器图形识别】案例二：动态页面模拟点击

摘要：案例二：动态页面模拟点击阅读全文

posted @ 2017-10-18 17:04 丰study 阅读(99) 评论(0) 推荐(0)

【动态HTML和机器图形识别】案例一：网站模拟登录

摘要：# douban.py from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.PhantomJS() driver.get("http://www.douban.com") # 输入账号密码 driver.find_eleme... 阅读全文

posted @ 2017-10-18 17:03 丰study 阅读(146) 评论(0) 推荐(0)

【动态HTML和机器图形识别】Selenium与PhantomJS

摘要：Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们阅读全文

posted @ 2017-10-18 17:00 丰study 阅读(207) 评论(0) 推荐(0)

【多线程】多线程爬虫案例

摘要：多线程糗事百科案例案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是n 阅读全文

posted @ 2017-10-18 16:33 丰study 阅读(180) 评论(0) 推荐(0)

糗事百科实例

摘要：糗事百科实例：爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求：使用requests获取页面信息，用XPath / re 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件阅读全文

posted @ 2017-10-18 16:25 丰study 阅读(73) 评论(0) 推荐(0)

【JsonPATH】数据提取之JSON与JsonPATH

摘要：数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文

posted @ 2017-10-18 16:23 丰study 阅读(2852) 评论(0) 推荐(0)

【BeautifuSoup4】案例：使用BeautifuSoup4的爬虫

摘要：案例：使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出阅读全文

posted @ 2017-10-18 16:15 丰study 阅读(140) 评论(0) 推荐(0)

【BeautifulSoup4】CSS 选择器：BeautifulSoup4

摘要：CSS 选择器：BeautifulSoup4 和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。示例：首先必须要导入 bs4 库运行结果：如果我们在 IPython2 下执行，会看到这样一段警告：意思是阅读全文

posted @ 2017-10-18 15:47 丰study 阅读(124) 评论(0) 推荐(0)

【XPath】使用XPath的爬虫

摘要：案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。阅读全文

posted @ 2017-10-18 15:33 丰study 阅读(87) 评论(0) 推荐(0)

【Xpath】xpath与lxml类库

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2017-10-18 14:35 丰study 阅读(171) 评论(0) 推荐(0)

丰study

文章分类 - python爬虫

公告