Python爬虫基础 - 随笔分类 - s小毛驴

04-scrapy简介

摘要：Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处阅读全文

posted @ 2019-05-12 18:08 s小毛驴阅读(177) 评论(0) 推荐(0)

08-下载中间件

摘要：防止爬虫被反的几个策略：动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）可以通过COOKIES_ENABL 阅读全文

posted @ 2019-05-12 17:47 s小毛驴阅读(267) 评论(0) 推荐(0)

03-requests使用

摘要：Requests: 让 HTTP 服务人类 Requests 自称 "HTTP for Humans"，使用简洁方便。 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：） Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，阅读全文

posted @ 2019-05-11 15:03 s小毛驴阅读(374) 评论(0) 推荐(0)

07-Request、Response

摘要：Request Request对象在我们写爬虫发送请求的时候调用，参数如下： url: 就是需要请求的url callback: 指定该请求返回的Response由那个函数来处理。 method: 请求方法，默认GET方法，可设置为"GET", "POST", "PUT"等，且保证字符串大写 hea 阅读全文

posted @ 2019-04-27 15:43 s小毛驴阅读(546) 评论(0) 推荐(0)

06-CrawlSpider模板

摘要：crawlSpider 创建CrawlSpider模板 scrapy genspider -t crawl <爬虫名字> <域名> 模板代码示例： # -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkEx 阅读全文

posted @ 2019-04-27 14:07 s小毛驴阅读(653) 评论(0) 推荐(0)

05-scrapy基本使用

摘要：Scrapy笔记安装scrapy框架安装scrapy: 通过pip install scrapy 如果是在Windows上面，还需要安装pypiwin32,如果不安装,那么以后运行scrapy项目的时候会报错。安装方式：pip install pypiwin32。如果是在Ubuntu下，还需要阅读全文

posted @ 2019-04-27 13:58 s小毛驴阅读(278) 评论(0) 推荐(0)

02-bytes和str

摘要：bytes bytes对象只负责以二进制字节序列的形式记录所需记录的对象，至于该对象到底表示什么（比如到底是什么字符）则由相应的编码格式解码所决定 str 使用encode方法转化为 bytes bytes通过decode转化为str bytes转换成str：在Python 2中由于不区分str和阅读全文

posted @ 2019-04-14 18:35 s小毛驴阅读(285) 评论(0) 推荐(0)

01-爬虫必备基础知识

摘要：什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上，爬虫都能够做，简单来说就是我们自己写程序，去互联网上抓取我们需要的数据，如图片，MP3，MP4等网络爬虫（又被称为网页蜘阅读全文

posted @ 2019-04-14 14:18 s小毛驴阅读(1222) 评论(0) 推荐(0)

s小毛驴

s小毛驴

随笔分类 - Python爬虫基础

公告