随笔分类 -  Python爬虫基础

摘要:Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处 阅读全文
posted @ 2019-05-12 18:08 s小毛驴 阅读(177) 评论(0) 推荐(0)
摘要:防止爬虫被反的几个策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为) 可以通过COOKIES_ENABL 阅读全文
posted @ 2019-05-12 17:47 s小毛驴 阅读(267) 评论(0) 推荐(0)
摘要:Requests: 让 HTTP 服务人类 Requests 自称 "HTTP for Humans",使用简洁方便。 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:) Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传, 阅读全文
posted @ 2019-05-11 15:03 s小毛驴 阅读(374) 评论(0) 推荐(0)
摘要:Request Request对象在我们写爬虫发送请求的时候调用,参数如下: url: 就是需要请求的url callback: 指定该请求返回的Response由那个函数来处理。 method: 请求方法,默认GET方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写 hea 阅读全文
posted @ 2019-04-27 15:43 s小毛驴 阅读(546) 评论(0) 推荐(0)
摘要:crawlSpider 创建CrawlSpider模板 scrapy genspider -t crawl <爬虫名字> <域名> 模板代码示例: # -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkEx 阅读全文
posted @ 2019-04-27 14:07 s小毛驴 阅读(653) 评论(0) 推荐(0)
摘要:Scrapy笔记 安装scrapy框架 安装scrapy: 通过pip install scrapy 如果是在Windows上面,还需要安装pypiwin32,如果不安装,那么以后运行scrapy项目的时候会报错。安装方式:pip install pypiwin32。 如果是在Ubuntu下,还需要 阅读全文
posted @ 2019-04-27 13:58 s小毛驴 阅读(278) 评论(0) 推荐(0)
摘要:bytes bytes对象只负责以二进制字节序列的形式记录所需记录的对象,至于该对象到底表示什么(比如到底是什么字符)则由相应的编码格式解码所决定 str 使用encode方法转化为 bytes bytes通过decode转化为str bytes转换成str: 在Python 2中由于不区分str和 阅读全文
posted @ 2019-04-14 18:35 s小毛驴 阅读(285) 评论(0) 推荐(0)
摘要:什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做,简单来说就是我们自己写程序,去互联网上抓取我们需要的数据,如图片,MP3,MP4等 网络爬虫(又被称为网页蜘 阅读全文
posted @ 2019-04-14 14:18 s小毛驴 阅读(1222) 评论(0) 推荐(0)

返回顶部