爬虫 - 随笔分类(第3页) - 冰底熊

Scrapy 模拟登陆

摘要：Scrapy 模拟登陆 1. 重写爬虫中的start_requests 方法，直接携带cookies 进行登录注意的是在scrapy 中，cookies 不能放在headers 中，而需要把cookies作为一个独立的参数。因为在scrapy配置文件中单单独定义了一个cookies配置，读取co 阅读全文

posted @ 2019-03-26 14:11 冰底熊阅读(277) 评论(0) 推荐(0)

scrapy 爬虫框架之持久化存储

摘要：scrapy 持久化存储一.主要过程：以爬取校花网为例： http://www.xiaohuar.com/hua/ 1. spider 回调函数返回item 时要用yield item 不能用return item 爬虫 xiahua.py 1 # -*- coding: utf-8 -* 阅读全文

posted @ 2019-03-11 16:11 冰底熊阅读(271) 评论(0) 推荐(0)

异步非阻塞爬虫框架的设计思路

摘要：1.socket 实现http 请求 1.阻塞情况 # 1 阻塞 client = socket.socket() client.connect(('14.215.177.39',80)) # 阻塞 , '14.215.177.39' 为百度ip 默认端口 data=b'GET / HTTP/1.0 阅读全文

posted @ 2019-03-07 13:01 冰底熊阅读(303) 评论(0) 推荐(0)

4 爬虫高性能相关

摘要：在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 1.串行 import requests def fetch_async(url): response = requests.get(url) return response url_l 阅读全文

posted @ 2019-03-04 14:50 冰底熊阅读(198) 评论(0) 推荐(0)

3 爬虫解析 Xpath 和 BeautifulSoup

摘要：1.正则表达式单字符： . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、字母、下划线、中文 \W : 非\w \s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 \ 阅读全文

posted @ 2019-03-01 15:28 冰底熊阅读(523) 评论(0) 推荐(0)

2 爬虫 requests模块

摘要：requests模块 Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。 1.安装： pip 阅读全文

posted @ 2019-03-01 00:16 冰底熊阅读(258) 评论(0) 推荐(0)

http协议

摘要：最简单的web应用程序基于socket实现一个最简单的web应用程序： import socket sock=socket.socket() sock.bind(("127.0.0.1",8800)) sock.listen(5) while 1: print("server is working 阅读全文

posted @ 2019-02-28 16:15 冰底熊阅读(175) 评论(0) 推荐(0)

侠客云

随笔分类 - 爬虫

公告