随笔分类 -  爬虫

摘要:Scrapy 模拟登陆 1. 重写 爬虫中的start_requests 方法,直接携带cookies 进行登录 注意的是在scrapy 中,cookies 不能放在headers 中,而需要把cookies作为一个独立的参数。因为在scrapy配置文件中单单独定义了一个cookies配置,读取co 阅读全文
posted @ 2019-03-26 14:11 冰底熊 阅读(277) 评论(0) 推荐(0)
摘要:scrapy 持久化存储 一.主要过程: 以爬取校花网为例 : http://www.xiaohuar.com/hua/ 1. spider 回调函数 返回item 时 要用yield item 不能用return item 爬虫 xiahua.py 1 # -*- coding: utf-8 -* 阅读全文
posted @ 2019-03-11 16:11 冰底熊 阅读(271) 评论(0) 推荐(0)
摘要:1.socket 实现http 请求 1.阻塞情况 # 1 阻塞 client = socket.socket() client.connect(('14.215.177.39',80)) # 阻塞 , '14.215.177.39' 为百度ip 默认端口 data=b'GET / HTTP/1.0 阅读全文
posted @ 2019-03-07 13:01 冰底熊 阅读(303) 评论(0) 推荐(0)
摘要:在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 1.串行 import requests def fetch_async(url): response = requests.get(url) return response url_l 阅读全文
posted @ 2019-03-04 14:50 冰底熊 阅读(198) 评论(0) 推荐(0)
摘要:1.正则表达式 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\w \s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 \ 阅读全文
posted @ 2019-03-01 15:28 冰底熊 阅读(523) 评论(0) 推荐(0)
摘要:requests模块 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。 1.安装: pip 阅读全文
posted @ 2019-03-01 00:16 冰底熊 阅读(258) 评论(0) 推荐(0)
摘要:最简单的web应用程序 基于socket实现一个最简单的web应用程序: import socket sock=socket.socket() sock.bind(("127.0.0.1",8800)) sock.listen(5) while 1: print("server is working 阅读全文
posted @ 2019-02-28 16:15 冰底熊 阅读(175) 评论(0) 推荐(0)