会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
侠客云
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
爬虫
上一页
1
2
3
Scrapy 模拟登陆
摘要:Scrapy 模拟登陆 1. 重写 爬虫中的start_requests 方法,直接携带cookies 进行登录 注意的是在scrapy 中,cookies 不能放在headers 中,而需要把cookies作为一个独立的参数。因为在scrapy配置文件中单单独定义了一个cookies配置,读取co
阅读全文
posted @
2019-03-26 14:11
冰底熊
阅读(277)
评论(0)
推荐(0)
scrapy 爬虫框架之持久化存储
摘要:scrapy 持久化存储 一.主要过程: 以爬取校花网为例 : http://www.xiaohuar.com/hua/ 1. spider 回调函数 返回item 时 要用yield item 不能用return item 爬虫 xiahua.py 1 # -*- coding: utf-8 -*
阅读全文
posted @
2019-03-11 16:11
冰底熊
阅读(271)
评论(0)
推荐(0)
异步非阻塞爬虫框架的设计思路
摘要:1.socket 实现http 请求 1.阻塞情况 # 1 阻塞 client = socket.socket() client.connect(('14.215.177.39',80)) # 阻塞 , '14.215.177.39' 为百度ip 默认端口 data=b'GET / HTTP/1.0
阅读全文
posted @
2019-03-07 13:01
冰底熊
阅读(303)
评论(0)
推荐(0)
4 爬虫高性能相关
摘要:在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 1.串行 import requests def fetch_async(url): response = requests.get(url) return response url_l
阅读全文
posted @
2019-03-04 14:50
冰底熊
阅读(198)
评论(0)
推荐(0)
3 爬虫解析 Xpath 和 BeautifulSoup
摘要:1.正则表达式 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\w \s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 \
阅读全文
posted @
2019-03-01 15:28
冰底熊
阅读(523)
评论(0)
推荐(0)
2 爬虫 requests模块
摘要:requests模块 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。 1.安装: pip
阅读全文
posted @
2019-03-01 00:16
冰底熊
阅读(258)
评论(0)
推荐(0)
http协议
摘要:最简单的web应用程序 基于socket实现一个最简单的web应用程序: import socket sock=socket.socket() sock.bind(("127.0.0.1",8800)) sock.listen(5) while 1: print("server is working
阅读全文
posted @
2019-02-28 16:15
冰底熊
阅读(175)
评论(0)
推荐(0)
上一页
1
2
3
公告