摘要: 一个简单爬虫案例 from bs4 import BeautifulSoup import os import requests response = requests.get("http://www.90xiaohua.com/") response.encoding = "utf-8" # pr 阅读全文
posted @ 2020-03-25 10:18 hbfengj 阅读(117) 评论(0) 推荐(0)
摘要: 一个简单的爬虫案例 from scrapy_redis.spiders import RedisSpider import os,urllib.request,time class XiaohuaSpider(scrapy.Spider): name = 'xiaohua' allowed_doma 阅读全文
posted @ 2020-03-25 10:15 hbfengj 阅读(160) 评论(0) 推荐(0)
摘要: 1. Django例如:在Django中,执行数据库的增删改查,执行命令前后加日志2. flask例如:在执行before_request 之前,定义信号,执行函数3. scrapy例如:爬虫刚开始,爬虫快要结束定制函数 阅读全文
posted @ 2020-03-25 10:08 hbfengj 阅读(82) 评论(0) 推荐(0)
摘要: 1. scrapy框架:大而全的爬虫组件。 2. 安装:注意:scrapy依赖Twisted - Win:下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twistedpip3 install wheel pip install Twisted-19.10 阅读全文
posted @ 2020-03-25 10:06 hbfengj 阅读(179) 评论(0) 推荐(0)
摘要: 先进先出:队列 class Queue(object): def __init__(self): self.q = [] def push(self, v): self.q.append(v) def pop(self): try: l=self.q.pop(0) print(l) except I 阅读全文
posted @ 2020-03-24 09:42 hbfengj 阅读(111) 评论(0) 推荐(0)
摘要: HTTP是一个简单的请求和响应协议,建立在tcp 之上。它规定了客户端向服务器发送什么样的请求和得到服务器什么样的响应。 http 是一次请求一次响应,然后断开(无状态,短连接), 请求和响应都是字符串,通过\r\n分割,两个\r\n 分割请求头与请求体 常见请求头内容:host、user——age 阅读全文
posted @ 2020-03-23 09:47 hbfengj 阅读(122) 评论(0) 推荐(0)
摘要: 1. OSI五层协议 应用层 HTTP 传输层 tcp/udp 网络层 通过源IP找目标IP, ARP、ICMP 数据链路层 IP找mac 物理层 2. tcp 和 udp 3. tcp 三次握手,四次挥手 4. 交换机与路由器(1)交换机 一个局域网通信(2)两个局域网相互通信 5.dns 域名解 阅读全文
posted @ 2020-03-23 09:44 hbfengj 阅读(157) 评论(0) 推荐(0)
摘要: 一:长轮询 1. 长轮询:实时更新,使用队列技术来做,如果要是没人投票,卡住30秒,如果还是没人投票卡主30秒,以此类推,如果有人投票,立即实时更新数据2. websocket 能实现,但是兼容性不好 import queue q = queue.Queue() q.put('123') val = 阅读全文
posted @ 2020-03-23 09:37 hbfengj 阅读(181) 评论(0) 推荐(0)
摘要: requests: 发送HTTP请求,接收响应 1. 如果浏览器能访问,requests不能访问,最坏是把浏览器请求头部,都写到requests请求头部中 import requests from bs4 import BeautifulSoup r1 = requests.get( url='ht 阅读全文
posted @ 2020-03-23 09:31 hbfengj 阅读(256) 评论(0) 推荐(0)
摘要: 1. functools.wraps(func) 保留原函数元信息2. local中为什么要维护成一个栈答:因为stack对应的列表中,只能有一个值3.为什么导入request,就能使用答:每次执行request.xx 方法时,会触发localproxy对象中的__getattr__等方法,由方法每 阅读全文
posted @ 2020-03-16 11:05 hbfengj 阅读(102) 评论(0) 推荐(0)