随笔分类 - 爬虫
摘要:在网站看到编码是utf-8的,但是出现了乱码,感觉肯定不是使用了utf-8的中文编码形式 import requests r = requests.get('http://www.baidu.com/') print (type(r)) # <class 'requests.models.Respo
阅读全文
摘要:并发访问网站的例子 下面就是一个并发访问proxypool中实现的服务器的例子,以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi
阅读全文
摘要:使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理。同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从代理池中获取代理。 源码 Github
阅读全文
摘要:requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License
阅读全文

浙公网安备 33010602011771号