Trunkslisa

2019年5月29日

摘要：在网站看到编码是utf-8的，但是出现了乱码，感觉肯定不是使用了utf-8的中文编码形式 import requests r = requests.get('http://www.baidu.com/') print (type(r)) # <class 'requests.models.Respo 阅读全文

posted @ 2019-05-29 17:32 Trunkslisa 阅读(915) 评论(0) 推荐(0)

2018年10月24日

scrapy 爬取拉勾网

摘要：一、模板使用 scrapy 在建立爬虫的时候，还可以指定使用的模板进行建立默认建立爬虫文件的命令：可以用 scrapy genspider --list 命令查看scrapy的模板通过crawl模板生成拉钩网爬虫文件二、编写lagou.py import scrapy from scrap 阅读全文

posted @ 2018-10-24 11:53 Trunkslisa 阅读(599) 评论(0) 推荐(0)

scrapy user-agent随机更换

摘要： user-agent大全页面： https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块模块github地址：https://github.com/hellysmile/fake-useragent 安装方法：使阅读全文

posted @ 2018-10-24 09:55 Trunkslisa 阅读(1116) 评论(0) 推荐(0)

2018年10月23日

python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL

摘要：一、先在MySQL中创建test数据库，和相应的site数据表二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录，根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s 阅读全文

posted @ 2018-10-23 13:52 Trunkslisa 阅读(327) 评论(0) 推荐(0)

2018年10月22日

异步代理池2--正确实现并发

摘要：并发访问网站的例子下面就是一个并发访问proxypool中实现的服务器的例子，以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi 阅读全文

posted @ 2018-10-22 16:04 Trunkslisa 阅读(565) 评论(0) 推荐(0)

python asyncio异步代理池

摘要：使用python asyncio实现了一个异步代理池，根据规则爬取代理网站上的免费代理，在验证其有效后存入redis中，定期扩展代理的数量并检验池中代理的有效性，移除失效的代理。同时用aiohttp实现了一个server，其他的程序可以通过访问相应的url来从代理池中获取代理。源码 Github 阅读全文

posted @ 2018-10-22 16:02 Trunkslisa 阅读(1396) 评论(0) 推荐(0)

2018年10月19日

SSH 上传下载文件

摘要：以前一直在windows下用SSH Secure Shell连接远程服务器，它自带了一个可视化的文件传输工具，跟ftp差不多但是它也存在一个缺陷，不支持编码的选择，遇到utf8就自动乱码了，另外mac下也没有这个工具在mac下我用终端登录上去之后，想传个文件上去就犯愁了，难不成要开个ftp？搜阅读全文

posted @ 2018-10-19 11:44 Trunkslisa 阅读(28319) 评论(0) 推荐(1)

scrapy 自定义扩展

摘要： 1、新建一个扩展文件，定义一个类，必须包含from_crawler方法： 2、设置settings 3、可以挂钩子的地方阅读全文

posted @ 2018-10-19 09:55 Trunkslisa 阅读(524) 评论(0) 推荐(0)

2018年10月18日

scrapy pipelines 以及 cookies

摘要：在yeild item以后，会依次通过所有的pipelines 在存在多个pipelines的class的情况的时候，如果不希望交给下一个pipeline进行处理： 1、需要导入 2、在process_item方法中抛出异常如果希望交给下一个pipeline处理的话：另外：如果只希望交给某一个p 阅读全文

posted @ 2018-10-18 17:53 Trunkslisa 阅读(312) 评论(0) 推荐(0)

scrapy 去重策略修改

摘要： 1、首先自定义一个‘duplication.py’文件： 2、修改settings文件，添加阅读全文

posted @ 2018-10-18 16:43 Trunkslisa 阅读(777) 评论(0) 推荐(0)

公告