10 2018 档案
摘要:一、模板使用 scrapy 在建立爬虫的时候,还可以指定使用的模板进行建立 默认建立爬虫文件的命令: 可以用 scrapy genspider --list 命令 查看scrapy的模板 通过crawl模板生成拉钩网爬虫文件 二、编写lagou.py import scrapy from scrap
阅读全文
摘要:user-agent大全页面: https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块 模块github地址:https://github.com/hellysmile/fake-useragent 安装方法: 使
阅读全文
摘要:一、先在MySQL中创建test数据库,和相应的site数据表 二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s
阅读全文
摘要:并发访问网站的例子 下面就是一个并发访问proxypool中实现的服务器的例子,以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi
阅读全文
摘要:使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理。同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从代理池中获取代理。 源码 Github
阅读全文
摘要:以前一直在windows下用SSH Secure Shell连接远程服务器,它自带了一个可视化的文件传输工具,跟ftp差不多 但是它也存在一个缺陷,不支持编码的选择,遇到utf8就自动乱码了,另外mac下也没有这个工具 在mac下我用终端登录上去之后,想传个文件上去就犯愁了,难不成要开个ftp? 搜
阅读全文
摘要:1、新建一个扩展文件,定义一个类,必须包含from_crawler方法: 2、设置settings 3、可以挂钩子的地方
阅读全文
摘要:在yeild item以后,会依次通过所有的pipelines 在存在多个pipelines的class的情况的时候,如果不希望交给下一个pipeline进行处理: 1、需要导入 2、在process_item方法中抛出异常 如果希望交给下一个pipeline处理的话: 另外:如果只希望交给某一个p
阅读全文
摘要:1、首先自定义一个‘duplication.py’文件: 2、修改settings文件,添加
阅读全文
摘要:requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License
阅读全文
摘要:查看iptables规则的话,就用iptables -L这个命令就好了~~,ok 清除iptables规则的话,用iptables -F ,that‘s aaaaalllllll~~ 关闭,可以有两种命令,一种是敲击 /etc/init.d/iptables stop 另一种是 services i
阅读全文
摘要:安装erlang 先下载最新的erlang安装包,可以上官网下载页面下载后扔到CentOS服务器上也可以服务器本地通过命令行下载 wget http://erlang.org/download/otp_src_19.3.tar.gz(当然使用wget,ifconfig命令需要先安装插件yum ins
阅读全文

浙公网安备 33010602011771号