2018 年 10月随笔档案 - Trunkslisa

scrapy 爬取拉勾网

摘要：一、模板使用 scrapy 在建立爬虫的时候，还可以指定使用的模板进行建立默认建立爬虫文件的命令：可以用 scrapy genspider --list 命令查看scrapy的模板通过crawl模板生成拉钩网爬虫文件二、编写lagou.py import scrapy from scrap 阅读全文

posted @ 2018-10-24 11:53 Trunkslisa 阅读(596) 评论(0) 推荐(0)

scrapy user-agent随机更换

摘要：user-agent大全页面： https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块模块github地址：https://github.com/hellysmile/fake-useragent 安装方法：使阅读全文

posted @ 2018-10-24 09:55 Trunkslisa 阅读(1100) 评论(0) 推荐(0)

python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL

摘要：一、先在MySQL中创建test数据库，和相应的site数据表二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录，根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s 阅读全文

posted @ 2018-10-23 13:52 Trunkslisa 阅读(319) 评论(0) 推荐(0)

异步代理池2--正确实现并发

摘要：并发访问网站的例子下面就是一个并发访问proxypool中实现的服务器的例子，以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi 阅读全文

posted @ 2018-10-22 16:04 Trunkslisa 阅读(557) 评论(0) 推荐(0)

python asyncio异步代理池

摘要：使用python asyncio实现了一个异步代理池，根据规则爬取代理网站上的免费代理，在验证其有效后存入redis中，定期扩展代理的数量并检验池中代理的有效性，移除失效的代理。同时用aiohttp实现了一个server，其他的程序可以通过访问相应的url来从代理池中获取代理。源码 Github 阅读全文

posted @ 2018-10-22 16:02 Trunkslisa 阅读(1385) 评论(0) 推荐(0)

SSH 上传下载文件

摘要：以前一直在windows下用SSH Secure Shell连接远程服务器，它自带了一个可视化的文件传输工具，跟ftp差不多但是它也存在一个缺陷，不支持编码的选择，遇到utf8就自动乱码了，另外mac下也没有这个工具在mac下我用终端登录上去之后，想传个文件上去就犯愁了，难不成要开个ftp？搜阅读全文

posted @ 2018-10-19 11:44 Trunkslisa 阅读(28269) 评论(0) 推荐(1)

scrapy 自定义扩展

摘要：1、新建一个扩展文件，定义一个类，必须包含from_crawler方法： 2、设置settings 3、可以挂钩子的地方阅读全文

posted @ 2018-10-19 09:55 Trunkslisa 阅读(518) 评论(0) 推荐(0)

scrapy pipelines 以及 cookies

摘要：在yeild item以后，会依次通过所有的pipelines 在存在多个pipelines的class的情况的时候，如果不希望交给下一个pipeline进行处理： 1、需要导入 2、在process_item方法中抛出异常如果希望交给下一个pipeline处理的话：另外：如果只希望交给某一个p 阅读全文

posted @ 2018-10-18 17:53 Trunkslisa 阅读(304) 评论(0) 推荐(0)

scrapy 去重策略修改

摘要：1、首先自定义一个‘duplication.py’文件： 2、修改settings文件，添加阅读全文

posted @ 2018-10-18 16:43 Trunkslisa 阅读(773) 评论(0) 推荐(0)

requests及BeautifulSoup

摘要：requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 License 阅读全文

posted @ 2018-10-15 15:05 Trunkslisa 阅读(230) 评论(0) 推荐(0)

iptables开启和关闭

摘要：查看iptables规则的话，就用iptables -L这个命令就好了～～，ok 清除iptables规则的话，用iptables -F ,that‘s aaaaalllllll~~ 关闭，可以有两种命令，一种是敲击 /etc/init.d/iptables stop 另一种是 services i 阅读全文

posted @ 2018-10-12 16:57 Trunkslisa 阅读(55241) 评论(0) 推荐(0)

CentOS7.2安装RabbitMQ笔记

摘要：安装erlang 先下载最新的erlang安装包，可以上官网下载页面下载后扔到CentOS服务器上也可以服务器本地通过命令行下载 wget http://erlang.org/download/otp_src_19.3.tar.gz(当然使用wget,ifconfig命令需要先安装插件yum ins 阅读全文

posted @ 2018-10-12 16:12 Trunkslisa 阅读(426) 评论(0) 推荐(0)

Trunkslisa

10 2018 档案

公告