摘要: 1.创建scrapy项目,命令: scrapy startproject scrapyspider(项目名称)2.在创建项目的根目录下创建spider,命令:scrapy genspider myspider(爬虫名称) www.baidu.com(爬取url)3.使用pycharm打开爬虫项目,爬 阅读全文
posted @ 2019-02-25 20:52 菜鸟的future 阅读(1168) 评论(0) 推荐(0)
摘要: scrapy 架构图 从上图中可以看到scrapy的数据流向1.从书写的spiders开始会抛出 (yield) requests 到scrapy引擎(engine)中2.engine 没有对request 做任何处理,直接将 requests 交给 scheduler3.由scheduler生成r 阅读全文
posted @ 2019-02-21 22:05 菜鸟的future 阅读(117) 评论(0) 推荐(0)
摘要: 1.安装redis 使用命令sudo apt-get install redis-server whereis redis 查看redis的安装位置 ps -aux | grep redis 查看redis服务的进程运行 netstat -nlt | grep 6379根据redis运行的端口号查看 阅读全文
posted @ 2019-02-19 22:27 菜鸟的future 阅读(14253) 评论(0) 推荐(1)
摘要: 1. netstat 命令用于显示各种网络相关信息 参数设置 :-a (all)显示所有选项,netstat默认不显示LISTEN相关 -t (tcp)仅显示tcp相关选项 -u (udp)仅显示udp相关选项 -n 拒绝显示别名,能显示数字的全部转化成数字。 -l 仅列出有在 Listen (监听 阅读全文
posted @ 2019-02-18 20:08 菜鸟的future 阅读(277) 评论(0) 推荐(0)
摘要: 1. ubuntu环境中下载nginx 命令: sudo apt-get install nginx 安装遇到的问题: E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它? 阅读全文
posted @ 2019-02-17 12:41 菜鸟的future 阅读(283) 评论(0) 推荐(0)