五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Scrapy

摘要:Studio 3T 链接地址:https://pan.baidu.com/s/1X-Sqk50Xm76NJIZOz0ehFw 密码:td2a安装配置成功链接本地如图所示: 阅读全文
posted @ 2018-09-18 16:21 五杀摇滚小拉夫 阅读(397) 评论(2) 推荐(0)

摘要:2.连接MongoDB 未开启服务 连接成功!!!!! 打开mongodb.exe 阅读全文
posted @ 2018-09-18 13:34 五杀摇滚小拉夫 阅读(166) 评论(0) 推荐(0)

摘要:对于scrapy的部署方式1.Scrapyd 安装扩展组件,远程控制scrapy任务,包括部署源代码,启动任务,监听任务。scrapy-client 、scrapyd api 协助完成部署和监听操作。2.Docker集群部署,将爬虫制作成Docker镜像,主机安装Docker,直接运行爬虫,无需考虑配置环境,版本问题。简述Docker的作用:Docker 是一种容器技术,可将应用和环境打包,形成... 阅读全文
posted @ 2018-09-18 10:12 五杀摇滚小拉夫 阅读(165) 评论(0) 推荐(0)

摘要:pymysql、pymongo、redis-py安装1.将数据存入mysql借助pymysql2.和MongoDB进行交互,借助pymongopip3 install pymysql(pip 安装对应包) 阅读全文
posted @ 2018-09-17 16:16 五杀摇滚小拉夫 阅读(293) 评论(0) 推荐(0)

摘要:将 E:\Soft\soft\phantomjs-2.1.1-windows\bin 加入到环境变量path里面(也可以直接把可执行文件phantomjs.exe放到python的scripts文件夹) 3.运行phantomjs 如图: 4.py文件 运行结果如下: 阅读全文
posted @ 2018-09-17 15:39 五杀摇滚小拉夫 阅读(322) 评论(0) 推荐(0)

摘要:2.spider引用 md5_tool.py 对获取标签内容加密确保入库的唯一性(后期对网站监控比对的字段对象 MD5的值) 4.setting.py 配置 5.items.py 字段属性 6.数据库建表 7.执行爬虫文件 scrapy crawl wenzhou 由于我之前已经测试如过库,数据库已 阅读全文
posted @ 2018-09-14 19:07 五杀摇滚小拉夫 阅读(291) 评论(0) 推荐(0)

摘要:3.打开浏览器 输入:127.0.0.1:5000(如下图) 阅读全文
posted @ 2018-09-13 13:56 五杀摇滚小拉夫 阅读(140) 评论(0) 推荐(0)

摘要:6.然后创建主机管理 127.0.0.1 6800 7.这里需要注意的是还需要在命令行 开启scrapyd 8.找到你的gerapy文件夹下project 将你的爬虫项目放进去 就可以在 127.0.0.1:8000 中找到 9.点击deploy部署 爬虫程序就开始运行了 详情可看 csdn链接:h 阅读全文
posted @ 2018-09-12 18:48 五杀摇滚小拉夫 阅读(1095) 评论(0) 推荐(0)

摘要:2. 在浏览器打开127.0.0.1:6800/ 3. scrapy.cfg 设置 4. 遇到问题: scrapyd-deploy 不是内部命令 编辑 两个配置文件 @echo off"C:\Users\Administrator\AppData\Local\Programs\Python\Pyth 阅读全文
posted @ 2018-09-12 17:48 五杀摇滚小拉夫 阅读(274) 评论(0) 推荐(0)

摘要:1.创建爬虫项目: scrapy startproject tutorial 2.创建 spider cd tutorial scrapy genspider quotes quotes.toscrape.com 如下图: 3. quotes.py _________________________ 阅读全文
posted @ 2018-09-04 15:40 五杀摇滚小拉夫 阅读(277) 评论(0) 推荐(0)

摘要:1.extract():提取数据 2./text() :获取节点内容文本 3./@href :获取节点href属性 4. @ :获取属性名称 需要注意问题: 用定义的规则那所有符合要求的节点获取下来,返回的类型是列表类型。 但是如果节点只有一个就会出现错误: 大多数情况下,想要的是第一个元素的内容, 阅读全文
posted @ 2018-08-27 14:56 五杀摇滚小拉夫 阅读(122) 评论(0) 推荐(0)

摘要:Selector是一个独立的模块。 Selector主要是与scrapy结合使用的。 开启Scrapy shell: 1.打开命令行cmd 2.scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html 进入 阅读全文
posted @ 2018-08-27 14:45 五杀摇滚小拉夫 阅读(136) 评论(0) 推荐(0)

摘要:目标:创建scrapy项目 创建一个spider来抓取站点和处理数据 通过命令行将抓取内容导出 1.创建项目 scrapy startproject tutorial 2.创建spider cd tutorial scrapy genspider quotes quotes.toscrape.com 阅读全文
posted @ 2018-08-27 14:28 五杀摇滚小拉夫 阅读(226) 评论(0) 推荐(0)