上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 32 下一页
摘要: 下载安装 下载地址https://www.anaconda.com/download/ 旧版本下载https://repo.continuum.io/archive/ 比如下载Anaconda3-4.4.0-Linux-x86_64.sh 安装用root用户 安装完后增加环境变量 验证安装结果 在终 阅读全文
posted @ 2018-05-17 21:13 一只小小的寄居蟹 阅读(30620) 评论(0) 推荐(0)
摘要: Scrapy发送Post请求 防止爬虫被反主要有以下几个策略 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为) 阅读全文
posted @ 2018-05-16 22:40 一只小小的寄居蟹 阅读(777) 评论(0) 推荐(0)
摘要: 练习题: 1.logging模块有几个日志级别? 2.请配置logging模块,使其在屏幕和文件里同时打印以下格式的日志 代码 3.json、pickle、shelve三个区别是什么? 4.json的作用是什么? 5.subprocess执行命令方法有几种? 6.为什么要设计好目录结构? 7.打印出 阅读全文
posted @ 2018-05-15 15:44 一只小小的寄居蟹 阅读(3280) 评论(0) 推荐(0)
摘要: 通过cookies信息爬取 分析header和cookies 通过subtext粘贴处理header和cookies信息 处理后,方便粘贴到代码中 爬取拉钩信息代码 展示结果 阅读全文
posted @ 2018-05-13 02:51 一只小小的寄居蟹 阅读(736) 评论(0) 推荐(0)
摘要: CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link 阅读全文
posted @ 2018-05-12 10:50 一只小小的寄居蟹 阅读(379) 评论(0) 推荐(0)
摘要: 案例1:爬取内容存储为一个文件 1.建立项目 2.编写item文件 3.建立spider文件 编写spider类逻辑 4.建立pipeline文件 存储数据 5.设置settiing 6.执行程序 json文件 案例2:爬取内容存储为两个文件 案例2与只是把案例1中的概率页和详细内容页分成两个文件去 阅读全文
posted @ 2018-05-11 15:52 一只小小的寄居蟹 阅读(3838) 评论(0) 推荐(0)
摘要: 安装 windows linux安装 Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需要。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 文档 http://scrapy- 阅读全文
posted @ 2018-05-09 01:58 一只小小的寄居蟹 阅读(651) 评论(0) 推荐(0)
摘要: 创建用户 设置ssh登录 如下 修改完毕后,保存文件,重启ssh服务 阅读全文
posted @ 2018-05-08 11:35 一只小小的寄居蟹 阅读(10266) 评论(0) 推荐(0)
摘要: 扩展硬盘 对硬盘进行分区 阅读全文
posted @ 2018-05-07 15:41 一只小小的寄居蟹 阅读(3167) 评论(0) 推荐(0)
摘要: 安装python 安装pip 解决pip is configured with locations that require TLS/SSL问题 安装java ##use for JAVA 1.6 JAVA_HOME=/usr/java/jdk1.6.0_45PATH=$JAVA_HOME/bin: 阅读全文
posted @ 2018-05-05 04:44 一只小小的寄居蟹 阅读(577) 评论(0) 推荐(0)
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 32 下一页