月见空青

scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立

摘要：本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本：3.7.1 框架：scrapy（pip直接安装可能会报错，如果是vc++环境不满足，建议直接安装一个visual studio一劳永逸，如果报错缺少前置依赖，就先安装依赖）本篇主要对scrapy生成爬虫项目做阅读全文

posted @ 2018-11-27 13:02 月见空青阅读(338) 评论(0) 推荐(0)

window10 Powershell使用curl命令报错解决方法

摘要：报错信息：curl : 无法分析响应内容，因为 Internet Explorer 引擎不可用，或者 Internet Explorer 的首次启动配置不完整。请指定 UseBasicParsing 参数，然后再试一次 1、打开IE浏览器的internet选项 2、点击安全选项卡，选中本地intra 阅读全文

posted @ 2018-11-22 13:28 月见空青阅读(6289) 评论(0) 推荐(1)

RedisDesktopManager-0.9.3 for windows (转）

摘要： redis数据库的可视化工具官方出了RedisDesktopManager-0.9.8版本后要购买了。之前自用的Windows版本0.9.3.817有需要的可以使用。解压直接启动即可。主要以备自用！！！链接：https://pan.baidu.com/s/16uRMexi8-bfuZLB2zojT 阅读全文

posted @ 2018-11-18 16:58 月见空青阅读(176) 评论(0) 推荐(0)

python中join函数的用法

摘要：这个函数可以对字符串按照某种方式进行拼接，比如你要在三个字母中间都添加一个特定字符，就可以用这个函数实现当然join后传入的参数是一个string类型同样也是可以的实现换行，或者漂亮的输出都可以用这个来实现。阅读全文

posted @ 2018-11-18 13:26 月见空青阅读(772) 评论(0) 推荐(0)

使用0填充string（构造类似‘00001’的字符串）

摘要：今天在对视频进行爬取的时候，发现url最后是000001，然后是000002，依次增加，而且每一个url请求只能得到一个分段了的视频，这种情况下构造url就成了一个问题。 python有一个函数可以处理这种情况，这个函数名是zfill() 用法：这样可以得到结果new_str = '000001' 阅读全文

posted @ 2018-11-14 19:23 月见空青阅读(714) 评论(0) 推荐(0)

centos系统mysql数据库忘记密码重置方法（ERROR 1045 28000 Access denied...）

摘要：当mysql的密码错误的时候，就会报如下这样的错误信息解决方法如下：首先输入mysqld_safe --skip-grant-tables 然后停止mysql服务，输入service mysqld stop 再次执行指令mysqld_safe --skip-grant-tables & 新建一个阅读全文

posted @ 2018-11-13 11:27 月见空青阅读(290) 评论(0) 推荐(0)

centos7中安装wdcp管理系统（用于网站搭设）

摘要：首先我们进入官网看下安装方法https://www.wdlinux.cn/wdcp/install.html 可以看到，实际上有两张安装方式，一种是源码进行安装，还有一种是RPM包安装，显然第二种安装方式会更快，更适合新手，燃鹅，这个安装包并不支持centos7版本。安装说明下面有写。我们使用的是阅读全文

posted @ 2018-11-12 13:21 月见空青阅读(1155) 评论(0) 推荐(0)

使用scrapy爬取金庸小说目录和章节url

摘要：刚接触使用scrapy的时候，如果一开始就想实现特别复杂的配置，显然是不太现实的，用一些小的例子可以帮助自己理解各个模块。今天的目标：爬取http://www.luoxia.com/shendiao/ 网站金庸小说神雕侠侣目录及各章节链接，并且保存到mongoDB数据库分析：使用scrapy不做阅读全文

posted @ 2018-11-11 15:58 月见空青阅读(783) 评论(0) 推荐(0)

scrapy详细数据流走向（个人总结）

摘要：直接从数据流的角度来说比较容易理解： ·1、Spider创建一个初识url请求，把这个请求通过Engine转给Scheduler调度模块。然后Scheduler向Engine提供一个请求（这个请求是一个真实的url请求）疑问点一：为什么Engine把请求发给Scheduler模块，然后又从Sche 阅读全文

posted @ 2018-11-10 12:04 月见空青阅读(1114) 评论(0) 推荐(0)

Charles初体验

摘要：今天说的是Charles抓包工具，使用它可以抓取浏览器，手机的网络数据信息。下载地址在：https://www.charlesproxy.com/ 下载安装后进行激活、注册，要不然每次使用30分钟就会自动退出，而且每次打开软件也要等待一定时间以下注册名和license key目前可用（2018. 阅读全文

posted @ 2018-11-09 18:14 月见空青阅读(226) 评论(0) 推荐(0)