摘要: 前两天在BOSS上找爬虫工作,投了N份简历,很少有回复的,唯一能看到点希望的是一家旅游公司,BOSS上回复说:要求做一些航空公司的爬虫,做好之后把思路和一些数据发过去,再谈后续的面试问题。 发过来两个爬虫项目,说如果面试通过,会根据所选的爬虫项目进行工资定级,我选了这个据说是难度更大一些的:air 阅读全文
posted @ 2019-02-27 15:28 贺健龙 阅读(1258) 评论(4) 推荐(0) 编辑
摘要: pycharm 远程服务器调试模块:pydevd 参考:https://blog.csdn.net/g8433373/article/details/79438039_sqlite3模块缺失问题参考:https://blog.csdn.net/yemazhuxing/article/details/80462112 阅读全文
posted @ 2019-01-16 14:43 贺健龙 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 远程连接需要在postgresql中建立用户,即spideruser用户,postgres是作为服务器登陆的用户来使用,同时需要设置postgresql.conf pg_hba.conf开通权限以及5432端口 # centos crontab功能注意事项: 运行python命令需要指定路径 如 * 阅读全文
posted @ 2019-01-16 10:09 贺健龙 阅读(789) 评论(0) 推荐(0) 编辑
摘要: # 链接:https://github.com/hejianlong/wechat_spider 阅读全文
posted @ 2019-01-10 16:19 贺健龙 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 主要原因:需要下载文件并保留原有后缀名,但scrapy的下载管道没有这个选项,需要重新定义filespipelines功能,参考其他人的文件, 阅读全文
posted @ 2019-01-08 09:40 贺健龙 阅读(878) 评论(0) 推荐(0) 编辑
摘要: # 如果需要使用contains选择包括一些内容的同时,且不包含另外一部分内容,这样写: //a[contains(@href,"node")][not(contains(@href,"/m/"))] 阅读全文
posted @ 2019-01-04 15:32 贺健龙 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 问题1: # windows系统下终端输出汉字错误:报gbk编码问题, 原因及解决方法: windows终端默认编码格式为gbk,需要更改为utf-8,通过chcp命令查看是否为65001,如果不是,则使用 chcp 65001命令变更编码格式,但这是临时的,仍未找到可找到持久变更方法。 阅读全文
posted @ 2019-01-04 09:41 贺健龙 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 2、aqicn.py # 读取队列进行任务解析并存储 3、redis_read.py # 从redis数据库中取值并删除原值,且一旦有新值传入,继续读取并删除,做到持久化,可以直接展示,或者存到mysql数据中 阅读全文
posted @ 2018-12-03 09:25 贺健龙 阅读(1352) 评论(1) 推荐(1) 编辑
摘要: 执行自动化操作时,如果出错,需要通过日志功能保存错误信息,这里写下从网上找到的相关配置资料 阅读全文
posted @ 2018-11-26 11:29 贺健龙 阅读(609) 评论(0) 推荐(0) 编辑
摘要: a = [1,2,3] b = a print(a,b) print(id(a),id(b)) # [1, 2, 3] [1, 2, 3] # 2346301641544 2346301641544 b += [4,5] print(a,b) print(id(a),id(b)) # [1, 2, 3, 4, 5] [1, 2, 3, 4, 5] # 2346301641544 23463016... 阅读全文
posted @ 2018-09-28 15:02 贺健龙 阅读(1411) 评论(0) 推荐(0) 编辑