nick560

2018年6月11日

摘要： from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.suppor... 阅读全文

posted @ 2018-06-11 11:13 nick560 阅读(337) 评论(0) 推荐(0)

新浪微博爬虫项目

摘要：利用scrapy、proxy_pool、cookie_pool抓取新浪微博：用户信息、关注列表、粉丝列表、微博内容，信息保存至MongoDB。以几个大V为起点，爬取个人信息、粉丝、关注、微博信息，然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息，以此类推，实现递归爬取。 1、 spider 阅读全文

posted @ 2018-06-11 11:02 nick560 阅读(978) 评论(0) 推荐(0)

2018年6月10日

time

摘要： import datetime import json dic = { 'k1':123, 'ctime':datetime.datetime.now() } class MyEncoder(json.JSONEncoder): def default(self, o): # o是数据类型 if i 阅读全文

posted @ 2018-06-10 20:07 nick560 阅读(152) 评论(0) 推荐(0)

黑客增长

摘要：全书的结构：作者首先介绍了Growth Hacker的发展历史，然后以时间轴的形式介绍了一个产品的发展过程（AARRR），产品诞生，获取种子用户，激发用户活跃度，提高用户的留存率，增加产品的利润，进行病毒传播，最后以一些产品为例介绍了相对完整的初期发展过程。读完全书的感受，Growth Hacke 阅读全文

posted @ 2018-06-10 12:19 nick560 阅读(284) 评论(0) 推荐(0)

2018年6月8日

python2 3 区别

摘要： python 2.4 与 python 3.0 的比较一、 print 从语句变为函数原: print 1, 2+3 改为: print ( 1, 2+3 ) 二、range 与 xrange 原 : range( 0, 4 ) 结果是列表 [0,1,2,3 ] 改为：list( range 阅读全文

posted @ 2018-06-08 16:57 nick560 阅读(218) 评论(0) 推荐(0)

爬虫高性能相关

摘要： 1、多线程 #IO密集型程序应该用多线程 import requests from threading import Thread,current_thread def parse_page(res): print('%s 解析 %s' %(current_thread().getName(),le 阅读全文

posted @ 2018-06-08 12:44 nick560 阅读(256) 评论(0) 推荐(0)

2018年6月6日

登录_爬取并筛选拉钩网职位信息_自动提交简历

摘要：拉勾网验证流程： 1、请求登录页面：请求url为：https://passport.lagou.com/login/login.html 请求头并没有什么内容，带上简单的Host，User-Agent把自己伪装成浏览器即可响应头里包含有效的cookie信息 Set-Cookie:JSESSION 阅读全文

posted @ 2018-06-06 21:20 nick560 阅读(959) 评论(0) 推荐(0)

tesseract-ocr 传统验证码识别

摘要： mark 阅读全文

posted @ 2018-06-06 15:47 nick560 阅读(272) 评论(0) 推荐(0)

2018年6月5日

scrapy-redis

摘要： 1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL（!!!!!!!!! 优先阅读全文

posted @ 2018-06-05 18:12 nick560 阅读(148) 评论(0) 推荐(0)

scrapy

摘要： 1、基本命令： 2、custom_settings custom_settings值为一个字典，定义一些配置信息，在运行爬虫程序时，这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前)，由于settings会在类实例化前加载，但是后来居上cus 阅读全文

posted @ 2018-06-05 17:47 nick560 阅读(366) 评论(0) 推荐(0)

公告