上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.suppor... 阅读全文
posted @ 2018-06-11 11:13 nick560 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 利用scrapy、proxy_pool、cookie_pool抓取新浪微博:用户信息、关注列表、粉丝列表、微博内容,信息保存至MongoDB。以几个大V为起点,爬取个人信息、粉丝、关注、微博信息,然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息,以此类推,实现递归爬取。 1、 spider 阅读全文
posted @ 2018-06-11 11:02 nick560 阅读(897) 评论(0) 推荐(0) 编辑
摘要: import datetime import json dic = { 'k1':123, 'ctime':datetime.datetime.now() } class MyEncoder(json.JSONEncoder): def default(self, o): # o是数据类型 if i 阅读全文
posted @ 2018-06-10 20:07 nick560 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 全书的结构:作者首先介绍了Growth Hacker的发展历史,然后以时间轴的形式介绍了一个产品的发展过程(AARRR),产品诞生,获取种子用户,激发用户活跃度,提高用户的留存率,增加产品的利润,进行病毒传播,最后以一些产品为例介绍了相对完整的初期发展过程。 读完全书的感受,Growth Hacke 阅读全文
posted @ 2018-06-10 12:19 nick560 阅读(265) 评论(0) 推荐(0) 编辑
摘要: python 2.4 与 python 3.0 的比较 一、 print 从语句变为函数 原: print 1, 2+3 改为: print ( 1, 2+3 ) 二、range 与 xrange 原 : range( 0, 4 ) 结果 是 列表 [0,1,2,3 ] 改为:list( range 阅读全文
posted @ 2018-06-08 16:57 nick560 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 1、多线程 #IO密集型程序应该用多线程 import requests from threading import Thread,current_thread def parse_page(res): print('%s 解析 %s' %(current_thread().getName(),le 阅读全文
posted @ 2018-06-08 12:44 nick560 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 拉勾网验证流程: 1、请求登录页面: 请求url为:https://passport.lagou.com/login/login.html 请求头并没有什么内容,带上简单的Host,User-Agent把自己伪装成浏览器即可 响应头里包含有效的cookie信息 Set-Cookie:JSESSION 阅读全文
posted @ 2018-06-06 21:20 nick560 阅读(912) 评论(0) 推荐(0) 编辑
摘要: mark 阅读全文
posted @ 2018-06-06 15:47 nick560 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(!!!!!!!!! 优先 阅读全文
posted @ 2018-06-05 18:12 nick560 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1、基本命令: 2、custom_settings custom_settings值为一个字典,定义一些配置信息,在运行爬虫程序时,这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前),由于settings会在类实例化前加载,但是后来居上cus 阅读全文
posted @ 2018-06-05 17:47 nick560 阅读(337) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页