会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xpyue
希望每个喜欢和从事爬虫的朋友交流经验
博客园
首页
新随笔
联系
订阅
管理
[置顶]
scrapy爬虫框架之理解篇(个人理解)
摘要: 提问: 为什么使用scrapy框架来写爬虫 ? 在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。 1.scrapy 的基础概念
阅读全文
posted @ 2017-11-06 21:34 xpyue
阅读(20627)
评论(1)
推荐(4)
2017年11月10日
python3 多线程获取数据实例
摘要: import requestsimport jsonfrom retrying import retryfrom lxml import etreefrom queue import Queueimport threading class QiuShi: def __init__(self): #
阅读全文
posted @ 2017-11-10 21:39 xpyue
阅读(4194)
评论(0)
推荐(0)
2017年11月7日
python3 selenium模拟登陆斗鱼提取数据保存数据库
摘要: # coding=utf-8from selenium import webdriverimport jsonimport timeimport pymongo class Douyu: def __init__(self): self.driver = webdriver.Chrome() # 发
阅读全文
posted @ 2017-11-07 14:37 xpyue
阅读(634)
评论(0)
推荐(1)
python3 xpath数据获取案例
摘要: import requestsfrom retrying import retryfrom lxml import etreeimport json class DaCheng(object): def __init__(self): self.temp_url = "http://www.dach
阅读全文
posted @ 2017-11-07 14:20 xpyue
阅读(4615)
评论(1)
推荐(0)
2017年11月6日
python3 re正则匹配数据获取案例
摘要: # coding=utf-8import requestsimport jsonfrom retrying import retryimport re class TyY: def __init__(self): self.url = ["http://www.tylaw.cn/cgi-bin/GL
阅读全文
posted @ 2017-11-06 15:54 xpyue
阅读(3409)
评论(0)
推荐(0)
公告