• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
MC_Hotdog
Yeah, you're right I'm still riding that crappy bike
博客园    首页    新随笔    联系   管理    订阅  订阅
上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页
2019年8月31日
Scrapy之下载中间件中的代理中间件HttpProxyMiddleware
摘要: 简单的使用内置的代理中间件 源码分析 总结: 如果要简单的使用只需在请求刚开始的时候定义os.environ进程环境变量 如果要自定义下载代理中间件需要定义这些方法 自定义下载代理中间件方式一 自定义下载代理中间件方式二,源码看了很轻松自己定义 配置文件中 好奇看下Scrapy的配置文件 阅读全文
posted @ 2019-08-31 21:36 MC_Hotdog 阅读(1347) 评论(0) 推荐(0)
2019年8月30日
Scrapy之dupefilters(去重)以及源码分析/depth
摘要: 避免重复访问 scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置有: 自定义url去重操作 Chouti.py pipelines.py 1 # -*- coding: utf-8 -*- 2 3 # Define your item pipel 阅读全文
posted @ 2019-08-30 21:22 MC_Hotdog 阅读(2216) 评论(0) 推荐(0)
初识Scrapy
摘要: Scrapy常规命令与文件目录解读 简单实例:用scrapy爬取抽屉热榜 这篇博文也写的不错 学习学习https://www.cnblogs.com/jyh-py-blog/p/9986996.html 阅读全文
posted @ 2019-08-30 21:21 MC_Hotdog 阅读(185) 评论(0) 推荐(0)
Scrapy之持久化pipelines/items
摘要: 基于上篇博文存在的问题 https://www.cnblogs.com/Alexephor/p/11432195.html -无法完成爬虫刚开始 打开连接 爬虫关闭时:关闭连接 -分工不明确 本篇博文解决以上两问题 上篇博文不足之处主要体现在爬虫部分parse中在爬数据的过程操作了实时打开关闭文件处 阅读全文
posted @ 2019-08-30 21:21 MC_Hotdog 阅读(202) 评论(0) 推荐(0)
BeautifulSoup库解析
该文被密码保护。 阅读全文
posted @ 2019-08-30 21:20 MC_Hotdog 阅读(4) 评论(0) 推荐(0)
2019年8月29日
requests库解析
摘要: 库的概述 Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。 方法 参数 1 阅读全文
posted @ 2019-08-29 20:52 MC_Hotdog 阅读(1700) 评论(0) 推荐(0)
2019年8月27日
Elasticsearch之索引模板
摘要: 解决的问题 当索引类型和配置信息都一样,就可以使用索引模板来处理,不然我们就会手动创建索引。 创建索引模板 查看索引模板 索引模板的使用 添加数据并且查询模板是否使用上 查询结果模板使用上了 多模板匹配 删除模板 阅读全文
posted @ 2019-08-27 20:16 MC_Hotdog 阅读(3967) 评论(1) 推荐(0)
Elasticsearch之别名
摘要: 别名解决的问题 在运行的集群中可以从一个索引切换到另一个索引 可以给多个索引进行分组 可以与路由搭配使用 别名的相关操作 准备数据阶段 创建别名 给l1索引创建别名a1(_aliases actions add) 查看别名 查看结果 删除别名(actions remove) 重命名别名(淘汰旧的索引 阅读全文
posted @ 2019-08-27 20:15 MC_Hotdog 阅读(6436) 评论(0) 推荐(0)
2019年8月26日
Elasticsearch之路由(routing)
摘要: 路由 主要解决的是文档应该存储在哪个分片中 实际过程是根据公式计算出进行分配 自定义路由 这两篇文档都分配在一个分片上了 通过路由查询文档 通过路由值查找 删除文档 就要带上路由值不然会找不到 查询多个路由 查找 处理忘记路由(导致文档在多个分片建立索引) 查询 文档2可以根据普通查询,这样两篇文档 阅读全文
posted @ 2019-08-26 23:12 MC_Hotdog 阅读(585) 评论(0) 推荐(0)
Elasticsearch之recovery
摘要: 定义 recovery是一个索引的分片分配到另外一个节点的过程,一般发生在快照恢复,索引复制分片的变更,节点故障或者重启节点时候发生。recovery的过程消耗额外的资源cpu 内存 节点点的网络带宽等等。 减少集群full restart造成的数据来回拷贝 1.在集群启动的过程中,一旦有了多少启动 阅读全文
posted @ 2019-08-26 23:11 MC_Hotdog 阅读(422) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3