会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ranbox
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2024年6月17日
Scrapy与分布式开发:MongoDB安装与快速入门
摘要: MongoDB安装与快速入门 一、MongoDB 概述 MongoDB 是一个面向文档的数据库系统,使用 BSON(Binary JSON)格式存储数据,提供了高性能、高可用性和易扩展性。它专为 Web 应用和大数据场景设计,通过简单的数据模型、强大的查询功能和灵活的扩展性,成为现代应用开发的热门选
阅读全文
posted @ 2024-06-17 13:03 七夜魔手
阅读(23)
评论(0)
推荐(0)
2024年6月13日
基于tushare使用同步、asyncio和线程池提高爬取速度
摘要: 数据来源:tushare 署名:406940 tushare是一个股票行情数据接口,通过它能获取到大量的股票数据,数据一多,必然影响爬取速度,本章我要展示的是在同步、asyncio和线程池三种情况下去爬tushare六支差不多一年的历史分笔数据 同步 同步是在一个多线程下执行,程序按照代码执行顺序一
阅读全文
posted @ 2024-06-13 14:11 七夜魔手
阅读(128)
评论(0)
推荐(0)
2024年6月12日
附件采集文件类型识别方案
摘要: 背景 咱们做爬虫的或多或少都会遇到附件下载,一般情况站点提供的附件链接会直接声明文件的类型,但是有些提供的只是一个api,然后触发下载时再返回附件文本,这个时候我们是没法直接知道文件类型的,而我们使用requests下载并存储附件时是必须要定义好它的文件类型的,那有什么解决方案呢? 解决方案 mim
阅读全文
posted @ 2024-06-12 12:04 七夜魔手
阅读(16)
评论(0)
推荐(0)
2024年5月4日
Windows与Android实现Charles证书设置
摘要: 常见问题与解决方案 信任证书后移动到/system/etc/security/cacerts下出现证书莫名其妙被删除 我在使用MT管理器移动文件也会出现这种情况,重启手机也没用,最后使用magisk + Move Certificates 插件,下载Move Certificates插件,然后将证书
阅读全文
posted @ 2024-05-04 16:43 七夜魔手
阅读(158)
评论(0)
推荐(0)
2024年5月3日
jadx-gui添加dex文件失败,提示Bad checksum
摘要: 之前都是使用jadx直接打开的apk文件,要添加dex文件时突然添加失败并报错 也就是会校验dex的checksum,直接关闭会导致dex文件反编译失败。 解决方案:查日志后得到关闭校验即可 操作方式如下:
阅读全文
posted @ 2024-05-03 11:32 七夜魔手
阅读(145)
评论(0)
推荐(0)
2024年4月23日
Scrapy与分布式开发(2.8):布隆过滤器原理及应用
摘要: 布隆过滤器原理及应用 定义 布隆过滤器(Bloom Filter) 是一种空间效率极高的概率型数据结构,用于测试一个元素是否在一个集合中。它的优点是空间效率和查询时间都远超过一般的算法,缺点是有一定的误识别率和删除困难。 原理 布隆过滤器使用位数组(bit array)和一系列的哈希函数。当你向布隆
阅读全文
posted @ 2024-04-23 22:07 七夜魔手
阅读(77)
评论(0)
推荐(0)
2024年3月30日
python爬虫工程师面经(2023年金三银四)
摘要: python爬虫工程师面经 前言面经总结发展相关问题爬虫基础相关问题工作经验相关问题 总结 前言 过年期间,经过自我慎重的考虑后,终于决定在2月份向公司提出了辞职,说实话很慌,也做好了长时间找不到工作的准备,只是继续呆在公司对自我发展毫无意义,找了差不多一个月,面试了六家公司,最后确定了一份工作,在
阅读全文
posted @ 2024-03-30 16:55 七夜魔手
阅读(79)
评论(0)
推荐(0)
2024年3月7日
appium连接真实手机出现的问题
摘要: 权限问题 参考链接: Appium连接手机时报权限错误 requires:android.permission.WRITE_SECURE_SETTINGS 我所遇到的问题: Encountered internal error running command: Error executing adb
阅读全文
posted @ 2024-03-07 14:39 七夜魔手
阅读(141)
评论(0)
推荐(0)
2024年3月4日
Scrapy与分布式开发(2.3):lxml+xpath基本指令和提取方法详解
摘要: lxml+xpath基本指令和提取方法详解 一、XPath简介 XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML,还常用于处理HTML文档。 二、基本指令和提取方法 选择节点 使
阅读全文
posted @ 2024-03-04 16:11 七夜魔手
阅读(84)
评论(0)
推荐(0)
2024年2月29日
Scrapy与分布式开发(2.6):谈谈常用采集策略与应用场景
摘要: 常用采集策略与应用场景 导语 网络采集一般有三大指标:完整度,准确度,新鲜度,从零抓取时大家比较关注完整度,也就是数据量,而当完整度达到一定量时,就要产生质变才能给数据带来升华,这时大家就比较关注准确度和新鲜度。要更好的完成这三大指标,需要根据业务场景选择对应的采集策略,一个好的采集策略能够提高采集
阅读全文
posted @ 2024-02-29 10:00 七夜魔手
阅读(44)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告