会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
minimalist
洞悉技术的本质,享受科技的乐趣
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2020年5月12日
Kafka核心技术与实战——11 | 无消息丢失配置怎么实现
摘要: 那 Kafka 到底在什么情况下才能保证消息不丢失呢? 一句话概括,Kafka 只对“已提交”的消息(committed message)做有限度的持久化保证 第一个核心要素是“已提交的消息”。 什么是已提交的消息?当 Kafka 的若干个 Broker 成功地接收到一条消息并写入到日志文件后,它们
阅读全文
posted @ 2020-05-12 15:19 怡情养性长智
阅读(244)
评论(0)
推荐(0)
2020年5月11日
Kafka核心技术与实战——10 | 生产者压缩算法面面观
摘要: 压缩(compression) 它秉承了用时间去换空间的经典 trade-off 思想 具体来说就是用 CPU 时间去换磁盘空间或网络 I/O 传输量 希望以较小的 CPU 开销带来更少的磁盘占用或更少的网络 I/O 传输 怎么压缩? Kafka 的消息层次都分为两层:消息集合(message se
阅读全文
posted @ 2020-05-11 11:10 怡情养性长智
阅读(453)
评论(0)
推荐(0)
2020年5月6日
数据分析实战——38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
摘要: 我们经常需要对分析的数据提取常用词,做词云展示 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示 再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具 最后,只需要将词云生成一张图片就可以直观地看到结果。 那么在今天的实战项目里
阅读全文
posted @ 2020-05-06 10:57 怡情养性长智
阅读(388)
评论(0)
推荐(0)
数据分析实战——37丨数据采集实战:如何自动化运营微博?
摘要: 使用 Python 自动化运营微博,达成以下的 3 个学习目标: 1、掌握 Selenium 自动化测试工具,以及元素定位的方法; 2、学会编写微博自动化功能模块:加关注,写评论,发微博; 3、对微博自动化做自我总结 Selenium 自动化测试工具 当我们做 Web 自动化测试的时候,可以选用 S
阅读全文
posted @ 2020-05-06 10:51 怡情养性长智
阅读(367)
评论(0)
推荐(0)
2020年5月3日
Kafka核心技术与实战——09 | 生产者消息分区机制原理剖析
摘要: 如何将这么大的数据量均匀地分配到 Kafka 的各个 Broker 上,就成为一个非常重要的问题 为什么分区? Kafka 有主题(Topic)的概念,它是承载真实数据的逻辑容器 而在主题之下还分为若干个分区,也就是说 Kafka 的消息组织方式实际上是三级结构:主题 - 分区 - 消息 主题下的每
阅读全文
posted @ 2020-05-03 13:10 怡情养性长智
阅读(285)
评论(0)
推荐(0)
Kafka核心技术与实战——08 | 最最最重要的集群参数配置(下)
摘要: 下半部分主要是 Topic 级别参数、JVM 参数以及操作系统参数的设置 正确设置这些参数是搭建高性能 Kafka 集群的关键因素 Topic 级别参数 如果同时设置了 Topic 级别参数和全局 Broker 参数 答案就是 Topic 级别参数会覆盖全局 Broker 参数的值,而每个 Topi
阅读全文
posted @ 2020-05-03 13:08 怡情养性长智
阅读(289)
评论(0)
推荐(0)
2020年5月2日
Kafka核心技术与实战——07 | 最最最重要的集群参数配置(上)
摘要: 很多参数对系统的影响要比从文档上看更加明显 严格来说这些配置并不单单指 Kafka 服务器端的配置,其中既有 Broker 端参数, 也有主题(后面我用我们更熟悉的 Topic 表示)级别的参数、 JVM 端参数 和操作系统级别的参数 Broker 端参数 目前 Kafka Broker 提供了近
阅读全文
posted @ 2020-05-02 22:16 怡情养性长智
阅读(234)
评论(0)
推荐(0)
Kafka核心技术与实战——06 | Kafka线上集群部署方案怎么做?
摘要: 操作系统 Kafka 由 Scala 语言和 Java 语言编写而成,编译之后的源代码就是普通的“.class”文件 应该说部署在 Linux 上的生产环境是最多的 主要是在下面这三个方面上,Linux 的表现更胜一筹。 I/O 模型的使用 数据网络传输效率 社区支持度 主流的 I/O 模型通常有
阅读全文
posted @ 2020-05-02 22:15 怡情养性长智
阅读(218)
评论(0)
推荐(0)
2020年4月30日
数据分析实战——08 | 数据采集:如何自动化采集数据?
摘要: 从数据采集角度来说,都有哪些数据源呢? 这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集 开放数据源一般是针对行业的数据库。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量 爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物
阅读全文
posted @ 2020-04-30 10:41 怡情养性长智
阅读(1067)
评论(0)
推荐(0)
数据分析实战——05丨Python科学计算:Pandas
摘要: Pandas 可以对数据进行导入、清洗、处理、统计和输出 在 NumPy 中数据结构是围绕 ndarray 展开的 那么在 Pandas 中的Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构 Series 是个定长的字典序列 说是定长是因为在存储的时候
阅读全文
posted @ 2020-04-30 10:40 怡情养性长智
阅读(451)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告