会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
minimalist
洞悉技术的本质,享受科技的乐趣
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2020年4月29日
数据分析实战——04丨Python科学计算:用NumPy快速处理数据
摘要: 使用 NumPy 让你的 Python 科学计算更高效 它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库 它所提供的数据结构比 Python 自身的“更高级、更高效” 为什么要用 NumPy 数组结构而不是 Python 本身的列表 list? 这
阅读全文
posted @ 2020-04-29 18:01 怡情养性长智
阅读(235)
评论(0)
推荐(0)
2020年4月28日
数据分析实战——07 | 用户画像:标签化就是数据的抽象能力
摘要: 精细化运营将是长久的主题 有数据,有数据分析能力才能让用户得到更好的体验 用户画像的准则 用户唯一标识是整个用户画像的核心 它把“从用户开始使用 APP 到下单到售后整个所有的用户行为”进行串联 设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID 等 其
阅读全文
posted @ 2020-04-28 15:20 怡情养性长智
阅读(595)
评论(0)
推荐(0)
Kafka核心技术与实战——05 | 聊聊Kafka的版本号
摘要: Kafka 版本命名 Scala 2.11 - kafka_2.11-2.1.1 前面的版本号是编译 Kafka 源代码的 Scala 编译器版本。Kafka 服务器端的代码完全由 Scala 语言编写,Scala 同时支持面向对象编程和函数式编程 真正的 Kafka 版本号实际上是 2.1.1 前
阅读全文
posted @ 2020-04-28 10:47 怡情养性长智
阅读(349)
评论(0)
推荐(0)
Kafka核心技术与实战——04 | 我应该选择哪种Kafka?
摘要: Apache Storm、Apache Spark Streaming 亦或是 Apache Flink,它们在大规模流处理领域可都是响当当的名字 Kafka Streams 组件,正是它提供了 Kafka 实时处理流数据的能力。但是其实还有一个重要的组件我没有提及,那就是 Kafka Connec
阅读全文
posted @ 2020-04-28 10:44 怡情养性长智
阅读(275)
评论(0)
推荐(0)
2020年4月27日
数据分析实战——06 | 学数据分析要掌握哪些基本概念?
摘要: Apriori 算法 他通过分析购物篮中的商品集合,找出商品之间的关联关系 利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额 商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系 数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金 数据仓库可以说是数据库的升级概念。不过
阅读全文
posted @ 2020-04-27 14:36 怡情养性长智
阅读(216)
评论(0)
推荐(0)
Kafka核心技术与实战——03 | Kafka只是消息引擎系统吗?
摘要: 从自上而下的角度去理解 Kafka 竟然发现了很多之前学习过程中忽略掉的东西 更特别地是,我发现这种学习方法能够帮助我维持较长时间的学习兴趣,不会阶段性地产生厌烦情绪 Apache Kafka 是消息引擎系统,也是一个分布式流处理平台 LinkedIn 最开始有强烈的数据强实时处理方面的需求,其内部
阅读全文
posted @ 2020-04-27 11:49 怡情养性长智
阅读(194)
评论(0)
推荐(0)
Kafka核心技术与实战——02 | 一篇文章带你快速搞定Kafka术语
摘要: Kafka 属于分布式的消息引擎系统 它的主要功能是提供一套完备的消息发布与订阅解决方案 在 Kafka 中,发布订阅的对象是主题(Topic),你可以为每个业务、每个应用甚至是每类数据都创建专属的主题 我们把生产者和消费者统称为客户端(Clients) 向主题发布消息的客户端应用程序称为生产者(P
阅读全文
posted @ 2020-04-27 11:48 怡情养性长智
阅读(222)
评论(0)
推荐(0)
Kafka核心技术与实战——01 | 消息引擎系统ABC
摘要: Apache Kafka 是一款开源的消息引擎系统 “消息队列”“消息中间件”的提法想必你一定是有所耳闻的 这类系统引以为豪的消息传递属性,就像引擎一样,具备某种能量转换传输的能力 消息引擎系统的功能 消息引擎传输的对象是消息; 如何传输消息属于消息引擎设计机制的一部分 既然消息引擎是用于在不同系统
阅读全文
posted @ 2020-04-27 11:47 怡情养性长智
阅读(293)
评论(0)
推荐(0)
Kafka核心技术与实战——开篇词 | 为什么要学习Kafka?
摘要: 数据密集型 由于大数据业务系统都是为公司业务服务的,所以通常来说它们仅仅是执行一些常规的业务逻辑,因此它们不能算是计算密集型应用,相反更应该是数据密集型的 对于数据密集型应用来说,如何应对数据量激增、数据复杂度增加以及数据变化速率变快,是彰显大数据工程师、架构师功力的最有效表征。 就拿数据量激增来说
阅读全文
posted @ 2020-04-27 11:46 怡情养性长智
阅读(295)
评论(0)
推荐(0)
2020年4月25日
数据分析实战——12 | 数据集成
摘要: 数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作 大数据项目中 80% 的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作 这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否
阅读全文
posted @ 2020-04-25 10:30 怡情养性长智
阅读(486)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告