java/Java Pyton 大数据 Hadoop Spark

上一页 1 ··· 3 4 5 6 7 8 9 下一页
摘要: 如何将 Mysql 数据写入 Kafka 呢?我们可以使用一个小工具。。。 阅读全文
posted @ 2018-12-08 21:09 zzzzMing 阅读(4314) 评论(0) 推荐(1) 编辑
摘要: 今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。 用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray,我们可以在 spar 阅读全文
posted @ 2018-12-06 20:05 zzzzMing 阅读(11083) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯分类算法,如何根据它来对性别进行分类? 阅读全文
posted @ 2018-11-29 20:22 zzzzMing 阅读(7221) 评论(4) 推荐(4) 编辑
摘要: 从分治算法,谈谈 MapReduce 阅读全文
posted @ 2018-11-23 18:25 zzzzMing 阅读(2446) 评论(0) 推荐(0) 编辑
摘要: 传统的 Java 根据共享内存来进行并发控制,而有一种并发编程模型则不需要,那就是 Actor 模型 阅读全文
posted @ 2018-11-16 20:42 zzzzMing 阅读(6321) 评论(4) 推荐(2) 编辑
摘要: 到今天为止,写博客大概也写了半年多了吧。 这段时间我一直在想,究竟什么才是真正有价值的东西。这半年以来,当我学习到一个新的技术技巧时,或是研究完一个底层原理,具体的某个算法时,我就会把它给写到我的博客中,但我在想,在这个信息过载的时代,这些东西很多都已经在网上被别人说烂了,有一些更是被转载烂了。 在 阅读全文
posted @ 2018-11-15 22:24 zzzzMing 阅读(315) 评论(0) 推荐(1) 编辑
摘要: scala 的模式匹配到底是什么呢,我们来深入了解看看 阅读全文
posted @ 2018-11-15 10:41 zzzzMing 阅读(1355) 评论(1) 推荐(0) 编辑
摘要: 在任何并发性应用程序中,异步事件处理都至关重要。无论事件的来源是什么(不同的计算任务、I/O 操作或与外部系统的交互),您的代码都必须跟踪事件,协调为响应它们而执行的操作。应用程序可以采用两种基本方法之一来实现异步事件处理: 阻塞:一个等待事件的协调线程。 非阻塞:事件向应用程序生成某种形式的通知, 阅读全文
posted @ 2018-11-06 21:03 zzzzMing 阅读(1905) 评论(0) 推荐(1) 编辑
摘要: 一. 概述 首先需要先介绍一下无监督学习,所谓无监督学习,就是训练样本中的标记信息是位置的,目标是通过对无标记训练样本的学习来揭示数据的内在性质以及规律。通俗得说,就是根据数据的一些内在性质,找出其内在的规律。而这一类算法,应用最为广泛的就是“聚类”。 聚类算法可以对数据进行数据归约,即在尽可能保证 阅读全文
posted @ 2018-11-05 21:08 zzzzMing 阅读(19284) 评论(1) 推荐(0) 编辑
摘要: 在使用Spark SQL的过程中,经常会用到groupBy这个函数进行一些统计工作。但是会发现除了groupBy外,还有一个groupByKey( 注意RDD也有一个groupByKey,而这里的groupByKey是DataFrame的 )。这个groupByKey引起了我的好奇,那我们就到源码里 阅读全文
posted @ 2018-11-04 16:28 zzzzMing 阅读(2020) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 下一页