摘要:
前面我们已经完成了scala的第一个程序,本文将在其基础之上阐述scala的基本语法。 1 系统、软件以及前提约束 win10 64位 已在idea中完成scala的helloworld程序 https://www.jianshu.com/p/ec64c70e6bb6 2 操作 1 数据类型 pyt 阅读全文
posted @ 2020-03-26 19:48
张力的程序园
阅读(162)
评论(0)
推荐(0)
摘要:
前面我们了解了类和对象,本节我们将了解scala当中的抽象类、扩展类以及特质【相当于java中的接口】。 1 系统、软件以及前提约束 win10 64位 已了解scala中的类与对象,并进行code https://www.jianshu.com/p/92f555f859c2 idea2018.1 阅读全文
posted @ 2020-03-26 19:47
张力的程序园
阅读(157)
评论(0)
推荐(0)
摘要:
前面我们已经完成了scala的第一个程序,本文将在其基础之上阐述scala的基本语法。 1 系统、软件以及前提约束 win10 64位 已在idea中完成scala的helloworld程序 https://www.jianshu.com/p/ec64c70e6bb6 2 操作 1 数据类型 sca 阅读全文
posted @ 2020-03-26 19:46
张力的程序园
阅读(271)
评论(0)
推荐(0)
摘要:
常用的分类器有逻辑斯蒂回归分类器和决策树分类器,本文将阐述在scala中使用逻辑斯蒂回归完成判断是否有某字段。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 已完成spark访问hive h 阅读全文
posted @ 2020-03-26 19:45
张力的程序园
阅读(161)
评论(0)
推荐(0)
摘要:
前面我们使用Spark Streaming去监听了端口数据,接下来我们将使用Spark Streaming作为kafka的消费者。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 已完成spa 阅读全文
posted @ 2020-03-26 19:44
张力的程序园
阅读(202)
评论(0)
推荐(0)
摘要:
前面我们了解了RDD编程,RDD优点极多,但是不包含schema信息,即列的信息,只能通过反复的迭代处理获取期待的数据,本文将阐述DataFrame的用法,所谓DataFrame就是包含schema信息的RDD。 RDD【弹性分布式数据集】是spark的核心,它是只读的,基于内存的,RDD结合算子会 阅读全文
posted @ 2020-03-26 19:43
张力的程序园
阅读(221)
评论(0)
推荐(0)
摘要:
前面我们熟悉了通过spark访问mysql,这一节我们将了解通过spark通过hive 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 已完成spark访问mysql https://www. 阅读全文
posted @ 2020-03-26 19:42
张力的程序园
阅读(310)
评论(0)
推荐(0)
摘要:
我们已经了解了在spark命令行当中使用交互方式完成词频统计,本节将阐述在idea当中使用sbt环境完成scala代码,并进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 已在l 阅读全文
posted @ 2020-03-26 19:41
张力的程序园
阅读(566)
评论(0)
推荐(0)
摘要:
本节将展示如何在spark中通过python进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 已完成scala方式的词频统计 https://www.jianshu.com/p/ 阅读全文
posted @ 2020-03-26 19:40
张力的程序园
阅读(1015)
评论(0)
推荐(0)
摘要:
spark是新一代的大数据组件,包括sparkcore, sparksql,sparkstreaming,mllib,graphx等,在实际生产中作用极大,与HDFS, Hbase, hive等都可以交互。本文将阐述如何在CentOS7中安装spark。 1 系统、软件以及前提约束 CentOS 7 阅读全文
posted @ 2020-03-26 19:38
张力的程序园
阅读(362)
评论(0)
推荐(0)
摘要:
数据分两类,一类是静态处理,多做批量处理,属于OLAP,一类是流式数据,多做实时处理,属于OLTP。Spark Streaming属于微批处理,并非真正意义上的实时处理。本节将介绍一个真正意义上的流处理框架Storm,本文将阐述Storm的安装。 1 系统、软件以及前提约束 CentOS 7 64 阅读全文
posted @ 2020-03-26 19:37
张力的程序园
阅读(226)
评论(0)
推荐(0)
摘要:
数据分两类,一类是静态处理,多做批量处理,属于OLAP,一类是流式数据,多做实时处理,属于OLTP。Spark Streaming属于微批处理,并非真正意义上的实时处理。本节将介绍一个顶级的流处理框架Flink。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.1 阅读全文
posted @ 2020-03-26 19:36
张力的程序园
阅读(1490)
评论(0)
推荐(0)
摘要:
在大数据组件之间进行数据的迁移是必不可少的,本文将阐述数据迁移的重要工具之一sqoop。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,请读者根据自己实际情况设置 sqoop 1.4.7.bin__hadoop 2.6.0 下载链接:ht 阅读全文
posted @ 2020-03-26 19:26
张力的程序园
阅读(173)
评论(0)
推荐(0)