L先生AI课堂

2018年2月17日

摘要：一、前述 Vi类似记事本，所以用好记事本对编程效率有很大得影响，有着事半功倍的效率。二、具体操作 1、打开文件vim /path/to/somefilevim +# :打开文件，并定位于第#行 vim +：打开文件，定位至最后一行vim +/PATTERN : 打开文件，定位至第一次被PATTER 阅读全文

posted @ 2018-02-17 15:01 L先生AI课堂阅读(410) 评论(0) 推荐(0)

2018年2月9日

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用

摘要：一、前述 SparkSQL中的UDF相当于是1进1出，UDAF相当于是多进一出，类似于聚合函数。开窗函数一般分组取topn时常用。二、UDF和UDAF函数 1、UDF函数 java代码：这些参数需要对应，UDF2就是表示传两个参数，UDF3就是传三个参数。 scala代码： 2、UDAF:用户阅读全文

posted @ 2018-02-09 16:44 L先生AI课堂阅读(5284) 评论(1) 推荐(0)

【Spark篇】---SparkStreaming算子操作transform和updateStateByKey

摘要：一、前述今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。可以通过transform算子，对Dstream做RDD到RDD的任意操作。其实就是DStream的类型转换。算子内，拿到的RDD算子外，代码是在Driver端执行的，每个batch 阅读全文

posted @ 2018-02-09 16:10 L先生AI课堂阅读(8523) 评论(0) 推荐(0)

【Spark篇】---SparkStream初始与应用

摘要：一、前述 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,redu 阅读全文

posted @ 2018-02-09 14:46 L先生AI课堂阅读(8328) 评论(0) 推荐(0)

2018年2月8日

【Spark篇】---SparkSQL on Hive的配置和使用

摘要：一、前述 Spark on Hive： Hive只作为储存角色，Spark负责sql解析优化，执行。二、具体配置 1、在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：配置hive的metastore 阅读全文

posted @ 2018-02-08 15:52 L先生AI课堂阅读(1579) 评论(0) 推荐(0)

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

摘要：一、前述 1、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在Sca 阅读全文

posted @ 2018-02-08 15:12 L先生AI课堂阅读(19856) 评论(1) 推荐(1)

2018年2月7日

【Spark篇】---Spark中内存管理和Shuffle参数调优

摘要：一、前述 Spark内存管理 Spark执行应用程序时，Spark集群会启动Driver和Executor两种JVM进程，Driver负责创建SparkContext上下文，提交任务，task的分发等。Executor负责task的计算任务，并将结果返回给Driver。同时需要为需要持久化的RDD提阅读全文

posted @ 2018-02-07 02:15 L先生AI课堂阅读(816) 评论(0) 推荐(0)

【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle

摘要：一、前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle。 SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是<key,value>对的形式，这样每一阅读全文

posted @ 2018-02-07 01:50 L先生AI课堂阅读(755) 评论(0) 推荐(0)

【Spark篇】---Spark中Master-HA和historyServer的搭建和应用

摘要：一、前述本节讲述Spark Master的HA的搭建，为的是防止单点故障。 Spark-UI 的使用介绍，可以更好的监控Spark应用程序的执行。二、具体细节 1、Master HA 1、Master的高可用原理 Standalone集群只有一个Master，如果Master挂了就无法提交应用程阅读全文

posted @ 2018-02-07 01:08 L先生AI课堂阅读(1289) 评论(0) 推荐(0)

2018年2月6日

【Spark篇】---Spark中广播变量和累加器

摘要：一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理 1、广播变量广播变量理解图注意事项 1、能不能将一个RDD使用广播变量广播出去？不能，因为RD 阅读全文

posted @ 2018-02-06 23:10 L先生AI课堂阅读(14170) 评论(0) 推荐(0)

联想集团算法工程师一枚！ Get busy living, or get busy dying!!

公告