会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据编程学习
博客园
首页
新随笔
联系
订阅
管理
2020年3月22日
线性代理--矩阵
摘要:
阅读全文
posted @ 2020-03-22 15:50 中年程序
阅读(146)
评论(0)
推荐(0)
2020年3月21日
线性代数--向量
摘要: 向量定义: 一组有序的数字 空间中的点 行向量 列向量 向量加法 数量乘法 向量的模 证明 向量点乘的应用
阅读全文
posted @ 2020-03-21 11:51 中年程序
阅读(249)
评论(0)
推荐(0)
2020年3月14日
Spark编程--Kafka安装与配置 (Kafka版本 kafka_2.11_2.2.1)
摘要: 1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k
阅读全文
posted @ 2020-03-14 19:03 中年程序
阅读(1002)
评论(0)
推荐(0)
Spark编程--Spark SQL DataFrame
摘要: DataFrame与RDD的区别 从示例文件people.json中创建DataFrame,保存成csv格式的文件 package com.zwq import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession;
阅读全文
posted @ 2020-03-14 10:17 中年程序
阅读(205)
评论(0)
推荐(0)
2020年3月13日
Spark编程--案例:二次排序
摘要: 优先根据第一列值排序,如果第一列值相等,根据第二列值排序 package com.zwq import org.apache.spark.{SparkConf, SparkContext} object SecondarySortApp extends App { val conf = new Sp
阅读全文
posted @ 2020-03-13 16:01 中年程序
阅读(301)
评论(0)
推荐(0)
2020年3月10日
Spark编程--文件数据读写
摘要: 把RDD写入到文本文件中 分布式文件系统HDFS的数据读写 JSON文件数据读写 (注scala 2.11.8运行不了) 读写HBase数据 HBase简介 从HBase读取 package com.zwq import org.apache.hadoop.hbase.HBaseConfigurat
阅读全文
posted @ 2020-03-10 21:05 中年程序
阅读(400)
评论(0)
推荐(0)
Spark编程--键值对RDD转换操作
摘要: reduceByKey() groupByKey() 对具有相同键的值进行分组 package com.zwq import org.apache.spark.{SparkConf, SparkContext} object PairsRDD extends App { val conf = new
阅读全文
posted @ 2020-03-10 17:22 中年程序
阅读(343)
评论(0)
推荐(0)
Spark编程--WordCount
摘要: package com.zwq import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf(
阅读全文
posted @ 2020-03-10 16:19 中年程序
阅读(165)
评论(0)
推荐(0)
Spark编程--分区
摘要: 分区 分区的作用和原则 分区第一个作用增加程序的并行度实现分布式计算 分区第二个作用减少通信开销 spark.default.parallelism Local模式 默认为本地机器的CPU 数目 Apache Mesos模式 没有设置时,默认分区数目为8 Standalone模式和YARN模式 规则
阅读全文
posted @ 2020-03-10 14:20 中年程序
阅读(269)
评论(0)
推荐(0)
公告