上一页 1 ··· 55 56 57 58 59
摘要: spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a differ 阅读全文
posted @ 2018-12-23 10:40 wqbin 阅读(1538) 评论(0) 推荐(0) 编辑
摘要: Resilient Distributed dataset , 弹性分布式数据集。 分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。 RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。 RDD必须是 阅读全文
posted @ 2018-12-13 09:18 wqbin 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 问题在哪呢?好久没没有出现类似问题了 解决方案: 之前zookeeper 是可以正常启动的,今天启动zookeeper时报如上错误。经过测试发现: 只要在~/zookeeper/data/ 下删除文件夹version 2 : rm rf version 2 然后就可以正常启动zookeeper了。 阅读全文
posted @ 2018-12-13 08:48 wqbin 阅读(650) 评论(0) 推荐(0) 编辑
摘要: str 1 格式化输出 %法 第一种 %s+tuple %d+tuple 第二种 %(name)+dict note在格式化输出中单纯的显示% 用%% 解决 {}+format 三种用法 第一种用法:{}+ format +() 第二种用法:{num}+format+() 第三种 键值对:{name 阅读全文
posted @ 2018-10-18 20:50 wqbin 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 创建型 抽象工厂模式 http://www.cnblogs.com/java my life/archive/2012/03/28/2418836.html 工厂方法 http://www.cnblogs.com/java my life/archive/2012/03/25/2416227.htm 阅读全文
posted @ 2018-10-13 16:09 wqbin 阅读(168) 评论(0) 推荐(0) 编辑
摘要: spark job spark job提交 三级调度框架, DagSch,计算stage,提交阶段,将stage映射成taskset,提交taskset给tasksch。 TaskSch BackendSch setMaster("local[n]") n表示使用n个线程模拟的spark集群下的wo 阅读全文
posted @ 2018-10-12 20:41 wqbin 阅读(345) 评论(0) 推荐(0) 编辑
摘要: Spark集群 0.0体验安装Spark在集群单节点 1.tar tar xzvf xxx.tgz C /soft/ ln s /soft/spark 2.1.0 bin hadoop2.7 /soft/spark 2.配置环境变量 SPARK_HOME=/soft/spark PATH=$SPAR 阅读全文
posted @ 2018-10-12 19:53 wqbin 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 第一范式(1NF) (必须有主键,列不可分) 数据库表中的任何字段都是单一属性的,不可再分 create table aa(id int,NameAge varchar(100)) insert aa values(1,''无限 女 '') 没有达到第一范式 create table aa(id i 阅读全文
posted @ 2018-10-12 12:56 wqbin 阅读(562) 评论(0) 推荐(0) 编辑
上一页 1 ··· 55 56 57 58 59