会员
周边
众包
新闻
博问
闪存
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据开发程序猿
做有态度的码农,欢迎各位朋友光临,本博客长期更新,需要学习讨论找工作面试的同学可以加qq群:694117549,交个朋友相互交流。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
20
21
···
28
下一页
2018年11月8日
shell脚本
摘要: 每日一博:今天总结一下shell脚本吧 Shell程序就是放在一个文件中的一系列 Linux命令和实用程序,在执行的时候,通过 Linux系统一个接着一个地解释和执行每个命 令,这和Windows系统下的批处理程序非常相 似。 一、理论知识 1.开头:Shell程序必须以#!/bin/bash来作为
阅读全文
posted @ 2018-11-08 23:16 stone1234567890
阅读(232)
评论(0)
推荐(0)
2018年11月7日
数据分析学习笔记(1):工作环境以及建模理论基础
摘要: 零、Python语言基础复习 一、环境部署 1.python包管理: (1)安装:pip install xxx,conda install xxx (2)卸载:pip uninstall xxx, conda uninstall xxx (3)升级:pip install -upgrade xxx
阅读全文
posted @ 2018-11-07 07:56 stone1234567890
阅读(421)
评论(0)
推荐(0)
2018年11月6日
spark复习笔记(7):sparkstreaming
摘要: 一、介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取。并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和windo
阅读全文
posted @ 2018-11-06 18:01 stone1234567890
阅读(261)
评论(0)
推荐(0)
2018年11月5日
mybatis复习笔记(1):
摘要: 一、简介:什么是MyBatis 1.MyBatis是一款优秀的持久层框架,支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集。MyBatis可以使用简单的XML或者注解来配置和映射原生信息,将接口和Java的POJOs映射成数据库中的记录
阅读全文
posted @ 2018-11-05 21:28 stone1234567890
阅读(230)
评论(0)
推荐(0)
spark复习笔记(7):sparkSQL
摘要: 一、saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过程 该模块能在spark上运行sql语句 3.DataFrame //数据框,表 在spark中的数据框
阅读全文
posted @ 2018-11-05 18:27 stone1234567890
阅读(390)
评论(0)
推荐(0)
2018年11月3日
spark复习笔记(6):RDD持久化
摘要: 在spark中最重要的功能之一是跨操作在内存中持久化数据集。当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的每个分区都会保存到内存中,这使得将来的action更加的快。 缓存技术是迭代算法和交互式查询的重要工
阅读全文
posted @ 2018-11-03 21:13 stone1234567890
阅读(326)
评论(0)
推荐(0)
2018年11月2日
spark复习笔记(6):数据倾斜
摘要: 一、数据倾斜 spark数据倾斜,map阶段对key进行重新划分。大量的数据在经过hash计算之后,进入到相同的分区中,zao
阅读全文
posted @ 2018-11-02 22:21 stone1234567890
阅读(146)
评论(0)
推荐(0)
2018年11月1日
spark复习笔记(4):RDD变换
摘要: 一、RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系。每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发工作创建和执行。 2.map()是对每个元素进行变换,应用变换函数,返回的是一个新的分布式数据集,m
阅读全文
posted @ 2018-11-01 22:41 stone1234567890
阅读(422)
评论(0)
推荐(0)
spark复习笔记(5):API分析
摘要: 0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度。 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎,
阅读全文
posted @ 2018-11-01 19:25 stone1234567890
阅读(255)
评论(0)
推荐(0)
spark复习笔记(4):spark脚本分析
摘要: 1.[start-all.sh] 2.[start-master.sh]
阅读全文
posted @ 2018-11-01 14:48 stone1234567890
阅读(170)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
20
21
···
28
下一页
公告