随笔分类 - 大数据
摘要:spark支持语言: scala、paython、java 1:2:4 使用spark sql(中间的过滤、筛选) 三种性能一样。 spark 比 mapReduce快 cpu与内存比为1:2,或者1:4 RDD:弹性数据分布集 5个特性 对RDD测操作:1、transformation 2、Act
阅读全文
摘要:数据来源:1、主动获取 2、被动获取 技术选择:1、storm (官方的、淘宝的):过来的数据要及时处理 2、flume :缺陷:处理流数据非常慢,优势:对流可以实施多层过滤 3、kafka :包括了flume的基本功能,对流的处理更快,缺陷:不能加过滤器(解决方案:flume+kafka) 4、s
阅读全文
摘要:语法: 关键字 val(表示:值) 不可变 ex: val a:Int=1 或者 val a=1(会自动识别类型,无基本类与包装类之分) 输出:a:Int=1 关键字var ex: var a:Int=1 输出: a:Int=1 方法(API)定义:def 方法名(参数:类型,...,参数:类型):
阅读全文