随笔分类 -  大数据

只有注册用户登录后才能阅读该文。
posted @ 2019-11-04 19:07 啊啊啊啊鹏 阅读(7) 评论(0) 推荐(0)
摘要:at-most-once(可能少读) ack=0 发送不管接收成功与否 at-least-once(可能重复读)ack=-1 主从分区都接收成功事务才成功 exactly-once (正好)= at-least-once+幂等性 ack=1 主分区接收成功事务就成功 阅读全文
posted @ 2019-11-04 11:23 啊啊啊啊鹏 阅读(1553) 评论(0) 推荐(0)
摘要:1、将group by字段加hash随机字符串,再分组,这样聚合一部分相同的,再将结果group by (去掉hash字符串的字段)这时数据量就小了。 2、两个不同字段分组,再将一个字段分组,这样两次聚合,分担了后数据量就不大了 阅读全文
posted @ 2019-11-01 11:31 啊啊啊啊鹏 阅读(239) 评论(0) 推荐(0)
摘要:度量为两个时排序规则为按第一个排序,第一个大小相同时才按第二个选。 阅读全文
posted @ 2019-10-31 14:58 啊啊啊啊鹏 阅读(487) 评论(0) 推荐(0)
摘要:foreachRDD的作用是把DStream转换为rdd,真正的foreach是rdd.foreach,这里是要用rdd的foreachpartition算子,可以提高性能。 DStream的tranform可以在内部使用RDD的算子,并且不会立即执行,因为其不是action算子。 阅读全文
posted @ 2019-10-25 20:33 啊啊啊啊鹏 阅读(330) 评论(0) 推荐(0)
摘要:term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词,所以我们的搜索词必须是文档分词集合中的一个。 阅读全文
posted @ 2019-10-24 19:55 啊啊啊啊鹏 阅读(500) 评论(0) 推荐(0)
摘要:put 是幂等性的 post 是非幂等性的 二者都是提交,post提交多次total累加,put总数不变,版本累加 阅读全文
posted @ 2019-10-24 19:09 啊啊啊啊鹏 阅读(611) 评论(0) 推荐(0)
摘要:DSL全称 Domain Specific language,即特定领域专用语言。 GET movie_index/movie/1 GET 库/表(即将滤掉)/id 阅读全文
posted @ 2019-10-24 16:48 啊啊啊啊鹏 阅读(999) 评论(0) 推荐(0)
摘要:正排索引:在搜索栏输入id查词条 (已知id) 倒排索引:将搜索框中的词进行搜索查到哪些id包含这个词,在查这些id,找到词条 (通过分词查出id) 阅读全文
posted @ 2019-10-24 10:55 啊啊啊啊鹏 阅读(3726) 评论(0) 推荐(0)
摘要:<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE mapper SYSTEM "http://mybatis.org/dtd/mybatis-3-mapper.dtd" > 阅读全文
posted @ 2019-10-22 20:12 啊啊啊啊鹏 阅读(132) 评论(0) 推荐(0)
摘要:几率 阅读全文
posted @ 2019-09-28 21:10 啊啊啊啊鹏 阅读(666) 评论(0) 推荐(0)
摘要:50070:HDFSwebUI的端口号 8485:journalnode默认的端口号 9000:非高可用访问数rpc端口 8020:高可用访问数据rpc 8088:yarn的webUI的端口号 8080:master的webUI,Tomcat的端口号 7077:spark基于standalone的提 阅读全文
posted @ 2019-09-27 18:29 啊啊啊啊鹏 阅读(2241) 评论(0) 推荐(1)
摘要:加在方法上,用于提示调用该方法时产生的异常,调用该方法时该解决异常或抛出(注解) 阅读全文
posted @ 2019-09-25 08:54 啊啊啊啊鹏 阅读(1052) 评论(0) 推荐(0)
摘要:def f1(a:Int)={ def f2(b:Int)={ a + b } f2 _ } // 在调用时,f1函数执行完毕后,局部变量a应该随着栈空间释放掉 val f = f1(1) val f2 = f(6) //执行完f1()才会返回f2(),但是当f2()执行时f1()执行完了,但是a由 阅读全文
posted @ 2019-09-24 10:30 啊啊啊啊鹏 阅读(140) 评论(0) 推荐(0)
摘要:Scala的递归返回参数要自己写,因为他看最后一行代码可能陷进死循环里,退出条件不在一行,所以返回类型要自己确定 阅读全文
posted @ 2019-09-18 21:26 啊啊啊啊鹏 阅读(258) 评论(0) 推荐(0)
摘要:如果over() 则开窗的聚合函数统计的所有行 如果over(partition by xx order by xx) 时,开窗的聚合函数统计的是相同partition by 后的字段按照order by 后的字段排序后区内行首到当前行,及相当于默认over(partition by xx orde 阅读全文
posted @ 2019-09-16 16:52 啊啊啊啊鹏 阅读(516) 评论(0) 推荐(0)
摘要:`` :反引号,获取执行命令的结果 打印日期: echo `date` --》 输出 2017年12月 8日 星期五 11时59分48秒 CST '' : 去掉 所有符号的特殊含义。 "" : 不去掉符号的特殊含义。 阅读全文
posted @ 2019-08-28 16:02 啊啊啊啊鹏 阅读(3699) 评论(0) 推荐(0)
摘要:“ssh 主机名 命令” 时 每执行一条登陆+命令时不会加载环境变量,需要手动source 阅读全文
posted @ 2019-08-28 09:24 啊啊啊啊鹏 阅读(611) 评论(0) 推荐(0)
摘要:delete.deleteColumns是删除某个列簇里的所有时间戳版本 但是删除不了自己加入的时间戳 阅读全文
posted @ 2019-08-17 20:44 啊啊啊啊鹏 阅读(316) 评论(0) 推荐(0)
摘要:通常一个分区由一个消费者消费,或者说由一个组中的一个消费。 有一种情况,分区数多,且只有一个消费者时,分组的话,消息会被组中唯一一个消费者线性消费,不会发生争抢。因为消息能被组中一个消费者线性消费。 不分组的话会消息都会被消费者拉过去。 阅读全文
posted @ 2019-08-12 18:37 啊啊啊啊鹏 阅读(2225) 评论(0) 推荐(0)

1 2