随笔分类 - 大数据
摘要:at-most-once(可能少读) ack=0 发送不管接收成功与否 at-least-once(可能重复读)ack=-1 主从分区都接收成功事务才成功 exactly-once (正好)= at-least-once+幂等性 ack=1 主分区接收成功事务就成功
阅读全文
摘要:1、将group by字段加hash随机字符串,再分组,这样聚合一部分相同的,再将结果group by (去掉hash字符串的字段)这时数据量就小了。 2、两个不同字段分组,再将一个字段分组,这样两次聚合,分担了后数据量就不大了
阅读全文
摘要:度量为两个时排序规则为按第一个排序,第一个大小相同时才按第二个选。
阅读全文
摘要:foreachRDD的作用是把DStream转换为rdd,真正的foreach是rdd.foreach,这里是要用rdd的foreachpartition算子,可以提高性能。 DStream的tranform可以在内部使用RDD的算子,并且不会立即执行,因为其不是action算子。
阅读全文
摘要:term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词,所以我们的搜索词必须是文档分词集合中的一个。
阅读全文
摘要:put 是幂等性的 post 是非幂等性的 二者都是提交,post提交多次total累加,put总数不变,版本累加
阅读全文
摘要:DSL全称 Domain Specific language,即特定领域专用语言。 GET movie_index/movie/1 GET 库/表(即将滤掉)/id
阅读全文
摘要:正排索引:在搜索栏输入id查词条 (已知id) 倒排索引:将搜索框中的词进行搜索查到哪些id包含这个词,在查这些id,找到词条 (通过分词查出id)
阅读全文
摘要:<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE mapper SYSTEM "http://mybatis.org/dtd/mybatis-3-mapper.dtd" >
阅读全文
摘要:50070:HDFSwebUI的端口号 8485:journalnode默认的端口号 9000:非高可用访问数rpc端口 8020:高可用访问数据rpc 8088:yarn的webUI的端口号 8080:master的webUI,Tomcat的端口号 7077:spark基于standalone的提
阅读全文
摘要:加在方法上,用于提示调用该方法时产生的异常,调用该方法时该解决异常或抛出(注解)
阅读全文
摘要:def f1(a:Int)={ def f2(b:Int)={ a + b } f2 _ } // 在调用时,f1函数执行完毕后,局部变量a应该随着栈空间释放掉 val f = f1(1) val f2 = f(6) //执行完f1()才会返回f2(),但是当f2()执行时f1()执行完了,但是a由
阅读全文
摘要:Scala的递归返回参数要自己写,因为他看最后一行代码可能陷进死循环里,退出条件不在一行,所以返回类型要自己确定
阅读全文
摘要:如果over() 则开窗的聚合函数统计的所有行 如果over(partition by xx order by xx) 时,开窗的聚合函数统计的是相同partition by 后的字段按照order by 后的字段排序后区内行首到当前行,及相当于默认over(partition by xx orde
阅读全文
摘要:`` :反引号,获取执行命令的结果 打印日期: echo `date` --》 输出 2017年12月 8日 星期五 11时59分48秒 CST '' : 去掉 所有符号的特殊含义。 "" : 不去掉符号的特殊含义。
阅读全文
摘要:“ssh 主机名 命令” 时 每执行一条登陆+命令时不会加载环境变量,需要手动source
阅读全文
摘要:delete.deleteColumns是删除某个列簇里的所有时间戳版本 但是删除不了自己加入的时间戳
阅读全文
摘要:通常一个分区由一个消费者消费,或者说由一个组中的一个消费。 有一种情况,分区数多,且只有一个消费者时,分组的话,消息会被组中唯一一个消费者线性消费,不会发生争抢。因为消息能被组中一个消费者线性消费。 不分组的话会消息都会被消费者拉过去。
阅读全文

浙公网安备 33010602011771号