随笔分类 -  数据开发

摘要:集合 集合文档: https://docs.scala lang.org/zh cn/overviews/collections/introduction.html JAVA和SCALA容器的转换:https://docs.scala lang.org/zh cn/overviews/collect 阅读全文
posted @ 2020-01-17 15:17 畑鹿驚 阅读(129) 评论(1) 推荐(0)
摘要:InfluxDB是一个当下比较流行的时序数据库,InfluxDB使用 Go 语言编写,无需外部依赖,安装配置非常方便,适合构建大型分布式系统的监控系统。 1 下载安装 2 配置 查看当前配置 "设置密码" Enable authentication by setting the auth enabl 阅读全文
posted @ 2019-12-18 10:57 畑鹿驚 阅读(1117) 评论(0) 推荐(0)
摘要:1 传统的Uv实时统计方法以及其缺点 给定时间段条件下,实时统计Uv就是统计不重复的访客数。 最简单的方法就是把用户唯一id存储到集合中,每次有新访客,就把向集合新增元素。 但是当数据量千万级别的时候,无论是内存中,还是redis等外部系统中,集合新增元素的效率都很低。 2 HyperLoglog 阅读全文
posted @ 2019-01-26 22:57 畑鹿驚 阅读(2255) 评论(0) 推荐(0)
摘要:1 依赖项 java ssh 2 安装和配置 这里使用2.9.1版本:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 2.1 单机版配置 默认情况下Hadoop就是起一个java进程来运行单机版的,到这里可以使用单机版了,不需要额外的配置。 官 阅读全文
posted @ 2018-11-18 20:39 畑鹿驚 阅读(412) 评论(0) 推荐(0)
摘要:1 准备 系统环境 cat /etc/centos-release CentOS Linux release 7.3.1611 (Core) 配置jdk8 wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http% 阅读全文
posted @ 2018-09-02 18:30 畑鹿驚 阅读(1158) 评论(0) 推荐(0)