摘要: 1 传统的Uv实时统计方法以及其缺点 给定时间段条件下,实时统计Uv就是统计不重复的访客数。 最简单的方法就是把用户唯一id存储到集合中,每次有新访客,就把向集合新增元素。 但是当数据量千万级别的时候,无论是内存中,还是redis等外部系统中,集合新增元素的效率都很低。 2 HyperLoglog 阅读全文
posted @ 2019-01-26 22:57 畑鹿驚 阅读(242) 评论(0) 编辑
摘要: 1 依赖项 java ssh 2 安装和配置 这里使用2.9.1版本:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 2.1 单机版配置 默认情况下Hadoop就是起一个java进程来运行单机版的,到这里可以使用单机版了,不需要额外的配置。 官阅读全文
posted @ 2018-11-18 20:39 畑鹿驚 阅读(47) 评论(0) 编辑
摘要: 1 准备 系统环境 配置jdk8 配置spark 从http://spark.apache.org/downloads.html 下载最新版spark预编译包并解压。 2 spark shell sh $ spark shell master local[2] 2018 09 02 16:12:37阅读全文
posted @ 2018-09-02 18:30 畑鹿驚 阅读(185) 评论(0) 编辑
摘要: golang中panic的处理没有其他语言中try catch语法那么简单。 大部分例子的panic处理都是在退出环节。那么如何在正常业务流程中处理panic,然后不影响全局呢? go // 业务处理1,定义myStrcture isDone := make(chan int) go func() 阅读全文
posted @ 2018-08-24 21:42 畑鹿驚 阅读(1631) 评论(0) 编辑
摘要: lxml是一个非常方便的解析工具,首先了解一下lxml在整个爬虫开发流程中的作用。 爬虫可简单可复杂,视爬虫对象、任务不同而不同。我们的目标是用最简单最有效的方法来快速获取想要的信息。 这里给出一个简单例子:爬取 "信用信息公示系统" 中,企业信息详情。 如下图所示: 1 实例 首先确定lxml规则阅读全文
posted @ 2018-05-06 15:36 畑鹿驚 阅读(97) 评论(0) 编辑
摘要: golang http://www.cnblogs.com/golove/p/3269099.html grep http://www.robelle.com/smugbook/regexpr.html阅读全文
posted @ 2018-03-28 00:04 畑鹿驚 阅读(33) 评论(0) 编辑
摘要: 依赖项 http://unix.stackexchange.com/questions/291737/zipimport zipimporterror cant decompress data zlib not available 安装 注意make install完成后不应该出现Ignoring 阅读全文
posted @ 2018-03-21 00:02 畑鹿驚 阅读(744) 评论(0) 编辑
摘要: sed是以行为单位的文本处理工具,awk则以列为单位。 文件都是结构化的,都是有单词和空白字符组成的。 空白字符包括空格、tab以及连续的空格和tab。每个非空白部分叫做域, 表示 全部域, 表示第1个域等等…… 默认以空白字符为分隔符,打印前两列 指定其他分割符,打印前两列 内部变量NF表示每行有阅读全文
posted @ 2017-12-16 21:26 畑鹿驚 阅读(72) 评论(0) 编辑
摘要: 安装 docker加速器 https://cr.console.aliyun.com/ /accelerator sh sudo mkdir p /etc/docker sudo tee /etc/docker/daemon.json阅读全文
posted @ 2017-12-02 22:39 畑鹿驚 阅读(66) 评论(0) 编辑
摘要: JPA(Java Persistence API)是一个基于O/R映射(Object Relational Mapping)的标准规范,主要实现包括Hibernate、EclipseLink和OpenJPA等。 orm框架的本质是简化编程中操作数据库的编码[2],JPA 方便程序员不写sql语句,而阅读全文
posted @ 2017-12-02 22:35 畑鹿驚 阅读(240) 评论(0) 编辑