摘要:1 传统的Uv实时统计方法以及其缺点 给定时间段条件下,实时统计Uv就是统计不重复的访客数。 最简单的方法就是把用户唯一id存储到集合中,每次有新访客,就把向集合新增元素。 但是当数据量千万级别的时候,无论是内存中,还是redis等外部系统中,集合新增元素的效率都很低。 2 HyperLoglog 阅读全文
posted @ 2019-01-26 22:57 畑鹿驚 阅读 (544) 评论 (0) 编辑
摘要:1 依赖项 java ssh 2 安装和配置 这里使用2.9.1版本:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 2.1 单机版配置 默认情况下Hadoop就是起一个java进程来运行单机版的,到这里可以使用单机版了,不需要额外的配置。 官 阅读全文
posted @ 2018-11-18 20:39 畑鹿驚 阅读 (106) 评论 (0) 编辑
摘要:1 准备 系统环境 配置jdk8 配置spark 从http://spark.apache.org/downloads.html 下载最新版spark预编译包并解压。 2 spark shell sh $ spark shell master local[2] 2018 09 02 16:12:37 阅读全文
posted @ 2018-09-02 18:30 畑鹿驚 阅读 (290) 评论 (0) 编辑
摘要:golang中panic的处理没有其他语言中try catch语法那么简单。 大部分例子的panic处理都是在退出环节。那么如何在正常业务流程中处理panic,然后不影响全局呢? go // 业务处理1,定义myStrcture isDone := make(chan int) go func() 阅读全文
posted @ 2018-08-24 21:42 畑鹿驚 阅读 (2228) 评论 (0) 编辑
摘要:lxml是一个非常方便的解析工具,首先了解一下lxml在整个爬虫开发流程中的作用。 爬虫可简单可复杂,视爬虫对象、任务不同而不同。我们的目标是用最简单最有效的方法来快速获取想要的信息。 这里给出一个简单例子:爬取 "信用信息公示系统" 中,企业信息详情。 如下图所示: 1 实例 首先确定lxml规则 阅读全文
posted @ 2018-05-06 15:36 畑鹿驚 阅读 (129) 评论 (0) 编辑
摘要:golang http://www.cnblogs.com/golove/p/3269099.html grep http://www.robelle.com/smugbook/regexpr.html 阅读全文
posted @ 2018-03-28 00:04 畑鹿驚 阅读 (40) 评论 (0) 编辑
摘要:依赖项 http://unix.stackexchange.com/questions/291737/zipimport zipimporterror cant decompress data zlib not available 安装 注意make install完成后不应该出现Ignoring 阅读全文
posted @ 2018-03-21 00:02 畑鹿驚 阅读 (942) 评论 (0) 编辑
摘要:sed是以行为单位的文本处理工具,awk则以列为单位。 文件都是结构化的,都是有单词和空白字符组成的。 空白字符包括空格、tab以及连续的空格和tab。每个非空白部分叫做域, 表示 全部域, 表示第1个域等等…… 默认以空白字符为分隔符,打印前两列 指定其他分割符,打印前两列 内部变量NF表示每行有 阅读全文
posted @ 2017-12-16 21:26 畑鹿驚 阅读 (80) 评论 (0) 编辑
摘要:安装 docker加速器 https://cr.console.aliyun.com/ /accelerator sh sudo mkdir p /etc/docker sudo tee /etc/docker/daemon.json 阅读全文
posted @ 2017-12-02 22:39 畑鹿驚 阅读 (76) 评论 (0) 编辑
摘要:JPA(Java Persistence API)是一个基于O/R映射(Object Relational Mapping)的标准规范,主要实现包括Hibernate、EclipseLink和OpenJPA等。 orm框架的本质是简化编程中操作数据库的编码[2],JPA 方便程序员不写sql语句,而 阅读全文
posted @ 2017-12-02 22:35 畑鹿驚 阅读 (279) 评论 (0) 编辑