共4页: 上一页 1 2 3 4 下一页 
摘要: 1. 引言 众所周知,Oozie( "1" , "2" )是基于时间条件与数据生成来做工作流调度的,但是Oozie的数据触发条件只支持HDFS路径,故而面临着这样的问题: 无法判断Hive partition是否已存在; 无法判断Elasticsearch index是否已写入完成; ... 因此,阅读全文
posted @ 2016-11-24 09:21 Treant 阅读(594) 评论(0) 编辑
摘要: 1. 引言 什么是规则引擎 一个业务规则包含一组条件和在此条件下执行的操作,它们表示业务规则应用程序的一段业务逻辑。业务规则通常应该由业务分析人员和策略管理者开发和修改,但有些复杂的业务规则也可以由技术人员使用面向对象的技术语言或脚本来定制。业务规则的理论基础是:设置一个或多个条件,当满足这些条件时阅读全文
posted @ 2016-11-21 17:55 Treant 阅读(369) 评论(0) 编辑
摘要: MySQL的数据类型主要分为三大类: 1. 数值型(Numeric Type) 2. 日期与时间型(Date and Time Type) 3. 字符串类型(String Type) 1. 数值 MySQL的数值类型按照精确程度,大致可以分为两类: 精确数值(Exact Value),包括INTEG阅读全文
posted @ 2016-11-16 17:16 Treant 阅读(259) 评论(1) 编辑
摘要: 1. 背景 在构建精准用户画像时,面临着这样一个问题:日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。因此,为了做用户标签的整合,用户ID之间的强打通(亦称为ID Mapping)成了迫切的需求。大概三年前,在知乎上有这样一个与之相类似的阅读全文
posted @ 2016-11-13 10:24 Treant 阅读(401) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 极大似然 极大似然(Maxi阅读全文
posted @ 2016-10-24 19:12 Treant 阅读(694) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 集成学习 集成学习(ense阅读全文
posted @ 2016-10-18 18:12 Treant 阅读(776) 评论(1) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" SVM(Support Vecto阅读全文
posted @ 2016-10-15 21:59 Treant 阅读(670) 评论(0) 编辑
摘要: 1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(834) 评论(0) 编辑
摘要: 看了《 "从数据角度解析福州美食" 》后难免心痒,动了要分析合肥餐饮业的念头,因此特地写了 "Node.js爬虫" 爬取了合肥的大众点评数据。分析数据库我并没有采用MySQL而是用的MongoDB,是因为爬取的数据存在字段缺失的情况(schema不一致)。 1. 数据准备 MongoDB简介 不同于阅读全文
posted @ 2016-09-23 19:09 Treant 阅读(742) 评论(3) 编辑
摘要: 大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。 1. API分析 大众点评开放了查询商家信息的API, "这里" 给出了城市与cityid之间的对应关系,链接 以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义: start为步进数,表示分步获取信息的ind阅读全文
posted @ 2016-09-22 10:15 Treant 阅读(1187) 评论(8) 编辑
摘要: Bloom Filter一般用于数据的去重计算,近似于HashSet的功能;但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况。 1. 基本原理 Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,..阅读全文
posted @ 2016-09-18 16:13 Treant 阅读(294) 评论(0) 编辑
摘要: 最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美阅读全文
posted @ 2016-09-14 15:04 Treant 阅读(895) 评论(0) 编辑
摘要: 1. TF IDF简介 TF IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词$w$对于查询(Query,可看作文档)所能提供的信息。 词频 (Term Frequency, TF)表示关键词$w阅读全文
posted @ 2016-09-07 10:46 Treant 阅读(619) 评论(0) 编辑
摘要: 1. 引言 电商类的网站(比如:京东)为了便于用户浏览商品,建立了一套类目体系,对商品进行各种粗细粒度的划分;如下图: 类似地,用户画像的标签体系也划分多层级的结构。在做标签洞察时,需要将这种带有层级的体系序列化json,提供给前端。但是,标签体系是存储在MySQL数据库中,为平铺化的表结构,如何将阅读全文
posted @ 2016-08-30 20:15 Treant 阅读(195) 评论(0) 编辑
摘要: 1. 引言 从安卓手机收集上来的机型大都为这样: mi|5 mi|4c mi 4c 2014022 kiw al10 nem tl00h 收集的机型大都杂乱无章,不便于做统计分析。因此,标注显得尤为重要。 "中关村在线" 有对国内大部分手机的介绍情况,包括手机机型 及其对应的常见名称 。因而,设计机阅读全文
posted @ 2016-08-09 17:45 Treant 阅读(628) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 关联分析 关联分析是一类非常阅读全文
posted @ 2016-07-29 17:36 Treant 阅读(515) 评论(0) 编辑
摘要: 1. 常见命令 连接本地数据库与远程数据库(172.16.xx.xx:3306): 2. DDL 数据定义语言(Data Definition Lanuage, DDL)定义了数据库模式,包括CREATE、ALTER、DROP、TRUNCATE、COMMENT与RENAME语句。 创建(CREATE阅读全文
posted @ 2016-07-26 09:44 Treant 阅读(458) 评论(1) 编辑
摘要: 1. 引言 "前一篇" 介绍了Pandas实现简单的SQL操作,本篇中将主要介绍一些相对复杂一点的操作。为了方便后面实操,先给出一份简化版的设备统计数据: 其中,第一列表示维度组合编号,第二列表示操作系统类型,第三列为维度值(NLL表示缺失,即第一行、第二行表示操作系统的统计,其余表示厂商或机型),阅读全文
posted @ 2016-07-19 20:10 Treant 阅读(1648) 评论(0) 编辑
摘要: 在项目中,我们常常会遇到排序(或比较)需求,比如:对一个Person类 按name值 逆词典序 、age值升序做排序;在Scala中应如何实现呢? 1. 两个特质 Scala提供两个特质(trait) 与`Ordering`用于比较。其中,Ordered混入(mix)Java的Comparable接阅读全文
posted @ 2016-07-07 18:58 Treant 阅读(662) 评论(0) 编辑
摘要: 1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column阅读全文
posted @ 2016-06-30 18:08 Treant 阅读(6208) 评论(4) 编辑
共4页: 上一页 1 2 3 4 下一页