共4页: 上一页 1 2 3 4 下一页 
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" SVM(Support Vecto阅读全文
posted @ 2016-10-15 21:59 Treant 阅读(470) 评论(0) 编辑
摘要: 1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(707) 评论(0) 编辑
摘要: 看了《 "从数据角度解析福州美食" 》后难免心痒,动了要分析合肥餐饮业的念头,因此特地写了 "Node.js爬虫" 爬取了合肥的大众点评数据。分析数据库我并没有采用MySQL而是用的MongoDB,是因为爬取的数据存在字段缺失的情况(schema不一致)。 1. 数据准备 MongoDB简介 不同于阅读全文
posted @ 2016-09-23 19:09 Treant 阅读(707) 评论(3) 编辑
摘要: 大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。 1. API分析 大众点评开放了查询商家信息的API, "这里" 给出了城市与cityid之间的对应关系,链接 以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义: start为步进数,表示分步获取信息的ind阅读全文
posted @ 2016-09-22 10:15 Treant 阅读(1102) 评论(8) 编辑
摘要: Bloom Filter一般用于数据的去重计算,近似于HashSet的功能;但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况。 1. 基本原理 Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,..阅读全文
posted @ 2016-09-18 16:13 Treant 阅读(257) 评论(0) 编辑
摘要: 最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美阅读全文
posted @ 2016-09-14 15:04 Treant 阅读(792) 评论(0) 编辑
摘要: 1. TF IDF简介 TF IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词$w$对于查询(Query,可看作文档)所能提供的信息。 词频 (Term Frequency, TF)表示关键词$w阅读全文
posted @ 2016-09-07 10:46 Treant 阅读(559) 评论(0) 编辑
摘要: 1. 引言 电商类的网站(比如:京东)为了便于用户浏览商品,建立了一套类目体系,对商品进行各种粗细粒度的划分;如下图: 类似地,用户画像的标签体系也划分多层级的结构。在做标签洞察时,需要将这种带有层级的体系序列化json,提供给前端。但是,标签体系是存储在MySQL数据库中,为平铺化的表结构,如何将阅读全文
posted @ 2016-08-30 20:15 Treant 阅读(179) 评论(0) 编辑
摘要: 1. 引言 从安卓手机收集上来的机型大都为这样: mi|5 mi|4c mi 4c 2014022 kiw al10 nem tl00h 收集的机型大都杂乱无章,不便于做统计分析。因此,标注显得尤为重要。 "中关村在线" 有对国内大部分手机的介绍情况,包括手机机型 及其对应的常见名称 。因而,设计机阅读全文
posted @ 2016-08-09 17:45 Treant 阅读(559) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 关联分析 关联分析是一类非常阅读全文
posted @ 2016-07-29 17:36 Treant 阅读(410) 评论(0) 编辑
摘要: 1. 常见命令 连接本地数据库与远程数据库(172.16.xx.xx:3306): 2. DDL 数据定义语言(Data Definition Lanuage, DDL)定义了数据库模式,包括CREATE、ALTER、DROP、TRUNCATE、COMMENT与RENAME语句。 创建(CREATE阅读全文
posted @ 2016-07-26 09:44 Treant 阅读(446) 评论(1) 编辑
摘要: 1. 引言 "前一篇" 介绍了Pandas实现简单的SQL操作,本篇中将主要介绍一些相对复杂一点的操作。为了方便后面实操,先给出一份简化版的设备统计数据: 其中,第一列表示维度组合编号,第二列表示操作系统类型,第三列为维度值(NLL表示缺失,即第一行、第二行表示操作系统的统计,其余表示厂商或机型),阅读全文
posted @ 2016-07-19 20:10 Treant 阅读(1469) 评论(0) 编辑
摘要: 在项目中,我们常常会遇到排序(或比较)需求,比如:对一个Person类 按name值 逆词典序 、age值升序做排序;在Scala中应如何实现呢? 1. 两个特质 Scala提供两个特质(trait) 与`Ordering`用于比较。其中,Ordered混入(mix)Java的Comparable接阅读全文
posted @ 2016-07-07 18:58 Treant 阅读(587) 评论(0) 编辑
摘要: 1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column阅读全文
posted @ 2016-06-30 18:08 Treant 阅读(5044) 评论(4) 编辑
摘要: 对于给定的大量APP,如何爬取与之对应的(应用市场)分类、描述的信息?且看下面分解。 1. 页面分析 当我们在豌豆荚首页搜索框输入 后,会跳转到搜索结果的页面,其url为 。搜索结果一般是按相关性排序的;所以,我们认为第一条搜索结果为所需要爬取的。紧接着,点进去后会跳转到页面 ,我们会发现豌豆荚的A阅读全文
posted @ 2016-06-24 17:14 Treant 阅读(985) 评论(0) 编辑
摘要: 1. 简介 coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers)。简单点说,coordinator按所定义的时间周期进行轮询,若数据生成条件满足,则触发workflow任务;否则,则等待数据生成或跳过(调度阅读全文
posted @ 2016-06-13 17:23 Treant 阅读(1509) 评论(0) 编辑
摘要: 在分析Avro源码时,发现 "Avro" 为了对int、long类型数据压缩,采用Protocol Buffers的 "ZigZag" 编码(Thrift也采用了ZigZag来压缩整数)。 1. 补码编码 为了便于后面的分析,我们先回顾下几个概念: 原码:最高位为符号位,剩余位表示绝对值; 反码:除阅读全文
posted @ 2016-06-08 16:50 Treant 阅读(476) 评论(0) 编辑
摘要: 1. Oozie简介 Yahoo开发工作流引擎 "Oozie" (驭象者),用于管理Hadoop任务(支持MapReduce、Spark、Pig、Hive),把这些任务以DAG(有向无环图)方式串接起来。Oozie任务流包括:coordinator、workflow;workflow描述任务执行顺序阅读全文
posted @ 2016-05-26 16:20 Treant 阅读(2525) 评论(2) 编辑
摘要: 最近在用Hive做多维数据分析,总结一些常用HiveQL命令。 1. 建表 以纯文本数据建表: 若未指定为外部表(external table),则默认为托管表(managed table)。二者的区别在于load与drop操作:托管表用 加载数据(路径可为本地目录,也可是HDFS目录),该操作会将阅读全文
posted @ 2016-05-20 18:43 Treant 阅读(246) 评论(0) 编辑
摘要: 1. 引言 在 "前一篇" 中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签。所以,为了计算曝光PV,我们得另外创建视图。 分析需求: 每个DSP上的曝光PV,标签覆盖的曝光PV; 累计曝光PV,累计标签覆盖曝光P阅读全文
posted @ 2016-05-05 18:03 Treant 阅读(583) 评论(0) 编辑
共4页: 上一页 1 2 3 4 下一页