共5页: 上一页 1 2 3 4 5 下一页 
摘要: Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。 1. HMM 首先,我们将简要地介绍HMM(主要参考了李航阅读全文
posted @ 2016-12-12 13:37 Treant 阅读(582) 评论(0) 编辑
摘要: CRUD(Create, Retrieve, Update, Delete)是数据库系统的四种基本操作,分别表示创建、查询、更改、删除,俗称“增删改查”。Elasticsearch作为NoSQL数据库(虽然ES是为搜索引擎而生的,但我更愿意将其看作带有强大文本搜索功能的NoSQL)。 以下说明基于E阅读全文
posted @ 2016-12-08 09:02 Treant 阅读(948) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 我特地把PageRank作为【十大阅读全文
posted @ 2016-12-02 10:40 Treant 阅读(794) 评论(2) 编辑
摘要: 1. 引言 Airflow是 "Airbnb" 开源的一个用Python写就的工作流管理平台(workflow management platform)。在 "前一篇文章" 中,介绍了如何用Crontab管理数据流,但是缺点也是显而易见。针对于Crontab的缺点,灵活可扩展的Airflow具有以下阅读全文
posted @ 2016-11-30 19:16 Treant 阅读(670) 评论(0) 编辑
摘要: 1. 引言 众所周知,Oozie( "1" , "2" )是基于时间条件与数据生成来做工作流调度的,但是Oozie的数据触发条件只支持HDFS路径,故而面临着这样的问题: 无法判断Hive partition是否已存在; 无法判断Elasticsearch index是否已写入完成; ... 因此,阅读全文
posted @ 2016-11-24 09:21 Treant 阅读(629) 评论(0) 编辑
摘要: 1. 引言 什么是规则引擎 一个业务规则包含一组条件和在此条件下执行的操作,它们表示业务规则应用程序的一段业务逻辑。业务规则通常应该由业务分析人员和策略管理者开发和修改,但有些复杂的业务规则也可以由技术人员使用面向对象的技术语言或脚本来定制。业务规则的理论基础是:设置一个或多个条件,当满足这些条件时阅读全文
posted @ 2016-11-21 17:55 Treant 阅读(443) 评论(0) 编辑
摘要: MySQL的数据类型主要分为三大类: 1. 数值型(Numeric Type) 2. 日期与时间型(Date and Time Type) 3. 字符串类型(String Type) 1. 数值 MySQL的数值类型按照精确程度,大致可以分为两类: 精确数值(Exact Value),包括INTEG阅读全文
posted @ 2016-11-16 17:16 Treant 阅读(266) 评论(1) 编辑
摘要: 1. 背景 在构建精准用户画像时,面临着这样一个问题:日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。因此,为了做用户标签的整合,用户ID之间的强打通(亦称为ID Mapping)成了迫切的需求。大概三年前,在知乎上有这样一个与之相类似的阅读全文
posted @ 2016-11-13 10:24 Treant 阅读(470) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 极大似然 极大似然(Maxi阅读全文
posted @ 2016-10-24 19:12 Treant 阅读(918) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 集成学习 集成学习(ense阅读全文
posted @ 2016-10-18 18:12 Treant 阅读(969) 评论(1) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" SVM(Support Vecto阅读全文
posted @ 2016-10-15 21:59 Treant 阅读(1255) 评论(0) 编辑
摘要: 1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(986) 评论(0) 编辑
摘要: 看了《 "从数据角度解析福州美食" 》后难免心痒,动了要分析合肥餐饮业的念头,因此特地写了 "Node.js爬虫" 爬取了合肥的大众点评数据。分析数据库我并没有采用MySQL而是用的MongoDB,是因为爬取的数据存在字段缺失的情况(schema不一致)。 1. 数据准备 MongoDB简介 不同于阅读全文
posted @ 2016-09-23 19:09 Treant 阅读(775) 评论(3) 编辑
摘要: 大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。 1. API分析 大众点评开放了查询商家信息的API, "这里" 给出了城市与cityid之间的对应关系,链接 以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义: start为步进数,表示分步获取信息的ind阅读全文
posted @ 2016-09-22 10:15 Treant 阅读(1236) 评论(8) 编辑
摘要: Bloom Filter一般用于数据的去重计算,近似于HashSet的功能;但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况。 1. 基本原理 Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,..阅读全文
posted @ 2016-09-18 16:13 Treant 阅读(329) 评论(0) 编辑
摘要: 最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美阅读全文
posted @ 2016-09-14 15:04 Treant 阅读(1073) 评论(0) 编辑
摘要: 1. TF IDF简介 TF IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词$w$对于查询(Query,可看作文档)所能提供的信息。 词频 (Term Frequency, TF)表示关键词$w阅读全文
posted @ 2016-09-07 10:46 Treant 阅读(740) 评论(0) 编辑
摘要: 1. 引言 电商类的网站(比如:京东)为了便于用户浏览商品,建立了一套类目体系,对商品进行各种粗细粒度的划分;如下图: 类似地,用户画像的标签体系也划分多层级的结构。在做标签洞察时,需要将这种带有层级的体系序列化json,提供给前端。但是,标签体系是存储在MySQL数据库中,为平铺化的表结构,如何将阅读全文
posted @ 2016-08-30 20:15 Treant 阅读(233) 评论(0) 编辑
摘要: 1. 引言 从安卓手机收集上来的机型大都为这样: mi|5 mi|4c mi 4c 2014022 kiw al10 nem tl00h 收集的机型大都杂乱无章,不便于做统计分析。因此,标注显得尤为重要。 "中关村在线" 有对国内大部分手机的介绍情况,包括手机机型 及其对应的常见名称 。因而,设计机阅读全文
posted @ 2016-08-09 17:45 Treant 阅读(725) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 关联分析 关联分析是一类非常阅读全文
posted @ 2016-07-29 17:36 Treant 阅读(682) 评论(0) 编辑
共5页: 上一页 1 2 3 4 5 下一页