共5页: 上一页 1 2 3 4 5 下一页 
摘要: 之前介绍的 "MMEM" 存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二作与三作同时也是MEMM的作者。 1. 前言 本节将遵从tutorial [2] 的论文结构阅读全文
posted @ 2016-12-23 11:04 Treant 阅读(883) 评论(0) 编辑
摘要: Xue & Shen '2003 "2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词;看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非ME阅读全文
posted @ 2016-12-20 11:17 Treant 阅读(669) 评论(0) 编辑
摘要: 在 "前一篇" 中介绍了用HMM做中文分词,对于未登录词(out of vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(cont阅读全文
posted @ 2016-12-15 15:43 Treant 阅读(495) 评论(6) 编辑
摘要: Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。 1. HMM 首先,我们将简要地介绍HMM(主要参考了李航阅读全文
posted @ 2016-12-12 13:37 Treant 阅读(752) 评论(0) 编辑
摘要: CRUD(Create, Retrieve, Update, Delete)是数据库系统的四种基本操作,分别表示创建、查询、更改、删除,俗称“增删改查”。Elasticsearch作为NoSQL数据库(虽然ES是为搜索引擎而生的,但我更愿意将其看作带有强大文本搜索功能的NoSQL)。 以下说明基于E阅读全文
posted @ 2016-12-08 09:02 Treant 阅读(1154) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 我特地把PageRank作为【十大阅读全文
posted @ 2016-12-02 10:40 Treant 阅读(985) 评论(2) 编辑
摘要: 1. 引言 Airflow是 "Airbnb" 开源的一个用Python写就的工作流管理平台(workflow management platform)。在 "前一篇文章" 中,介绍了如何用Crontab管理数据流,但是缺点也是显而易见。针对于Crontab的缺点,灵活可扩展的Airflow具有以下阅读全文
posted @ 2016-11-30 19:16 Treant 阅读(786) 评论(0) 编辑
摘要: 1. 引言 众所周知,Oozie( "1" , "2" )是基于时间条件与数据生成来做工作流调度的,但是Oozie的数据触发条件只支持HDFS路径,故而面临着这样的问题: 无法判断Hive partition是否已存在; 无法判断Elasticsearch index是否已写入完成; ... 因此,阅读全文
posted @ 2016-11-24 09:21 Treant 阅读(671) 评论(0) 编辑
摘要: 1. 引言 什么是规则引擎 一个业务规则包含一组条件和在此条件下执行的操作,它们表示业务规则应用程序的一段业务逻辑。业务规则通常应该由业务分析人员和策略管理者开发和修改,但有些复杂的业务规则也可以由技术人员使用面向对象的技术语言或脚本来定制。业务规则的理论基础是:设置一个或多个条件,当满足这些条件时阅读全文
posted @ 2016-11-21 17:55 Treant 阅读(528) 评论(0) 编辑
摘要: MySQL的数据类型主要分为三大类: 1. 数值型(Numeric Type) 2. 日期与时间型(Date and Time Type) 3. 字符串类型(String Type) 1. 数值 MySQL的数值类型按照精确程度,大致可以分为两类: 精确数值(Exact Value),包括INTEG阅读全文
posted @ 2016-11-16 17:16 Treant 阅读(284) 评论(1) 编辑
摘要: 1. 背景 在构建精准用户画像时,面临着这样一个问题:日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。因此,为了做用户标签的整合,用户ID之间的强打通(亦称为ID Mapping)成了迫切的需求。大概三年前,在知乎上有这样一个与之相类似的阅读全文
posted @ 2016-11-13 10:24 Treant 阅读(525) 评论(2) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 极大似然 极大似然(Maxi阅读全文
posted @ 2016-10-24 19:12 Treant 阅读(1154) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 集成学习 集成学习(ense阅读全文
posted @ 2016-10-18 18:12 Treant 阅读(1300) 评论(1) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" SVM(Support Vecto阅读全文
posted @ 2016-10-15 21:59 Treant 阅读(2026) 评论(0) 编辑
摘要: 1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(1196) 评论(0) 编辑
摘要: 看了《 "从数据角度解析福州美食" 》后难免心痒,动了要分析合肥餐饮业的念头,因此特地写了 "Node.js爬虫" 爬取了合肥的大众点评数据。分析数据库我并没有采用MySQL而是用的MongoDB,是因为爬取的数据存在字段缺失的情况(schema不一致)。 1. 数据准备 MongoDB简介 不同于阅读全文
posted @ 2016-09-23 19:09 Treant 阅读(804) 评论(3) 编辑
摘要: 大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。 1. API分析 大众点评开放了查询商家信息的API, "这里" 给出了城市与cityid之间的对应关系,链接 以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义: start为步进数,表示分步获取信息的ind阅读全文
posted @ 2016-09-22 10:15 Treant 阅读(1306) 评论(8) 编辑
摘要: Bloom Filter一般用于数据的去重计算,近似于HashSet的功能;但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况。 1. 基本原理 Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,..阅读全文
posted @ 2016-09-18 16:13 Treant 阅读(392) 评论(0) 编辑
摘要: 最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美阅读全文
posted @ 2016-09-14 15:04 Treant 阅读(1366) 评论(0) 编辑
摘要: 1. TF IDF简介 TF IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词$w$对于查询(Query,可看作文档)所能提供的信息。 词频 (Term Frequency, TF)表示关键词$w阅读全文
posted @ 2016-09-07 10:46 Treant 阅读(902) 评论(0) 编辑
共5页: 上一页 1 2 3 4 5 下一页