共5页: 上一页 1 2 3 4 5 下一页 
摘要: 在提出基于滑动窗口的LZ77算法后,两位大神Jacob Ziv与Abraham Lempel于1978年在发表的论文 [1]中提出了LZ78算法;与LZ77算法不同的是LZ78算法使用动态树状词典维护历史字符串。 "【数据压缩】LZ77算法原理及实现" "【数据压缩】LZ78算法原理及实现" 1. 阅读全文
posted @ 2017-01-13 16:37 Treant 阅读(538) 评论(0) 编辑
摘要: "Ansj" 是由孙健(ansjsun)开源的一个中文分词器,为 "ICTLAS的Java版本" ,也采用了Bigram + HMM分词模型(可参考我之前写的 "文章" ):在Bigram分词的基础上,识别未登录词,以提高分词准确度。虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的阅读全文
posted @ 2017-01-11 19:21 Treant 阅读(1207) 评论(0) 编辑
摘要: 双数组Trie树(Double array Trie, DAT)是由三个日本人提出的一种Trie树的高效实现 [1],兼顾了查询效率与空间存储。Ansj便是用DAT(虽然作者宣称是三数组Trie树,但本质上还是DAT)构造词典用作初次分词,极大地节省了内存占用。本文将简要地介绍DAT,并实现了基于D阅读全文
posted @ 2017-01-09 14:49 Treant 阅读(1551) 评论(0) 编辑
摘要: 【开源中文分词工具探析】系列: 1. "中文分词工具探析(一):ICTCLAS (NLPIR)" 2. "中文分词工具探析(二):Jieba" 3. "中文分词工具探析(三):Ansj" 4. "开源中文分词工具探析(四):THULAC" 5. "开源中文分词工具探析(五):FNLP" 1. 前言 阅读全文
posted @ 2016-12-29 18:08 Treant 阅读(1045) 评论(0) 编辑
摘要: 【开源中文分词工具探析】系列: 1. "中文分词工具探析(一):ICTCLAS (NLPIR)" 2. "中文分词工具探析(二):Jieba" 3. "中文分词工具探析(三):Ansj" 4. "开源中文分词工具探析(四):THULAC" 5. "开源中文分词工具探析(五):FNLP" 1. 前言 阅读全文
posted @ 2016-12-27 11:05 Treant 阅读(1796) 评论(2) 编辑
摘要: 之前介绍的 "MMEM" 存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二作与三作同时也是MEMM的作者。 1. 前言 本节将遵从tutorial [2] 的论文结构阅读全文
posted @ 2016-12-23 11:04 Treant 阅读(1656) 评论(0) 编辑
摘要: Xue & Shen '2003 "2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词;看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非ME阅读全文
posted @ 2016-12-20 11:17 Treant 阅读(894) 评论(0) 编辑
摘要: 在 "前一篇" 中介绍了用HMM做中文分词,对于未登录词(out of vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(cont阅读全文
posted @ 2016-12-15 15:43 Treant 阅读(677) 评论(6) 编辑
摘要: Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。 1. HMM 首先,我们将简要地介绍HMM(主要参考了李航阅读全文
posted @ 2016-12-12 13:37 Treant 阅读(1128) 评论(0) 编辑
摘要: CRUD(Create, Retrieve, Update, Delete)是数据库系统的四种基本操作,分别表示创建、查询、更改、删除,俗称“增删改查”。Elasticsearch作为NoSQL数据库(虽然ES是为搜索引擎而生的,但我更愿意将其看作带有强大文本搜索功能的NoSQL)。 以下说明基于E阅读全文
posted @ 2016-12-08 09:02 Treant 阅读(1595) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 我特地把PageRank作为【十大阅读全文
posted @ 2016-12-02 10:40 Treant 阅读(1411) 评论(2) 编辑
摘要: 1. 引言 Airflow是 "Airbnb" 开源的一个用Python写就的工作流管理平台(workflow management platform)。在 "前一篇文章" 中,介绍了如何用Crontab管理数据流,但是缺点也是显而易见。针对于Crontab的缺点,灵活可扩展的Airflow具有以下阅读全文
posted @ 2016-11-30 19:16 Treant 阅读(998) 评论(0) 编辑
摘要: 1. 引言 众所周知,Oozie( "1" , "2" )是基于时间条件与数据生成来做工作流调度的,但是Oozie的数据触发条件只支持HDFS路径,故而面临着这样的问题: 无法判断Hive partition是否已存在; 无法判断Elasticsearch index是否已写入完成; ... 因此,阅读全文
posted @ 2016-11-24 09:21 Treant 阅读(721) 评论(0) 编辑
摘要: 1. 引言 什么是规则引擎 一个业务规则包含一组条件和在此条件下执行的操作,它们表示业务规则应用程序的一段业务逻辑。业务规则通常应该由业务分析人员和策略管理者开发和修改,但有些复杂的业务规则也可以由技术人员使用面向对象的技术语言或脚本来定制。业务规则的理论基础是:设置一个或多个条件,当满足这些条件时阅读全文
posted @ 2016-11-21 17:55 Treant 阅读(719) 评论(0) 编辑
摘要: MySQL的数据类型主要分为三大类: 1. 数值型(Numeric Type) 2. 日期与时间型(Date and Time Type) 3. 字符串类型(String Type) 1. 数值 MySQL的数值类型按照精确程度,大致可以分为两类: 精确数值(Exact Value),包括INTEG阅读全文
posted @ 2016-11-16 17:16 Treant 阅读(324) 评论(1) 编辑
摘要: 1. 背景 在构建精准用户画像时,面临着这样一个问题:日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。因此,为了做用户标签的整合,用户ID之间的强打通(亦称为ID Mapping)成了迫切的需求。大概三年前,在知乎上有这样一个与之相类似的阅读全文
posted @ 2016-11-13 10:24 Treant 阅读(678) 评论(5) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 极大似然 极大似然(Maxi阅读全文
posted @ 2016-10-24 19:12 Treant 阅读(1736) 评论(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" 1. 集成学习 集成学习(ense阅读全文
posted @ 2016-10-18 18:12 Treant 阅读(1925) 评论(1) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori" 5. "EM" 6. "PageRank" 7. "AdaBoost" 8. "kNN" 9. "Naïve Bayes" 10. "CART" SVM(Support Vecto阅读全文
posted @ 2016-10-15 21:59 Treant 阅读(3228) 评论(0) 编辑
摘要: 1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(1555) 评论(0) 编辑
共5页: 上一页 1 2 3 4 5 下一页