摘要:从2014年8月开始在博客园写博客,~~至今已经积累了82篇~~,集中在机器学习、NLP、数据结构与算法、大数据、编程语言等方面。在此做个总结,以后还会陆续更新…… 1. 机器学习 【十大经典数据挖掘算法】系列: 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori 阅读全文
posted @ 2017-03-22 08:52 Treant 阅读 (1961) 评论 (4) 编辑
摘要:1. 介绍 "thulac4j" 是THULAC的Java 8工程化实现,具有分词速度快、准、强的特点;支持 自定义词典 繁体转简体 停用词过滤 若想在项目中使用thulac4j,可添加依赖: thulac4j支持中文分词与词性标注,使用示例如下: 模型数据较大,没有放在jar包与源码。训练模型下载 阅读全文
posted @ 2017-03-09 17:04 Treant 阅读 (3921) 评论 (10) 编辑
摘要:1. 算法 多标签分类的适用场景较为常见,比如,一份歌单可能既属于标签旅行也属于标签驾车。有别于多分类分类,多标签分类中每个标签不是互斥的。多标签分类算法大概有两类流派: 采用One vs Rest(或其他方法)组合多个二分类基分类器; 改造经典的单分类器,比如,AdaBoost MH与ML KNN 阅读全文
posted @ 2018-10-17 17:29 Treant 阅读 (2993) 评论 (0) 编辑
该文被密码保护。
posted @ 2018-07-15 23:14 Treant 阅读 (168) 评论 (0) 编辑
摘要:1. 基于统计的异常检测 Grubbs' Test "Grubbs' Test" 为一种假设检验的方法,常被用来检验服从正太分布的单变量数据集(univariate data set)$Y$ 中的单个异常值。若有异常值,则其必为数据集中的最大值或最小值。原假设与备择假设如下: $H_0$: 数据集中 阅读全文
posted @ 2018-06-20 10:48 Treant 阅读 (7740) 评论 (2) 编辑
摘要:"LTP" 是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。 【开源中文分词工具探析】系列: 1. "开源中文分词工具探析(一):ICTCLAS (NLPIR)" 2. "开源中文分词工具探析(二):Jieba" 3. " 阅读全文
posted @ 2018-06-11 16:52 Treant 阅读 (2833) 评论 (1) 编辑
摘要:"CoreNLP" 是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part of speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。 【开源中文分词工具探析 阅读全文
posted @ 2018-02-07 21:24 Treant 阅读 (9857) 评论 (0) 编辑
摘要:所谓排列,是指从给定的元素序列中依次取出元素,需要考虑取出顺序。比如,取出元素3, 5,因取出顺序的不同,则形成的序列{3, 5}与{5, 3}是不同的排列序列。对于长度为n的元素序列取出k个元素,则共有A(n, k)种取法。所谓组合,也是从元素序列中依次取出元素,与排列不同的是不需要考虑取出顺序; 阅读全文
posted @ 2017-09-12 20:29 Treant 阅读 (1199) 评论 (0) 编辑
摘要:1. 详解 STL (Seasonal Trend decomposition procedure based on Loess) "1] 为时序分解中一种常见的算法,基于[LOESS" 将某时刻的数据$Y_v$分解为趋势分量(trend component)、周期分量(seasonal compo 阅读全文
posted @ 2017-08-18 16:15 Treant 阅读 (11929) 评论 (6) 编辑
摘要:1. LOWESS 用kNN做平均回归: $$ \hat{f(x)} = Ave(y_i | x_i \in N_k(x)) $$ 其中,$N_k(x)$为距离点x最近k个点组成的邻域集合(neighborhood set)。这种邻域平均回归存在很多缺点: 没有考虑到不同距离的邻近点应有不同的权重; 阅读全文
posted @ 2017-08-17 17:26 Treant 阅读 (2334) 评论 (1) 编辑
摘要:iForest (Isolation Forest)是由Liu et al. [1] 提出来的基于二叉树的ensemble异常检测算法,具有效果好、训练快(线性复杂度)等特点。 1. 前言 iForest为聚类算法,不需要标记数据训练。首先给出几个定义: 划分(partition)指样本空间一分为二 阅读全文
posted @ 2017-08-09 22:06 Treant 阅读 (757) 评论 (0) 编辑
摘要:文章标题借用了Hawstein的译文《 "动态规划:从新手到专家" 》。 1. 概述 动态规划( Dynamic Programming, DP)是最优化问题的一种解决方法,本质上状态空间的状态转移。所谓状态转移是指每个阶段的最优状态(对应于子问题的解)可以从之前的某一个或几个阶段的状态中得到,这个 阅读全文
posted @ 2017-07-29 20:11 Treant 阅读 (7158) 评论 (1) 编辑
摘要:1. 问题 Kaggle上有一个图像分类比赛 "Digit Recognizer" ,数据集是大名鼎鼎的 "MNIST" ——图片是已分割 (image segmented)过的28 28的灰度图,手写数字部分对应的是0~255的灰度值,背景部分为0。 手写数字图片是长这样的: 手写数字识别可以看做 阅读全文
posted @ 2017-06-17 15:52 Treant 阅读 (1975) 评论 (0) 编辑
摘要:1. 相关性度量 为了定量的描述线性相关性,统计学奠基人K. Pearson提出了Pearson相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛,它们既有联系又有不同,分 阅读全文
posted @ 2017-06-09 11:58 Treant 阅读 (939) 评论 (0) 编辑
摘要:GBDT (Gradient Boosting Decision Tree)属于集成学习中的Boosting流派,迭代地训练基学习器 (base learner),当前基学习器依赖于上一轮基学习器的学习结果。 不同于 "AdaBoost" 自适应地调整样本的权值分布,GBDT是通过不断地拟合残差 ( 阅读全文
posted @ 2017-06-01 14:21 Treant 阅读 (1931) 评论 (1) 编辑
摘要:1. 问题 今天来看一个回归问题——Kaggle竞赛 "Bike Sharing Demand" ,根据日期时间、天气、温度等特征,预测自行车的租借量。训练与测试数据集大概长这样: 观察上面的数据,我们可以发现:租借量等于注册用户租借量加上未注册用户租借量,即 + 。评价指标是loss函数RMSLE 阅读全文
posted @ 2017-05-26 11:58 Treant 阅读 (1854) 评论 (0) 编辑
摘要:为了记录在竞赛中入门深度学习的过程,我开了一个新系列【从传统方法到深度学习】。 1. 问题 Kaggle竞赛 "Bag of Words Meets Bags of Popcorn" 是电影评论(review)的情感分析,可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样: 评价指标是AU 阅读全文
posted @ 2017-05-24 16:54 Treant 阅读 (3856) 评论 (0) 编辑
该文被密码保护。
posted @ 2017-04-17 16:56 Treant 阅读 (1013) 评论 (1) 编辑
摘要:1. 什么是新词 现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如: 快的打车优惠券 英雄联盟怎么不可以打排位 “快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out of vocabulary, O 阅读全文
posted @ 2017-04-12 15:43 Treant 阅读 (4515) 评论 (4) 编辑
摘要:1. 排序 排序(sort)是一种常见的算法,把数据根据特定的顺序进行排列。经典的排序算法如下: 冒泡排序(bubble sort) 插入排序(insertion sort) 选择排序(selection sort) 快速排序(quick sort) 堆排序(heap sort) 归并排序(merg 阅读全文
posted @ 2017-04-10 10:59 Treant 阅读 (1148) 评论 (0) 编辑
摘要:很久以前,我用过 "TFIDF" 做过行业关键词提取。TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息。现在本文将介绍一种考虑了相邻词的语义关系、基于图排序的关键词提取算法TextRank。 1. 介绍 TextRank由Mihalcea与Tarau于EMNLP'04 "1]提出来, 阅读全文
posted @ 2017-03-27 13:06 Treant 阅读 (7712) 评论 (4) 编辑
摘要:从2014年8月开始在博客园写博客,~~至今已经积累了82篇~~,集中在机器学习、NLP、数据结构与算法、大数据、编程语言等方面。在此做个总结,以后还会陆续更新…… 1. 机器学习 【十大经典数据挖掘算法】系列: 1. "C4.5" 2. "K Means" 3. "SVM" 4. "Apriori 阅读全文
posted @ 2017-03-22 08:52 Treant 阅读 (1961) 评论 (4) 编辑