2016年4月25日

Word2Vec 使用总结

摘要: word2vec 是google 推出的做词嵌入(word embedding)的开源工具。 简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为"word embedding"。基于这个向量表示,可以计算词与词之间的关系,例如相似性(同义词等),语义关联性(中国 - 北京 = 英国 - 伦敦)等。作为非NLP专业的人,我不在此讲述word embedding的算法原理,本文是对word2vec工具使用过程的整理与总结,方便大家尽快上手。 阅读全文

posted @ 2016-04-25 10:21 leavingseason 阅读(30062) 评论(14) 推荐(6) 编辑

2016年4月22日

用 CNTK 搞深度学习 (一) 入门

摘要: Computational Network Toolkit (CNTK) 是微软出品的开源深度学习工具包。本文介绍CNTK的基本内容,如何写CNTK的网络定义语言,以及跑通一个简单的例子。 阅读全文

posted @ 2016-04-22 00:09 leavingseason 阅读(50352) 评论(4) 推荐(6) 编辑

用CNTK搞深度学习 (二) 训练基于RNN的自然语言模型 ( language model )

摘要: 前一篇文章介绍了用CNTK构建简单前向神经网络的例子。现在假设读者已经懂得了使用CNTK的基本方法。现在我们做一个稍微复杂一点,也是自然语言挖掘中很火的一个模型: 用递归神经网络构建一个语言模型。 阅读全文

posted @ 2016-04-22 00:08 leavingseason 阅读(16220) 评论(0) 推荐(0) 编辑

2016年4月2日

c# 技巧之 泛型方法

摘要: 泛函/泛型 指的是编译时不需要指定具体的参数类型,可以在运行时动态地赋予某一种数据类型的机制。 相信很多人对泛型并不陌生,像Dictionary,List等结构都属于泛型。有趣的是,一个函数也可以泛化。 阅读全文

posted @ 2016-04-02 16:31 leavingseason 阅读(2757) 评论(2) 推荐(1) 编辑

2016年3月31日

地图坐标转换 -- 火星坐标与GPS坐标

摘要: GPS纠偏,火星坐标系介绍。 第一次处理地理位置的数据的人,没什么经验,往往掉入很多坑浪费不少时间。我也是刚刚从坑里爬出来。这篇博文主要是把入门GPS轨迹分析的经验总结一下,以方便大家少走些弯路。 阅读全文

posted @ 2016-03-31 20:04 leavingseason 阅读(48141) 评论(4) 推荐(5) 编辑

2016年3月16日

survival analysis 生存分析与R 语言示例 入门篇

摘要: 生存分析,survival analysis,顾名思义是用来研究个体的存活概率与时间的关系。例如研究病人感染了病毒后,多长时间会死亡;工作的机器多长时间会发生崩溃等。 这里“个体的存活”可以推广抽象成某些关注的事件。 所以SA就成了研究某一事件与它的发生时间的联系的方法。这个方法广泛的用在医学、生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。 R里面有很成熟的SA工具。 本文介绍生存分析的基本概念和一些公式,以及R语言应用示例。 阅读全文

posted @ 2016-03-16 22:17 leavingseason 阅读(39461) 评论(0) 推荐(2) 编辑

2016年1月9日

Self Organizing Maps (SOM): 一种基于神经网络的聚类算法

摘要: 自组织映射神经网络, 即Self Organizing Maps (SOM), 可以对数据进行无监督学习聚类。它的思想很简单,本质上是一种只有输入层--隐藏层的神经网络。隐藏层中的一个节点代表一个需要聚成的类。训练时采用“竞争学习”的方式,每个输入的样例在隐藏层中找到一个和它最匹配的节点,称为它的激活节点,也叫“winning neuron”。 紧接着用随机梯度下降法更新激活节点的参数。同时,和激活节点临近的点也根据它们距离激活节点的远近而适当地更新参数。 阅读全文

posted @ 2016-01-09 19:20 leavingseason 阅读(67143) 评论(3) 推荐(3) 编辑

2015年12月18日

最大似然估计 (MLE) 最大后验概率(MAP)

摘要: 本文回顾最大似然估计,最大后验概率的知识。这是两个概率统计数据挖掘中非常常见的知识点,属于比较容易学的。 阅读全文

posted @ 2015-12-18 19:42 leavingseason 阅读(88986) 评论(11) 推荐(16) 编辑

2015年12月17日

Expectation maximization - EM算法学习总结

摘要: EM算法学习总结。包括推导证明和一个具体GMM实例。 阅读全文

posted @ 2015-12-17 17:25 leavingseason 阅读(21023) 评论(0) 推荐(1) 编辑

2015年12月10日

数据挖掘类竞赛经验总结与分享:人人都可以是赢家

摘要: 数据挖掘竞赛 总结。 今年共参加了3次竞赛。 不同的类型,不同的平台,不同的收获。天池 kaggle 阅读全文

posted @ 2015-12-10 17:46 leavingseason 阅读(16650) 评论(6) 推荐(4) 编辑

导航

Bye!