文章分类 -  DataMining

数据挖掘、自然语言处理、人工智能
摘要:LFM LFM即隐因子模型,我们可以把隐因子理解为主题模型中的主题、HMM中的隐藏变量。比如一个用户喜欢《推荐系统实践》这本书,背后的原因可能是该用户喜欢推荐系统、或者是喜欢数据挖掘、亦或者是喜欢作者项亮本人等等,假如真的是由于这3个原因导致的,那如果项亮出了另外一本数据挖掘方面的书,我们可以推测该 阅读全文
posted @ 2016-05-23 00:42 张朝阳讲go语言 阅读(22666) 评论(5) 推荐(4)
摘要:先来点预备知识。矩阵的3种运算我们称之为“行初等变换”: 以矩阵实施行初等变换等同于在矩阵左边乘以一个矩阵。 当要求矩阵A的逆时,在A的右边放一个单位矩阵,我们称[A|I]为增广矩阵。对增广矩阵实施行初等变换,即左乘一个矩阵P,如果使得P[A|I]=[PA|P]=[I|P],则P就是$A^{-1}$ 阅读全文
posted @ 2016-05-08 21:16 张朝阳讲go语言 阅读(14287) 评论(1) 推荐(0)
摘要:上面的二部图表示user A对item a和c感兴趣,B对a b c d都感兴趣,C对c和d感兴趣。本文假设每条边代表的感兴趣程度是一样的。 现在我们要为user A推荐item,实际上就是计算A对所有item的感兴趣程度。在personal rank算法中不区分user节点和item节点,这样一来 阅读全文
posted @ 2016-05-08 16:22 张朝阳讲go语言 阅读(10657) 评论(2) 推荐(2)
摘要:简单理解SimRank 图1.二部图 所谓二部图(bipartite graphs),是指图中的节点可以分这两个子集,任意一条边关联的两个节点分别来自于这两个子集。用I(v)和O(v)分别表示节点v的in-neighbors和out-neighbors。看上面的二部图,我们把A、B当成两个人,把a、 阅读全文
posted @ 2015-06-16 13:06 张朝阳讲go语言 阅读(30452) 评论(19) 推荐(2)
摘要:标题读起来很拗口,原文是TrustWalker: A Random Walk Model for Combining Trust-based and Item-based Recommendatio,翻译得不好见谅如上图所示,每个人对一些商品有过评分,用直线连接的用户之间存在信任关系,现在我们要预测... 阅读全文
posted @ 2015-05-03 16:09 张朝阳讲go语言 阅读(2968) 评论(0) 推荐(0)
摘要:基础篇 矩阵背后的现实意义 概率分布 无约束最优化方法 拉格朗日乘子法和KKT条件 推荐 相关性检验 协同过滤推荐算法 分类 朴素贝叶斯 LR SVM 聚类 KMeans DBScan CHAMELEON GMM 决策树 ID3 C4.5 Adaboost GBDT 关联规则挖掘 Apriori F 阅读全文
posted @ 2015-04-01 19:45 张朝阳讲go语言 阅读(5892) 评论(4) 推荐(7)
摘要:组内分享时写了个PPT:卷积神经网络 阅读全文
posted @ 2014-11-23 17:07 张朝阳讲go语言 阅读(1347) 评论(0) 推荐(0)
摘要:期望 介绍各个分布之前先给出期望的定义。如果$\int_{-\infty}^{\infty}|x|f(x)dx<\infty$,那么$E(x)=\int_{-\infty}^{\infty}xf(x)dx$;如果积分发散,则期望不存在(无意义)。 函数的期望。如果$Y=g(X)$,对于离散变量$E( 阅读全文
posted @ 2013-11-20 19:13 张朝阳讲go语言 阅读(5821) 评论(0) 推荐(3)
摘要:C4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3决策树。 C4.5克服了ID3的2个缺点: 1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性 2.不能处理连贯属性 Outlook和Windy取离散值,Temperature和Humidity则取连续值。 对于离散属性 阅读全文
posted @ 2013-01-02 21:54 张朝阳讲go语言 阅读(45757) 评论(8) 推荐(4)
摘要:数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。 对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元(即对角线上的元素)上的元素很小,在计算时就 阅读全文
posted @ 2012-12-05 15:05 张朝阳讲go语言 阅读(24468) 评论(0) 推荐(1)
摘要:或者翻译成维度的咒语,这个咒语出现在很多方面:sampling采样如果数据是低维的,所需的采样点相对就比较少;如果数据是高维的,所需的采样点就会指数级增加,而实现中面对高维问题时往往无法获得如此多的样本点(即使获得了也无法处理这么庞大数据量),样本少不具有代表性自然不能获得正确的结果。combina... 阅读全文
posted @ 2012-12-04 15:58 张朝阳讲go语言 阅读(8062) 评论(0) 推荐(1)
摘要:分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于分类的。 分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1 阅读全文
posted @ 2012-10-01 21:41 张朝阳讲go语言 阅读(52547) 评论(13) 推荐(4)
摘要:Collaborative Filtering Recommendation 向量之间的相似度 度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。 皮尔森相关系数计算公式如下: \begin{equation}\rho_{X,Y}=\frac{cov 阅读全文
posted @ 2012-08-30 21:00 张朝阳讲go语言 阅读(49050) 评论(23) 推荐(7)
摘要:大类 名称 关键词 有监督分类 决策树 信息增益 分类回归树 Gini指数,Χ2统计量,剪枝 朴素贝叶斯 非参数估计,贝叶斯估计 线性判别分析 Fishre判别,特征向量求解 K最邻近 相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数 逻辑斯谛回归(二值分类) 参数估计(极 阅读全文
posted @ 2012-08-28 22:04 张朝阳讲go语言 阅读(18679) 评论(4) 推荐(16)
摘要:信息论(Information Theory)是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。 基本概念 先说明一点:在信息论里面对数log默认都是指以2为底数。 自信息量 联合自信息量 条件自信息量 信息熵 条件熵 联合熵 根 阅读全文
posted @ 2012-08-25 21:50 张朝阳讲go语言 阅读(16931) 评论(1) 推荐(2)
摘要:首先搞清楚什么叫判别分析?Discriminant Analysis就是根据研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。比如在KNN中用的就是距离判别,当然这里的“距离”又有好几种:欧氏距离、街区距离、甚 阅读全文
posted @ 2012-08-17 17:24 张朝阳讲go语言 阅读(31384) 评论(3) 推荐(0)
摘要:-对于正定的对称矩阵,奇异值等于特征值,奇异向量等于特征向量。在这种情况下用奇异值分解就把特征值和特征向量求出来了。但是只要是方阵,它就有特征值和特征向量,对于一般的方阵,特征值和特征向量怎么求呢(当然我指的是数值求法)?这就要用本文即将介绍的“幂法”。 Power Method幂法 Definit 阅读全文
posted @ 2012-08-17 14:44 张朝阳讲go语言 阅读(17490) 评论(0) 推荐(2)
摘要:SVM属于一种前馈神经网络,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。对于两类分类问题,有训练样本{(X1,y1),(X2,y2),...,(Xn,yn)},y是分类标记,取值于+1和-1。a和b都可以作为分类超平面,但最优超平面只有一个,最优分类平面使间隔最大化。统一起来就是分离边缘可表示为,要使分离边缘最大化,就要使||W0||最小化。于是我们要求解的问题数学表达形式为:这是个带约束的最优化问题。目标函数是二次的,约束条件是一次的----二次规划。可以用Lagrange系数法解决此类优化问题。引入Lagrange函数如下ai是Lagrange系数,非负。上式中第一项为代价 阅读全文
posted @ 2012-08-16 19:40 张朝阳讲go语言 阅读(3262) 评论(2) 推荐(0)
摘要:本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。 假设检验 假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。 在抽样研究中,由于样本所来自 阅读全文
posted @ 2012-08-16 11:41 张朝阳讲go语言 阅读(25003) 评论(1) 推荐(1)
摘要:回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计),就是找出因变量(DV,Dependent Variable)和自变量(IV,Independent Variable)之间的因果关系。本文讲两种回归分析的方法:一般线性回归(ordinary linear regression... 阅读全文
posted @ 2012-08-15 20:47 张朝阳讲go语言 阅读(22406) 评论(0) 推荐(1)