2013年11月13日

基于SVMLight的文本分类

摘要: 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的... 阅读全文

posted @ 2013-11-13 09:51 代码王子 阅读(265) 评论(0) 推荐(0)

伽马贝塔函数

摘要: 在数理方程、概率论等学科经常遇到以下的含参变量的积分 , 它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数 显然,我们... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(3598) 评论(0) 推荐(0)

LDA

摘要: 2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(373) 评论(0) 推荐(0)

雅克比旋转

摘要: 在数值线性代数中,雅可比旋转是n 维内积空间的二维线性子空间的旋转Qkℓ,在用做相似变换的时候,被选择来置零n×n 实数对称矩阵A 的非对角元素的对称对: 它是雅可比特征值算法的核心运算,它是数值上稳定的并适合用并行计算实现。 注意到只有 A 的行 k 和 ℓ 与列 k 和 ℓ 受到影响,... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(556) 评论(0) 推荐(0)

矩阵分解

摘要: LU分解 一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。 即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(616) 评论(0) 推荐(0)

SoftMax regression

摘要: 最终收敛到这个结果,巨爽。 smaple 0: 0.983690,0.004888,0.011422,likelyhood:-0.016445 smaple 1: 0.940236,0.047957,0.011807,likelyhood:-0.061625 smaple 2: 0.8181... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(204) 评论(0) 推荐(0)

推荐系统框架

摘要: 在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Conten... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(175) 评论(0) 推荐(0)

SVD在推荐系统中的应用

摘要: 其实说参考也不准确,准确地说应该是半翻译半学习笔记。 仔细整理一遍,感觉还是收获很大的。 线性代数相关知识: 任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机: 1.U:(M行M列的列正交矩阵) 2.S:(M*N的对角线矩阵,矩阵元素非负) 3.V:(N*N的正交矩阵的... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(196) 评论(0) 推荐(0)

Slop One 算法

摘要: Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。 Slope One 算法试图同时满足这样的的 5 个目标: 易于实现和维护:普通工程师可以轻松解释所有的聚合数据,并且算法易于实现和测试。运行时可更新的:新增一个评分... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(326) 评论(0) 推荐(0)

吉文斯旋转

摘要: 在数值线性代数中,吉文斯旋转(Givens rotation)是在两个坐标轴所展开的平面中的旋转。吉文斯旋转得名于华莱士·吉文斯,他在 1950 年代工作于阿贡国家实验室时把它介入到数值分析中。 目录 1矩阵表示2稳定计算3参见4引用 矩阵表示 吉文斯旋转表示为如下形式的矩阵 这里... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(855) 评论(0) 推荐(0)

MinHash

摘要: 1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍Mi... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(235) 评论(0) 推荐(0)

MinHash 原理

摘要: 最小哈希原理介绍 MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10}MinHash的基本原理:在A∪B这个大的随机域里,选中的元素落... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(818) 评论(0) 推荐(0)

Mahout SlopOne

摘要: 关于推荐引擎 如今的互联网中,无论是电子商务还是社交网络,对数据挖掘的需求都越来越大了,而推荐引擎正是数据挖掘完美体现;通过分析用户历史行为,将他可能喜欢内容推送给他,能产生相当好的用户体验,这就是推荐引擎。 推荐算法Slope one的原理 首先Slope on... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(133) 评论(0) 推荐(0)

基于内容的推荐

摘要: Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(158) 评论(0) 推荐(0)

svd++

摘要: SVD++ refers to amatrix factorization model which makes use of implicit feedback information.In general, implicit feedback can refer to any kinds ... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(393) 评论(0) 推荐(0)

Hadoop家族

摘要: 现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。 本文为“Hadoop家族”开篇,Hadoop家族学习路线图 目录 Hadoop家族产品Hadoop家族学习路线图 1. Had... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(144) 评论(0) 推荐(0)

Netflix Recommendations

摘要: by Xavier Amatriain and Justin Basilico (Personalization Science and Engineering) In part one of this blog post, we detailed the different compo... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(206) 评论(0) 推荐(0)

SlopOne 改进

摘要: lope One 其基本的想法来自于简单的一元线性模型 $w = f(v) = v + b$。已知一组训练点 ${(v_i, w_i)}_{i=1}^n$,利用此线性模型最小化预测误差的平方和,我们可以获得 利用上式获得了$b$的取值后,对于新的数据点$v_{new}$,我们可以利用 $w... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(76) 评论(0) 推荐(0)

LDA实现

摘要: topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user url的聚类。 LDA的理论知识不介绍太多,基本就讲了原理以及推导两个内容,原理比较简... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(802) 评论(0) 推荐(0)

Gibbs sampling

摘要: In statistics and in statistical physics, Gibbs sampling or a Gibbs sampler is aMarkov chain Monte Carlo (MCMC) algorithm for obtaining a sequenc... 阅读全文

posted @ 2013-11-13 09:45 代码王子 阅读(526) 评论(0) 推荐(0)

导航