随笔分类 -  其它

摘要:互联网的出现,意味着"信息大爆炸"。用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。下面,我将整理和分析一些基于用户投票的排名算法,打算分成六个部分连载,今天是第一篇。一、Delicious最直觉、最简单的算法,莫过于按照单位时间内用户的投票数进行排名。得票最多的项目,自然就排在第一位。旧版的D 阅读全文
posted @ 2013-07-18 16:38 ancientmoon 阅读(350) 评论(0) 推荐(0)
摘要:有人在Stack Exchange问了一个问题: "我一直觉得虚数(imaginary number)很难懂。 中学老师说,虚数就是-1的平方根。 可是,什么数的平方等于-1呢?计算器直接显示出错! 直到今天,我也没有搞懂。谁能解释,虚数到底是什么? 它有什么用?"帖子的下面,很多人给出了自己的解释,还推荐了一篇非常棒的文章《虚数的图解》。我读后恍然大悟,醍醐灌顶,原来虚数这么简单,一点也不奇怪和难懂!下面,我就用自己的语言,讲述我所理解的虚数。一、什么是虚数?首先,假设有一根数轴,上面有两个反向的点:+1和-1。这根数轴的正向部分,可以绕原点旋转。显然,逆时针旋转180度 阅读全文
posted @ 2012-10-22 15:09 ancientmoon 阅读(340) 评论(0) 推荐(0)
摘要:SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1. 矩阵的秩:矩阵的秩是矩阵中线性无关的行或列的个数2. 对角矩阵:对角矩阵是除对角线外所有元素都为零的方阵3. 单位矩阵:如果对角矩阵中所有对角线上的元素都为零,该矩阵称为单位矩阵4. 特征值:对一个M x M矩阵C和向量X,如果存 阅读全文
posted @ 2012-10-22 14:42 ancientmoon 阅读(440) 评论(0) 推荐(0)
摘要:特征值和特征向量的物理意义ABSTRACT:特征向量:它经过这种特定的变换后保持方向不变。只是进行长度上的伸缩而已。特征值:一个变换(矩阵)可由它的所有特征向量完全表示,而每一个向量所对应的特征值,就代表了矩阵在这一向量上的贡献率——说的通俗一点就是能量(power)。内积:内积可以简单的理解为两个函数的相似程度,内积值越大表示两个函数相似程度越大,内积为零表示完全不相似。两个函数内积为零则两个函数正交,在三维空间中它们的夹角为90度,在三维以上不是这样的。CONTENT矩阵(既然讨论特征向量的问题。当然是方阵。这里不讨论广义特征向量的概念)乘以一个向量的结果仍是同维数的一个向量。因此。矩阵乘 阅读全文
posted @ 2012-10-22 14:41 ancientmoon 阅读(2290) 评论(0) 推荐(0)
摘要:WEB日志是网站分析和网站数据仓库的数据最基础来源,了解其格式和组成将有利于更好地进行数据的收集、处理和分析。1、日志格式类型 目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,但目前的应用并不广泛,所以这里主要介绍的是NCSA扩展日志格式(ECLF)。2、常见日志格式的组成 这是一个最常见的基于NCSA扩.. 阅读全文
posted @ 2011-03-01 21:41 ancientmoon 阅读(3561) 评论(0) 推荐(0)