过雁

--每天都被梦想唤醒--

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2015年2月5日

摘要: 对于spark streaming来说,receiver是数据的源头。spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个tcp链接)显然不是可靠且不知道数据什么时候准备好的,所以spark streaming使用shuffle隔离receiver与后面的数据处理。使用receiver模拟shuffle task将数据按... 阅读全文
posted @ 2015-02-05 14:45 过雁 阅读(839) 评论(0) 推荐(0) 编辑

摘要: DStream是类似于RDD概念,是对数据的抽象封装。它是一序列的RDD,事实上,它大部分的操作都是对RDD支持的操作的封装,不同的是,每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生(与RDD一样)time属性对DStream而言非常重要,DStream里面的RDD就是通过某个时间间隔产生的,... 阅读全文
posted @ 2015-02-05 14:42 过雁 阅读(653) 评论(0) 推荐(0) 编辑

摘要: StreamingContext 和SparkContex的用途是差不多的,作为spark stream的入口,提供配置、生成DStream等功能。总体来看,spark stream包括如下模块:/** * Main entry point for Spark Streaming functionality. It provides methods used to create * [[org.a... 阅读全文
posted @ 2015-02-05 14:41 过雁 阅读(847) 评论(0) 推荐(0) 编辑

2015年2月3日

摘要: Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix_aaim08(submitted).pdf MATRIX FACTORIZATION TECHNI... 阅读全文
posted @ 2015-02-03 00:30 过雁 阅读(3016) 评论(0) 推荐(0) 编辑

2015年2月2日

摘要: 官网:http://zeppelin-project.org/ 代码:https://github.com/NFLabs/zeppelin 使用:按照官网的视频操作一遍,应该就懂了http://youtu.be/_PQbVH_aO5E 编译:使用git下载最新的代码,或者直接下载zip压缩包https://github.com/NFLabs/zeppelin/archive/master.zip ... 阅读全文
posted @ 2015-02-02 10:24 过雁 阅读(1732) 评论(1) 推荐(0) 编辑

2015年2月1日

摘要: 概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity between two vectors of aninner product spacetha... 阅读全文
posted @ 2015-02-01 18:24 过雁 阅读(4395) 评论(0) 推荐(0) 编辑

摘要: 1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems.[1]Collaborative filtering has two senses, a n... 阅读全文
posted @ 2015-02-01 17:54 过雁 阅读(1452) 评论(0) 推荐(0) 编辑

摘要: 数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom variables, then the sum of their squares,is dis... 阅读全文
posted @ 2015-02-01 17:00 过雁 阅读(854) 评论(0) 推荐(0) 编辑

摘要: 定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independently.Stratificationis the process of dividing memb... 阅读全文
posted @ 2015-02-01 16:54 过雁 阅读(780) 评论(0) 推荐(0) 编辑

摘要: 皮尔森相关系数定义: 协方差与标准差乘积的商。Pearson's correlation coefficient when applied to a population is commonly represented by the Greek letter ρ (rho) and may be referred to as the population correlation coefficie... 阅读全文
posted @ 2015-02-01 16:49 过雁 阅读(3239) 评论(0) 推荐(0) 编辑