上一页 1 2 3 4 5 6 7 8 ··· 12 下一页
  2014年11月30日
摘要: 主成分分析(Principal components analysis)-最小平方误差解释3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不 仅仅只有方差最大化的方法。再回想我们... 阅读全文
posted @ 2014-11-30 11:25 船长 阅读(214) 评论(0) 推荐(0)
摘要: PrincipalComponentAnalysis(PCA)matlab的Feature Transformation提供了一个有关主成分分析的介绍和例子。PCA的介绍 多元统计分析中普遍存在的困难中,有一个困难是多元数据的可视化。matlab的plot可以显示两个变量之间的关系,plot3和su... 阅读全文
posted @ 2014-11-30 11:25 船长 阅读(1687) 评论(0) 推荐(0)
  2014年11月28日
摘要: 源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文... 阅读全文
posted @ 2014-11-28 20:18 船长 阅读(161) 评论(0) 推荐(0)
摘要: Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,... 阅读全文
posted @ 2014-11-28 20:17 船长 阅读(571) 评论(0) 推荐(0)
摘要: 尊重原创,注重版权,转贴请注明原文地址:http://www.cnblogs.com/vincent-hv/p/3322966.html1、配置程序使用资源:System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对... 阅读全文
posted @ 2014-11-28 20:16 船长 阅读(139) 评论(0) 推荐(0)
摘要: 主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性, 即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽... 阅读全文
posted @ 2014-11-28 20:11 船长 阅读(344) 评论(0) 推荐(0)
  2014年11月25日
摘要: 先用三句话来介绍什么是LaTeX。1.LaTeX是一类用于编辑和排版的软件,用于生成PDF文档。2.LaTeX编辑和排版的核心思想在于,通过\section和\paragraph等语句,规定了每一句话在文章中所从属的层次,从而极大方便了对各个层次批量处理。3.LaTeX在使用体验方面,最不易被Wor... 阅读全文
posted @ 2014-11-25 15:26 船长 阅读(3047) 评论(0) 推荐(0)
  2014年11月19日
摘要: 是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰 Benchmark: 对1G数据做wordcount部分内容:*********************************硬件级别提高磁盘IO的性能noatime 我为两台slaves... 阅读全文
posted @ 2014-11-19 11:23 船长 阅读(237) 评论(0) 推荐(0)
摘要: Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed... 阅读全文
posted @ 2014-11-19 11:17 船长 阅读(112) 评论(0) 推荐(0)
摘要: 关于数据结构与算法讲解的书籍很多,但是用python语言去实现的不是很多,最近有幸看到一本这样的书籍,由Brad Miller and David Ranum编写的《Problem Solving with Algorithms and Data Structures Using Python》,... 阅读全文
posted @ 2014-11-19 10:24 船长 阅读(296) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 12 下一页