随笔分类 -  大数据学习

hadoop等
摘要:在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。 阅读全文
posted @ 2014-09-15 09:51 侯凯 阅读(263) 评论(0) 推荐(0) 编辑
摘要:首先,要实现协同过滤,需要一下几个步骤:1.收集用户偏好;2.找到相似的用户或物品;3.计算推荐 阅读全文
posted @ 2014-09-14 22:38 侯凯 阅读(342) 评论(0) 推荐(0) 编辑
摘要:基于协同过滤的推荐 ,根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。 阅读全文
posted @ 2014-09-14 20:40 侯凯 阅读(487) 评论(0) 推荐(0) 编辑
摘要:Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。 阅读全文
posted @ 2014-07-16 17:06 侯凯 阅读(1402) 评论(0) 推荐(0) 编辑
摘要:HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。 阅读全文
posted @ 2014-07-16 14:09 侯凯 阅读(2322) 评论(0) 推荐(0) 编辑
摘要:hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于大多数程序猿/媛来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。 阅读全文
posted @ 2014-07-16 10:24 侯凯 阅读(2020) 评论(0) 推荐(0) 编辑
摘要:读《大话数据挖掘》得到的一点点干货,少的可怜 阅读全文
posted @ 2013-12-07 22:18 侯凯 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:介绍了Dirichlet分布及其属性,可以作为学习LDA、HDP等主题模型的基础 阅读全文
posted @ 2013-05-27 20:30 侯凯 阅读(4945) 评论(0) 推荐(0) 编辑