随笔分类 - 大数据
摘要:数据仓库 什么时候需要用到数据仓库? 一个公司里面不同项目可能用到不同的数据源,有的存在MySQL里面,又的存在MongoDB里面,甚至还有些要做第三方数据。 但是现在又想把数据整合起来,进行 数据分析 。此时数据仓库(Data Warehouse,DW)就派上用场了。它可以对多种业务数据进行筛选和
阅读全文
摘要:为什么计算也要分布式 使用HDFS可以把文件分割为一个一个的片段,然后存储在各个节点上,同时为了保证高可靠性,存的是3副本。 这一切的操作对客户端都是透明的,它仍然是觉得是在对同一个文件进行操作。这样就可以把海量的Web日志文件存储到了HDFS当中。 但是存储架构已经分布式了,如果只有一个节点把所有
阅读全文
摘要:日志分析 比如说现在给你一个活: 日志分析 ,一个日志大概有几十兆,而且每一行都很类似,比如 可以看出这些日志是从Web服务器里面产生的,包含了 客户端IP 访问时间 请求的URL 返回的状态 referer User Agent 现在我们需要统计, 一天之内 每个页面的访问量(PV) 独立的IP数
阅读全文
摘要:Hadoop的前世今生 什么是大数据 各行各业都会产生大量的数据,比如社交网站的意见观点,电商平台人们浏览网页停留的时间,交通运输每天产生的数据等等。这些数据大多不是结构化的,一般来说都是半结构化或者非结构化的 在以前,我们的处理能力达不到,所以很多数据要么没有存起来,要么没有利用起来。而现在数据越
阅读全文
摘要:啤酒尿布 沃尔玛根据它每天记录的大量的客户消费数据进行分析,发现了,购买了啤酒的顾客更可能同时购买尿布。所以他们把尿布和啤酒放到一块,结果大幅度的提高了这两者的销售额。 购买尿布和购买啤酒看上去毫无关系,但是通过用户购物数据作为样本发现了其中的关联和规律,对于沃尔玛而言无需知道规律背后的本质,只需要
阅读全文
浙公网安备 33010602011771号