随笔分类 -  大数据认知

摘要:1、海量日志数据,提取出某日访问百度次数最多的那个IP。 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP 阅读全文
posted @ 2019-04-05 21:21 Levyxu胖胖 阅读(259) 评论(0) 推荐(0)
摘要:1、hadoop 工作原理: a.首先 概括里面的角色(HDFS 、Mapreduce) b.讲解各个角色的整体架构 HDFS: 概念: 分布式文件系统,用于海量数据存储。 架构: master/slave 架构 :1个Namenode和多个Ddatanode。 工作原理: Namenode:(项目 阅读全文
posted @ 2019-04-05 21:13 Levyxu胖胖 阅读(294) 评论(0) 推荐(0)
摘要:1. Spark rdd生成过程· Spark的任务调度分为四步 1RDD objects RDD的准备阶段,组织RDD及RDD的依赖关系生成大概的RDD的DAG图,DAG图是有向环图。 2DAG scheduler 细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖,生成更详细的 阅读全文
posted @ 2019-04-05 21:10 Levyxu胖胖 阅读(318) 评论(0) 推荐(0)
摘要:1、大数据组件Yarn:大数据组件运行的job的管理器Spark:分布式的利用内存进行分布式运算的大数据组件Hbase:基于Hadoop的大数据常用数据库Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似 2、hdfs文件系统中NameNode和DataNode的区别和 阅读全文
posted @ 2019-04-05 21:06 Levyxu胖胖 阅读(413) 评论(0) 推荐(0)