大数据认知 - 随笔分类 - Levyxu胖胖

大数据开发--思路点滴01

摘要：1、海量日志数据，提取出某日访问百度次数最多的那个IP。解决方案：首先是将这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP 阅读全文

posted @ 2019-04-05 21:21 Levyxu胖胖阅读(271) 评论(0) 推荐(0)

大数据开发认知--架构

摘要：1、hadoop 工作原理： a.首先概括里面的角色（HDFS 、Mapreduce） b.讲解各个角色的整体架构 HDFS：概念：分布式文件系统，用于海量数据存储。架构： master/slave 架构：1个Namenode和多个Ddatanode。工作原理： Namenode：(项目阅读全文

posted @ 2019-04-05 21:13 Levyxu胖胖阅读(302) 评论(0) 推荐(0)

大数据开发认知--spark

摘要：1. Spark rdd生成过程· Spark的任务调度分为四步 1RDD objects RDD的准备阶段，组织RDD及RDD的依赖关系生成大概的RDD的DAG图，DAG图是有向环图。 2DAG scheduler 细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖，生成更详细的阅读全文

posted @ 2019-04-05 21:10 Levyxu胖胖阅读(323) 评论(0) 推荐(0)

大数据认知

摘要：1、大数据组件Yarn：大数据组件运行的job的管理器Spark：分布式的利用内存进行分布式运算的大数据组件Hbase：基于Hadoop的大数据常用数据库Hive：基于Hadoop的大数据数据仓库，操作和关系型数据库（MySQL）类似 2、hdfs文件系统中NameNode和DataNode的区别和阅读全文

posted @ 2019-04-05 21:06 Levyxu胖胖阅读(417) 评论(0) 推荐(0)

Levyxu胖胖

随笔分类 - 大数据认知

公告