摘要: 并行计算框架(MapReduce): 适用于大数据量处理的分布式框架,是为离线数据分析而设计,利用数据的并行性进行分布运算,而后汇总结果的计算框架。 将任务拆分、分布、汇总,开发人员只需要实现业务逻辑;分布任务自动失败重试,单个任务失败不会造成整个任务退出;和HDFS整合,使计算移到数据所在的节点运 阅读全文
posted @ 2019-05-21 23:11 油辣子 阅读(181) 评论(0) 推荐(0)
摘要: HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修 阅读全文
posted @ 2019-05-21 23:10 油辣子 阅读(92) 评论(0) 推荐(0)
摘要: NoSql泛指非关系型的数据库,随着互联网2.0的发展,传统的关系型数据库在应付web2.0网站,特别是超大的规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴漏了很多难以克服的问题,NOSQL数据库的产生主要就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据的应用问题 阅读全文
posted @ 2019-05-21 23:08 油辣子 阅读(165) 评论(0) 推荐(0)
摘要: hadoop本地模式和伪分布式模式之间的区别 伪分布式运行模式。这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。请注意分布式运行中的这几个结点的 阅读全文
posted @ 2019-05-21 23:06 油辣子 阅读(104) 评论(0) 推荐(0)