摘要: 啥也先不说,先上图,上图最好理解其实归并排序挺好理解的,也挺好实现的。其实也挺像我们的平常分工合作的。就像一样事情分成几份,由不同的人去做。再合并起来,采用了分治的思想。对于一个数列,也同是如此。我们只需要不断地... 阅读全文
posted @ 2019-10-03 12:58 ongbo 阅读(140) 评论(0) 推荐(0)
摘要: 程序执行前经历了啥当我们编写了一个程序,你想... 阅读全文
posted @ 2019-09-29 21:42 ongbo 阅读(131) 评论(0) 推荐(0)
摘要: sqoop是啥sqoop本质是一个数据迁移工具,它关系导hadoop集群和关系数据库之间。它就是通过命令,将命令转换成MapReduce。没有啥高级的,就像hive一样,通过将sql命令转换成mapreduce了... 阅读全文
posted @ 2019-09-28 16:36 ongbo 阅读(33) 评论(0) 推荐(0)
摘要: 这个学期开了人工智能与大数据,刚开始看见这门课,觉得和大数据有关,正好是自己兴趣所在,一定要好好学,但是,好像并不是我想象的那样,整个课程比较偏向机器学习,也就是说从基础的学习,按道理说机器学习应该要另外开一门课... 阅读全文
posted @ 2019-09-22 14:01 ongbo 阅读(49) 评论(0) 推荐(0)
摘要: Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别很明显。HDFS具有高度的容错能力,旨在部署在低成本硬件上... 阅读全文
posted @ 2019-09-21 15:31 ongbo 阅读(39) 评论(0) 推荐(0)
摘要: mapredue是根据谷歌的三大论文里面的mapreduce paper的出来的一个hadoop计算引擎。我们现在可以说是ZB时代了,日益所需的大数据时代让我们不得不使用分布式存储,分布式计算,分布式调度。以往的... 阅读全文
posted @ 2019-09-19 21:00 ongbo 阅读(132) 评论(0) 推荐(0)
摘要: hadoop@master:/usr/local/hadoop/spark/spark-data$ spark-submit --master spark:192.168.71.128:7077 --class ... 阅读全文
posted @ 2019-09-19 17:01 ongbo 阅读(89) 评论(0) 推荐(0)
摘要: FAILED: SemanticException [Error 10025]: Line 1:59 Expression not in GROUP BY key 'guid'最近在使用hive时会出现这样的问题... 阅读全文
posted @ 2019-09-17 19:44 ongbo 阅读(181) 评论(0) 推荐(0)
摘要: Group bygroup by是根据某一个字段对数据进行分组;比如我们这里有个数据我们针对job进行分组select job,count(*) from empp group by job;但是呢,一定要记住,... 阅读全文
posted @ 2019-09-10 21:11 ongbo 阅读(58) 评论(0) 推荐(0)
摘要: 前面讲了一些数据仓库的安装和DDL的基本使用以及hive的简单架构,只要你熟悉基本的sql,就能够进行基本的hive数据分析。当然,我们还是得区分一般传统数据库和hive,毕竟sql不能完全适用hive,一些基础... 阅读全文
posted @ 2019-09-09 20:49 ongbo 阅读(44) 评论(0) 推荐(0)