ongbo

摘要：啥也先不说，先上图，上图最好理解其实归并排序挺好理解的，也挺好实现的。其实也挺像我们的平常分工合作的。就像一样事情分成几份，由不同的人去做。再合并起来，采用了分治的思想。对于一个数列，也同是如此。我们只需要不断地... 阅读全文

posted @ 2019-10-03 12:58 ongbo 阅读(149) 评论(0) 推荐(0)

摘要：程序执行前经历了啥当我们编写了一个程序，你想... 阅读全文

posted @ 2019-09-29 21:42 ongbo 阅读(139) 评论(0) 推荐(0)

摘要： sqoop是啥sqoop本质是一个数据迁移工具，它关系导hadoop集群和关系数据库之间。它就是通过命令，将命令转换成MapReduce。没有啥高级的，就像hive一样，通过将sql命令转换成mapreduce了... 阅读全文

posted @ 2019-09-28 16:36 ongbo 阅读(33) 评论(0) 推荐(0)

摘要：这个学期开了人工智能与大数据，刚开始看见这门课，觉得和大数据有关，正好是自己兴趣所在，一定要好好学，但是，好像并不是我想象的那样，整个课程比较偏向机器学习，也就是说从基础的学习，按道理说机器学习应该要另外开一门课... 阅读全文

posted @ 2019-09-22 14:01 ongbo 阅读(57) 评论(0) 推荐(0)

摘要： Hadoop分布式文件系统（HDFS）是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的区别很明显。HDFS具有高度的容错能力，旨在部署在低成本硬件上... 阅读全文

posted @ 2019-09-21 15:31 ongbo 阅读(44) 评论(0) 推荐(0)

摘要： mapredue是根据谷歌的三大论文里面的mapreduce paper的出来的一个hadoop计算引擎。我们现在可以说是ZB时代了，日益所需的大数据时代让我们不得不使用分布式存储，分布式计算，分布式调度。以往的... 阅读全文

posted @ 2019-09-19 21:00 ongbo 阅读(162) 评论(0) 推荐(0)

摘要： hadoop@master:/usr/local/hadoop/spark/spark-data$ spark-submit --master spark:192.168.71.128:7077 --class ... 阅读全文

posted @ 2019-09-19 17:01 ongbo 阅读(90) 评论(0) 推荐(0)

摘要： FAILED: SemanticException [Error 10025]: Line 1:59 Expression not in GROUP BY key 'guid'最近在使用hive时会出现这样的问题... 阅读全文

posted @ 2019-09-17 19:44 ongbo 阅读(186) 评论(0) 推荐(0)

摘要： Group bygroup by是根据某一个字段对数据进行分组；比如我们这里有个数据我们针对job进行分组select job,count(*) from empp group by job;但是呢，一定要记住，... 阅读全文

posted @ 2019-09-10 21:11 ongbo 阅读(63) 评论(0) 推荐(0)

摘要：前面讲了一些数据仓库的安装和DDL的基本使用以及hive的简单架构，只要你熟悉基本的sql，就能够进行基本的hive数据分析。当然，我们还是得区分一般传统数据库和hive，毕竟sql不能完全适用hive，一些基础... 阅读全文

posted @ 2019-09-09 20:49 ongbo 阅读(50) 评论(0) 推荐(0)