公告

随笔分类 - Spark/Hadoop

图解Hadoop生态圈

摘要：阅读全文

posted @ 2019-04-25 22:28 Liuyt_61 阅读(219) 评论(0) 推荐(0)

【HDFS API编程】图解客户端写文件到HDFS的流程

摘要：阅读全文

posted @ 2019-04-25 20:04 Liuyt_61 阅读(162) 评论(0) 推荐(0)

【HDFS API编程】图解客户端从HDFS读数据的流程

摘要：阅读全文

posted @ 2019-04-25 20:03 Liuyt_61 阅读(220) 评论(0) 推荐(0)

【HDFS API编程】删除文件

摘要：所有操作都是以fileSystem为入口进行，我们使用fileSystem下的delete方法进行删除文件操作，删除的时候必须慎重。直接上代码：每一步操作为什么都类似于之前，详解回顾：https://www.cnblogs.com/Liuyt-61/p/10737466.html 阅读全文

posted @ 2019-04-20 21:57 Liuyt_61 阅读(814) 评论(0) 推荐(0)

【HDFS API编程】查看文件块信息

摘要：现在我们把文件都存在HDFS文件系统之上，现在有一个jdk.zip文件存储在上面，我们想知道这个文件在哪些节点之上？切成了几个块？每个块的大小是怎么样？先上测试类代码：我们使用fileSystem的getFileStatus方法获得文件的状态信息，然后使用fileSystem下的getFileBl 阅读全文

posted @ 2019-04-20 21:50 Liuyt_61 阅读(615) 评论(0) 推荐(0)

【HDFS API编程】查看目标文件夹下的所有文件、递归查看目标文件夹下的所有文件

摘要：使用hadoop命令：hadoop fs -ls /hdfsapi/test 我们能够查看HDFS文件系统/hdfsapi/test目录下的所有文件信息那么使用代码怎么写呢？直接先上代码：(这之后贴上去的代码怎么就全灰色了？....) 首先我们找到fileSystem的listStatus方法，这阅读全文

posted @ 2019-04-20 21:28 Liuyt_61 阅读(4587) 评论(0) 推荐(0)

【HDFS API编程】从本地拷贝文件，从本地拷贝大文件，拷贝HDFS文件到本地

摘要：接着之前继续API操作的学习 CopyFromLocalFile: 顾名思义，从本地文件拷贝方法怎么用？还是那句哪里不会Ctrl点哪里。点进CopyFromLocalFile方法源码得知方法需要两个参数：本地文件的Path，和目标文件的Path，无返回值。我们运行该测试类后进入终端使用-ls 阅读全文

posted @ 2019-04-20 20:33 Liuyt_61 阅读(2619) 评论(0) 推荐(0)

【HDFS API编程】副本系数深度剖析

摘要：上一节我们使用Java API操作HDFS文件系统创建了文件a.txt并写入了hello hadoop（回顾：https://www.cnblogs.com/Liuyt-61/p/10739018.html）我们在终端控制台上使用hadoop fs -ls /hdfsapi/test查看a.txt 阅读全文

posted @ 2019-04-19 22:22 Liuyt_61 阅读(517) 评论(0) 推荐(0)

【HDFS API编程】查看HDFS文件内容、创建文件并写入内容、更改文件名

摘要：首先，重点重复重复再重复： /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3)...剩下的就是 HDFS API的操作了*/ 回顾：https://www.cnblogs.com/Liuyt-61 阅读全文

posted @ 2019-04-19 21:42 Liuyt_61 阅读(6883) 评论(0) 推荐(0)

【HDFS API编程】jUnit封装-改写创建文件夹

摘要：首先：什么是jUnit 回顾： https://www.cnblogs.com/Liuyt-61/p/10374732.html 上一节我们知道： /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3 阅读全文

posted @ 2019-04-19 19:02 Liuyt_61 阅读(277) 评论(0) 推荐(0)

【HDFS API编程】第一个应用程序的开发-创建文件夹

摘要：/** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3)...剩下的就是 HDFS API的操作了*/ 先上代码对于方法的源码是我们在学习的时候必须的，我们可以按住Ctrl然后点击对应的方法类名进去进阅读全文

posted @ 2019-04-19 17:42 Liuyt_61 阅读(1876) 评论(0) 推荐(0)

【HDFS API编程】开发环境搭建

摘要：使用HDFS API的方式来操作HDFS文件系统 IDEA Java 使用Maven来管理项目先打开IDEA，New Project 创建GAV然后next 默认使用的有idea内置的Maven，可以使用默认的也可以使用自己安装的Maven（看个人喜好Override）然后next finish 阅读全文

posted @ 2019-02-14 16:10 Liuyt_61 阅读(369) 评论(0) 推荐(0)

格式化hdfs后，hadoop集群启动hdfs，namenode启动成功，datanode未启动

摘要：集群格式化hdfs后，在主节点运行启动hdfs后，发现namenode启动了，而datanode没有启动，在其他节点上jps后没有datanode进程！原因：当我们使用hdfs namenode -format格式化namenode时，会在namenode数据文件夹中保存一个current/VER 阅读全文

posted @ 2019-02-10 19:33 Liuyt_61 阅读(1506) 评论(0) 推荐(1)

<spark> hadoop/spark 集群搭建

摘要：参考的这3个文档，虽然搭建花了挺长时间也遇到挺多问题，但是这3个文档对我的帮助确实挺大，如果有兴趣的或者有需要的可以参考以下文档。 http://blog.csdn.net/wy250229163/article/details/52729608 http://blog.csdn.net/u0126 阅读全文

posted @ 2017-06-08 23:47 Liuyt_61 阅读(177) 评论(0) 推荐(0)

<spark> error：启动spark后查看进程，进程中master和worker进程冲突

摘要：启动hadoop再启动spark后jps，发现master进程和worker进程同时存在，调试了半天配置文件。测试发现，当我关闭hadoop后 worker进程还是存在，但是，当我再关闭spark之后再jps，发现worker进程依旧存在于是想起了在~/spark/conf/slaves 中配阅读全文

posted @ 2017-06-08 23:43 Liuyt_61 阅读(2047) 评论(0) 推荐(0)

<spark> ~/spark/conf/spark-default.conf 配置文件

摘要：因为看到我参考的Hadoop/spark集群搭建的文档中的都没有对 /spark-default.conf 的配置合理地对 /spark-default.conf 进行配置，能够提高执行效率先cp复制模板文件然后添加配置信息阅读全文

posted @ 2017-06-08 23:37 Liuyt_61 阅读(2848) 评论(0) 推荐(0)

hadoop/etc/hadoop 下没有mapred-site.xml，只有mapred.xml.template

摘要：默认情况下，/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件，我们要复制该文件，并命名为mapred.xml，该文件用于指定MapReduce使用的框架。复制并重命名 cp mapred-site.xml.template mapred 阅读全文

posted @ 2017-06-07 23:30 Liuyt_61 阅读(3385) 评论(0) 推荐(2)

error：hadoop 中没有etc目录

摘要：download binary 而不是 source http://hadoop.apache.org/#Download+Hadoop 阅读全文

posted @ 2017-06-07 23:07 Liuyt_61 阅读(775) 评论(0) 推荐(0)