上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 38 下一页
摘要: 1、关于mapreduce的定义: MapReduce是一个 分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群. 上。 2、mapredu 阅读全文
posted @ 2020-08-17 17:35 喜欢爬的孩子 阅读(181) 评论(0) 推荐(0)
摘要: 服役新的节点 1、首先克隆一个新的虚拟机,里面的hadoop等环境都配好了 之后修改ip通过 root进行登录,在原本好的虚拟机上进行分发操作 之后再发java 发环境变量 在新的虚拟机上进行: 这是重新运行环境变量 之后进入hadoop删除data和logs让他变成一个全新的机器 就会发现 dat 阅读全文
posted @ 2020-08-16 18:33 喜欢爬的孩子 阅读(218) 评论(0) 推荐(0)
摘要: 这是上一节的流程图: 1、网络拓扑距离最近,决定上一节中那三个datanode谁是第一个 例如N!到N2的距离就通过数直线的方法获得就是2别的距离也是这样求出来。 2、选出第一个最近的节点之后,怎样选第二个和第三个啊 第二个是同机架的不同节点。第三个是不同机架的不用节点。不能跨越中心。(副本节点的存 阅读全文
posted @ 2020-08-16 17:01 喜欢爬的孩子 阅读(464) 评论(0) 推荐(0)
摘要: 上传的操作流程: 1、客户端读取文件之后有了filesystem 2、之后客户机申请上传发起请求。Namenode进行审核(此路径是否被其他文件占用或者有没有权限)告诉客户机能否上传 3、客户机对文件进行逻辑切分。之后客户机开一个FSDataoutputStream之后请求上传第一个block。 4 阅读全文
posted @ 2020-08-15 21:20 喜欢爬的孩子 阅读(231) 评论(0) 推荐(0)
摘要: 1、首先配置好hadoop的环境变量等内容,配置好maven然后编写一个简单的程序(他的目的是将本地的一个文件进行上传) 代码如下: package com.atguigu.hdfsclient; import org.apache.hadoop.conf.Configuration; import 阅读全文
posted @ 2020-08-15 20:29 喜欢爬的孩子 阅读(699) 评论(0) 推荐(0)
摘要: 1、HDFS只是分布式文件管理系统的一种。 2、HDFS (Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合-一次写入,多次读 阅读全文
posted @ 2020-08-14 22:00 喜欢爬的孩子 阅读(126) 评论(0) 推荐(0)
摘要: 主要的是将相关的电影信息爬取到之后存储到excel中: 主要的代码入下: import requests from bs4 import BeautifulSoup import openpyxl headers = {'user-agent': 'Mozilla/5.0 (Windows NT 1 阅读全文
posted @ 2020-08-13 22:48 喜欢爬的孩子 阅读(191) 评论(0) 推荐(0)
摘要: 这是关闭的操作,在次没有用到 1)首先配置 2)之后配置 3)然后是 4之后是 5)开启50070和8088端口的四个命令操作: 6)hdfs上传文件执行jar 这是查看某个文件的操作 7)进行集群的时候进行远程拷贝操作: 只在自己的下面执行: 8)完全分布式配置: 写入脚本进行分发:大概的代码如下 阅读全文
posted @ 2020-08-13 18:12 喜欢爬的孩子 阅读(198) 评论(0) 推荐(0)
摘要: 1)有些人安装的linux的系统默认防火墙不是iptables,而是firewall,那就得使用以下方式关闭防火墙了。 >>>关闭防火墙 systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service # 阅读全文
posted @ 2020-08-12 22:28 喜欢爬的孩子 阅读(171) 评论(0) 推荐(0)
摘要: 这一周自己大约一共发了7篇博客: 所涉及到的内容是爬虫、大数据、python基础学习、还有就是linux学习。 对爬虫项目进行了实战爬取了QQ音乐排行榜上面的音乐信息最后将先关爬取到的信息存储到数据库之中,然后就是安装了虚拟机并通过软件成功连接上了虚拟机 之后就是对于linux的学习操作。因为刚开始 阅读全文
posted @ 2020-08-11 21:00 喜欢爬的孩子 阅读(147) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 38 下一页