随笔档案「2020年8月」 - 喜欢爬的孩子

zookeeper学习2

摘要：一、zNode节点属性 dataVersion 数据版本, 每次当 Znode 中的数据发生变化的时候, dataVersion都会自增一下cversion 节点版本, 每次当 Znode 的节点发生变化的时候, cversion 都会自增aclVersion ACL(Access Control 阅读全文

posted @ 2020-08-28 12:10 喜欢爬的孩子阅读(125) 评论(0) 推荐(0)

关于zookeeper的相关学习

摘要：一、zookeeper理解与选举机制 ①Zookeeper理解概念：Zookeeper 是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题特点：Zookeeper 本质上是一个分布式文件系统, 适合存放小文件，也可以理解为一个数据库。 Zookeeper 阅读全文

posted @ 2020-08-25 21:05 喜欢爬的孩子阅读(166) 评论(0) 推荐(0)

20年暑假第四周周总结

摘要：这一周自己大约一共发了3篇博客：这一周主要学习的是Combiner+GroupingComparator+shuffle原理+Reduce原理MapReduce全流程_分区_排序 MapReduce任务提交和切片源码+各种inputFormat以及自定义inputFormat+自定义inputFo 阅读全文

posted @ 2020-08-24 21:03 喜欢爬的孩子阅读(147) 评论(0) 推荐(0)

Combiner+GroupingComparator+shuffle原理+Reduce原理

摘要：1、Combiner Combiner的输入输出对象必须一样。 2、GroupingComparator 运行代码： map package groupcompartor; import org.apache.hadoop.io.LongWritable; import org.apache.had 阅读全文

posted @ 2020-08-24 20:59 喜欢爬的孩子阅读(210) 评论(0) 推荐(0)

MapReduce全流程_分区_排序

摘要：1、MapReduce完成的工作流程： 2、分区操作（Partition分区） Partition分区案例实操 1．需求将统计结果按照手机归属地不同省份输出到不同文件中（分区）期望输出数据手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。代码如下：阅读全文

posted @ 2020-08-19 15:33 喜欢爬的孩子阅读(499) 评论(0) 推荐(0)

MapReduce任务提交和切片源码+各种inputFormat以及自定义inputFormat+自定义inputFormat代码实现

摘要：1、MapReduce任务提交和切片源码 debug能力（怎样使用）： 2、各种inputFormat以及自定inputFormat 自定义inputFormat代码实现之后就是自定义的inputformat 无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文阅读全文

posted @ 2020-08-18 19:39 喜欢爬的孩子阅读(176) 评论(0) 推荐(0)

20年暑假第三周周总结

摘要：这一周自己大约一共发了10篇博客：有一个是爬虫项目的实战，爬取的是豆瓣影院的相关电影信息。然后其余的博客就是和大数据相关的的了。主要会HDFS和MapReduce。简单的了解了api的操作hdsf的基本流程。配置了虚拟机的hadoop环境。成功运行了maven项目，实现了项目文件上传，以及通过阅读全文

posted @ 2020-08-18 09:15 喜欢爬的孩子阅读(89) 评论(0) 推荐(0)

wordcount打包在集群上运行+hadoop序列化+MapReduce并行度决定机制

摘要：1、wordcount打包在集群上运行点击idea右侧的mavenproject 成功之后：然后重命名为1.jar上传到我们的linux集群中之后在linux中运行刚刚上传的jar文件之后就会成功运行了。 2、hadoop序列化首先神魔是序列化：序列化就是把内存中的对象，转换成字节序列( 阅读全文

posted @ 2020-08-17 20:55 喜欢爬的孩子阅读(298) 评论(0) 推荐(0)

MapReduce学习+wordcount

摘要：1、关于mapreduce的定义： MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群. 上。 2、mapredu 阅读全文

posted @ 2020-08-17 17:35 喜欢爬的孩子阅读(184) 评论(0) 推荐(0)

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

摘要：服役新的节点 1、首先克隆一个新的虚拟机，里面的hadoop等环境都配好了之后修改ip通过 root进行登录，在原本好的虚拟机上进行分发操作之后再发java 发环境变量在新的虚拟机上进行：这是重新运行环境变量之后进入hadoop删除data和logs让他变成一个全新的机器就会发现 dat 阅读全文

posted @ 2020-08-16 18:33 喜欢爬的孩子阅读(220) 评论(0) 推荐(0)

拓扑距离和机架感知+_Mvn回顾+_NN和2N之间的关系+DN原理和校验原理

摘要：这是上一节的流程图： 1、网络拓扑距离最近，决定上一节中那三个datanode谁是第一个例如N!到N2的距离就通过数直线的方法获得就是2别的距离也是这样求出来。 2、选出第一个最近的节点之后，怎样选第二个和第三个啊第二个是同机架的不同节点。第三个是不同机架的不用节点。不能跨越中心。（副本节点的存阅读全文

posted @ 2020-08-16 17:01 喜欢爬的孩子阅读(474) 评论(0) 推荐(0)

HDFS数据流程（读写）

摘要：上传的操作流程： 1、客户端读取文件之后有了filesystem 2、之后客户机申请上传发起请求。Namenode进行审核（此路径是否被其他文件占用或者有没有权限）告诉客户机能否上传 3、客户机对文件进行逻辑切分。之后客户机开一个FSDataoutputStream之后请求上传第一个block。 4 阅读全文

posted @ 2020-08-15 21:20 喜欢爬的孩子阅读(238) 评论(0) 推荐(0)

（软件idea）api操作HDFS（外加hdfs的一下命令）

摘要：1、首先配置好hadoop的环境变量等内容，配置好maven然后编写一个简单的程序（他的目的是将本地的一个文件进行上传）代码如下： package com.atguigu.hdfsclient; import org.apache.hadoop.conf.Configuration; import 阅读全文

posted @ 2020-08-15 20:29 喜欢爬的孩子阅读(703) 评论(0) 推荐(0)

HDFS学习记录

摘要：1、HDFS只是分布式文件管理系统的一种。 2、HDFS (Hadoop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件;其次,它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景:适合-一次写入，多次读阅读全文

posted @ 2020-08-14 22:00 喜欢爬的孩子阅读(127) 评论(0) 推荐(0)

爬虫爬取豆瓣影院的相关电影信息

摘要：主要的是将相关的电影信息爬取到之后存储到excel中：主要的代码入下： import requests from bs4 import BeautifulSoup import openpyxl headers = {'user-agent': 'Mozilla/5.0 (Windows NT 1 阅读全文

posted @ 2020-08-13 22:48 喜欢爬的孩子阅读(194) 评论(0) 推荐(0)

yarn伪分布式以及完全分布式

摘要：这是关闭的操作，在次没有用到 1）首先配置 2）之后配置 3）然后是 4之后是 5）开启50070和8088端口的四个命令操作： 6）hdfs上传文件执行jar 这是查看某个文件的操作 7）进行集群的时候进行远程拷贝操作：只在自己的下面执行： 8）完全分布式配置：写入脚本进行分发：大概的代码如下阅读全文

posted @ 2020-08-13 18:12 喜欢爬的孩子阅读(200) 评论(0) 推荐(0)

虚拟机的相关操作hadoop环境配置

摘要：1）有些人安装的linux的系统默认防火墙不是iptables,而是firewall,那就得使用以下方式关闭防火墙了。 >>>关闭防火墙 systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service # 阅读全文

posted @ 2020-08-12 22:28 喜欢爬的孩子阅读(176) 评论(0) 推荐(0)

20年暑假第二周周总结

摘要：这一周自己大约一共发了7篇博客：所涉及到的内容是爬虫、大数据、python基础学习、还有就是linux学习。对爬虫项目进行了实战爬取了QQ音乐排行榜上面的音乐信息最后将先关爬取到的信息存储到数据库之中，然后就是安装了虚拟机并通过软件成功连接上了虚拟机之后就是对于linux的学习操作。因为刚开始阅读全文

posted @ 2020-08-11 21:00 喜欢爬的孩子阅读(148) 评论(0) 推荐(0)

linux学习数据

摘要：linux学习因为要学习Hadoop大数据，会用到Linux服务器集群来做，因此有必要回顾一下当年大一所学习的Linux知识 1|1①Linux系统有7个运行级别(runlevel)：运行级别0：系统停机状态，系统默认运行级别不能设为0，否则不能正常启动运行级别1：单用户工作状态，root权限阅读全文

posted @ 2020-08-10 21:24 喜欢爬的孩子阅读(310) 评论(2) 推荐(0)

大数据05

摘要：hadoop是分布式系统基础架构： 1）主要解决的是海量数据的存储和海量数据的分析计算 2）haddop的三大发行版本，一下这个是免费的版本 3）hadoop的优势高可靠性、高扩展性、高效性（并行工作）、高容错性 4）hadoop1.x组成：common辅助工具、hdfs数据存储、MapReduc 阅读全文

posted @ 2020-08-10 21:15 喜欢爬的孩子阅读(146) 评论(0) 推荐(0)

爬取QQ音乐排行榜的相关音乐信息

摘要：这次是爬取音乐的相关内容之后写进数据库：具体的实验代码如下： import requests import pymysql #用此函数爬取网页数据 def get_html(): url='https://u.y.qq.com/cgi-bin/musics.fcg?-=getUCGI6632950 阅读全文

posted @ 2020-08-09 21:16 喜欢爬的孩子阅读(426) 评论(0) 推荐(0)

大数据04

摘要：在虚拟机上进行用户的增加：以及相应的其他命令的设置：阅读全文

posted @ 2020-08-09 20:12 喜欢爬的孩子阅读(94) 评论(0) 推荐(0)

大数据03

摘要：可以右键选快照拍摄快照。相当于数据库的备份操作，方便之后出错后修复；快照的删除和恢复： 1）linux进行文件的解压：在上边输入rz进行目录选择自己想要上传的压缩包 2） 4）阅读全文

posted @ 2020-08-09 20:06 喜欢爬的孩子阅读(121) 评论(0) 推荐(0)

大数据学习02

摘要：linux的操作命令（首先是对其目录的结构进行了解） ctrl+l进行清屏操作 1）ls命令：名字为：显示文件列表命令 h相比较更加人性。 ls -l和ll是等价的最常用的是ls和ll 2）pwd、mkdir、rm命令 pwd查看当前所在的路径。mkdir是创建文件夹或者是创建目录。在当前的目阅读全文

posted @ 2020-08-08 20:56 喜欢爬的孩子阅读(122) 评论(0) 推荐(0)

大数据学习01

摘要：今天主要是进行了centos的相关配置以及安装。对于操作的流程如下：阅读全文

posted @ 2020-08-08 16:09 喜欢爬的孩子阅读(123) 评论(0) 推荐(0)

20年暑假第一周周总结

摘要：这一周自己大约一共发了10篇博客：所涉及到的内容是爬虫、算法、python基础学习。其中对于Python的爬虫学习比较深入，实战了4、5个项目，涉及到了网页爬取的时候关于静态动态的处理，然后就是筛选数据、将数据存放到excel中并生成各种图标（柱形图、圆饼图等等）然后在算法方面，自己学习的主要阅读全文

posted @ 2020-08-06 20:32 喜欢爬的孩子阅读(94) 评论(0) 推荐(0)

python基础学习03

摘要：代码的验颜值真的很重要 1）对于if语句另外一个使用的方法： m=a if a<b else b;通c++中的语句类似但是不一样 2）while和else语句连用。可以用来比较准确的来判断while循环的次数，以及他的执行情况 3）对于for循环的迭代过程： for i in 'wen': 之后可阅读全文

posted @ 2020-08-06 18:24 喜欢爬的孩子阅读(182) 评论(0) 推荐(0)

python爬取链家二手房信息

摘要：程序的代码如下：完成的操作：爬取相关的信息之后保存到数据库之中 '''使用面向对象的方式，搭建项目框架''' import requests import openpyxl from bs4 import BeautifulSoup import pymysql class LianJiaSpid 阅读全文

posted @ 2020-08-05 18:34 喜欢爬的孩子阅读(336) 评论(0) 推荐(0)

python新知识点

摘要：1）以往的两个变量交换数据，是引入另外一个变量。但是python中可以。x,y=y,x；这样来进行数据的交换 2) 3）因为python里面关于浮点数类型的计算容易有误差：比如在python中0.1+0.2=0.300000004他的数值与0.3并不相等。为了避免这种事情。我们引用一个类decim 阅读全文

posted @ 2020-08-04 09:57 喜欢爬的孩子阅读(203) 评论(0) 推荐(0)

通过python读取xlsx中的数据生成各种图标

摘要：运行结果：程序代码如下： #将excel中的数据进行读取分析 import openpyxl import numpy as np import math import matplotlib.pyplot as pit wk=openpyxl.load_workbook('信息11.xlsx') 阅读全文

posted @ 2020-08-03 09:04 喜欢爬的孩子阅读(524) 评论(0) 推荐(0)

背包问题求解方案数目

摘要：这个问题主要是在01背包上进行进行修改，添加一个一维数组：代码如下： #include<iostream> #include<cmath> #include<cstring> #include<vector> #include<algorithm> using namespace std; con 阅读全文

posted @ 2020-08-01 17:20 喜欢爬的孩子阅读(250) 评论(0) 推荐(0)

爬取求职网站的相关信息

摘要：代码如下： import requests import openpyxl import time from bs4 import BeautifulSoup #用于解析和提取网页数据的 lst=[]#列表 def send_request(id,page): url = 'https://www. 阅读全文

posted @ 2020-08-01 17:16 喜欢爬的孩子阅读(234) 评论(0) 推荐(0)

悄悄成长

08 2020 档案

公告