随笔分类 - 大数据
摘要:一、今日学习内容 今天进行了对观影大数据的分析,对数据进行了数据清洗、数据分析,要求数据清洗要用大数据分析平台,数据分析用python 数据清洗 1、导入数据 2、缺失值处理 缺失记录仅___3___条,采取网上搜索,补全信息。 2、1补全release_date 缺失记录的电影标题为《_Ameri
阅读全文
摘要:一、今日学习内容 1、Docker安装 (1)安装docker所需的软件包 sudo yum install -y yum-utils \device-mapper-persistent-data \ lvm2 (2)设置稳定的仓库,选用aliyun的源地址 sudo yum-config-mana
阅读全文
摘要:一、今日学习内容 实验一 HADOOP实验-HDFS与MAPREDUCE操作 一、实验目的 1、利用虚拟机搭建集群部署hadoop 2、HDFS文件操作以及文件接口编程; 3、MAPREDUCE并行程序开发、发布与调用。 二、实验内容 1、虚拟机集群搭建部署hadoop 利用VMware、centO
阅读全文
摘要:一、今日学习内容 1、数据导入展示: 将所有类别的新闻导入数据库中。以树形目录形式展示新闻类别,每个树形节点代表新闻分类,括号中代表该类新闻的数量,选择每个新闻,以列表形式显示新闻标题,点击新闻标题,可以查看详细信息。 将数据导入mysql 关于树形结构展示 2、文章统计: 统计各个类别的文章总数,
阅读全文
摘要:一、今日学习内容 单表join 04.Mapreduce实例——单表join 实验目的 1.准确理解MapReduce单表连接的设计原理 2.熟练掌握MapReduce单表连接程序的编写 3.了解单表连接的运用场景 4.学会编写MapReduce单表连接程序代码解决问题 实验原理 以本实验的buye
阅读全文
摘要:一、今日学习内容 今天完成了关于Mapreduce的实验,例:去重 实验目的 1.准确理解MapReduce去重的设计原理 2.熟练掌握MapReduce去重的程序编写 3.学会自己编写MapReduce去重代码解决实际问题 实验原理 “数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛
阅读全文
摘要:一、今日学习内容 数据分析平台自动读取文件生成数据字典 关键代码: public List<Data1> poi2(String path){ List<Data1> list=new ArrayList<>(); try { FileInputStream fis = new FileInputS
阅读全文
摘要:一、今日学习内容 今天实现了excel表格文件的上传 <%-- Created by IntelliJ IDEA. User: ASUS Date: 2021/10/31 Time: 15:07 To change this template use File | Settings | File T
阅读全文
摘要:一、今日学习内容 1、组内成员:张子怡、王梦笛、马荣荣 2、纸上原型:
阅读全文
摘要:一、今日内容 一、今日学习内容 实验4:NoSQL和关系数据库的操作比较 MongoDB数据库操作 Student文档如下: { “name”: “zhangsan”, “score”: { “English”: 69, “Math”: 86, “Computer”: 77 } } { “name”
阅读全文
摘要:一、今日学习内容 将表存入mysql //sqoop语句 bin/sqoop export \ --connect jdbc:mysql://192.168.51.100:3306/myhive \ --username root \ --password root \ --table data \
阅读全文
摘要:一、今日学习内容 1、将数据导入hive在hive进行数据的处理,对数据进行清洗将括号去掉; 导入表并删除括号; 创建test1和test2来分别存储只出不进和只进不出的企业; Test1建表 create table test1(nsr_id String) ROW format delimite
阅读全文
摘要:一、今日学习内容 1、数据组成 (1)增值税发票数据,文件名zzsfp (2)发票对应货物明细数据,文件名zzsfp_hwmx (3)企业信息,文件名nsrxx 2、数据字段说明 (1)zzsfp表字典 字段名称 字段含义 数据类型 备注 fp_nid 发票id String 发票唯一标识 xf_i
阅读全文
摘要:一、今日学习内容 1、导入到hive 2、数据清洗 3、数据处理 (1)机场: (2)代理商: (3)代理商活跃度 (4)销售利润 4、导入到Mysql 5、可视化 二、遇到的问题 数据清洗不是很明白,对于数据处理的sql语句也不是很清楚
阅读全文
摘要:一、今日学习内容 1、下载并解压 1) 下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 到虚拟机中 3) 解压 sqoop 安装包到指定目录
阅读全文
摘要:一、今日学习内容 打开hive,需要打开hdfs 和 yarn,相关命令: cd /kkb/install/hive hive --service metastore bin/hive --service hiveserver2 bin/beeline -u jdbc:hive2://node01:
阅读全文
摘要:一、今日学习内容 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出,因此提供了很高的并行性能以
阅读全文
摘要:一、今日学习内容 关于Hive安装问题 学习视频:尚硅谷大数据教程 在这里记录一下安装过程中遇到的一些错误,主要问题集中在 hive-site.xml 文件中 1、Hive启动报错 com.ctc.wstx.exc.WstxParsingException: Illegal character en
阅读全文
摘要:一、今日学习内容 1. 一、什么是元数据 又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来自持如只是存储位置、历史数据、资源查找、文件记录等功能。 二、Hive Metadata Hive Metadata即Hive的元数据。 包含用Hive创建的database、table
阅读全文
摘要:一、今日学习内容 Hive和MySQL对比 1、Hive虽然有RDBMS数据库的外表,包括数据模型、SQL语法都十分相似,但应用场景却完全不同。 2、Hive只适合用来做海量数据的离线分析。Hive的定位是数据仓库,面向分析的OLAP系统。 3、Hive不是大型数据库,也不是要取代MySQL承担业务
阅读全文

浙公网安备 33010602011771号