05 2020 档案

摘要:坑: 在虚拟机上开启cdh 5.8.2集群后,在linux客户端使用 spark-shell 命令开启spark shell时候报错: [root@master conf]# spark-shell Exception in thread "main" java.lang.NoClassDefFou 阅读全文
posted @ 2020-05-26 16:48 cknds 阅读(1360) 评论(0) 推荐(0)
摘要:安装好的CDH如果查看hive的版本呢, 1、官网 2、管理界面中 官网查看一般看到的都是CDH系统默认自带的版本,如果你的CDH在运行的过程中升级过,那再参考官网的版本就会出现错误。 参考:http://www.cloudera.com/documentation/enterprise/relea 阅读全文
posted @ 2020-05-26 15:06 cknds 阅读(3428) 评论(0) 推荐(0)
摘要:问题导读 1.cloudera 的配置文件路径默认在什么位置? 2.如何通过cloudera manager web UI修改配置文件? 配置文件地址: Hadoop: /etc/hadoop/conf hbase: /etc/hadoop/conf hive: /etc/hive/conf 使用c 阅读全文
posted @ 2020-05-26 15:04 cknds 阅读(3009) 评论(0) 推荐(0)
摘要:点击左边项目结构右上方的小齿轮,取消勾选compact middle packlages选项,此时你建立一个com.itheima.package包,就会显示为com包下itheima包,itheima包下package! 阅读全文
posted @ 2020-05-22 16:37 cknds 阅读(578) 评论(0) 推荐(0)
摘要:核心开发人员和加拿大人Mariatta在Twitter上询问了有关python -m pip的问题,以及谁向她介绍了该惯用法并要求其提供解释它的参考资料: 我以前就了解到我们应该使用‘python -m pip install……’,而不是简单地使用‘pip install ...’,但现在我不记得 阅读全文
posted @ 2020-05-20 17:15 cknds 阅读(622) 评论(0) 推荐(0)
摘要:建表: CREATE TABLE `tb1` ( `a_id` INT(11) NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '序号', `a_name` VARCHAR(50) NOT NULL COMMENT '名字' ) ; CREATE TABLE 阅读全文
posted @ 2020-05-15 17:23 cknds 阅读(1645) 评论(0) 推荐(0)
摘要:select语句完整语法: SELECT DISTINCT <select_list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition> GROUP BY <gro 阅读全文
posted @ 2020-05-15 15:30 cknds 阅读(364) 评论(0) 推荐(0)
摘要:前言 天各一方的两台计算机是如何通信的呢?在成千上万的计算机中,为什么一台计算机能够准确着寻找到另外一台计算机,并且把数据发送给它呢? 可能很多人都听说过网络通信的 5 层模型,但是可能并不是很清楚为什么需要五层模型,五层模型负责的任务也有可能经常混淆。下面是网络通信的五层模型 说实话,五层模型的具 阅读全文
posted @ 2020-05-15 00:22 cknds 阅读(484) 评论(0) 推荐(0)
摘要:1、查询整个mysql数据库,整个库的大小;e79fa5e98193e78988e69d8331333431376638单位转换为MB。 select concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') as data from information_ 阅读全文
posted @ 2020-05-14 16:22 cknds 阅读(3327) 评论(0) 推荐(0)
摘要:全量表全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。快照表那么要能查到历史数据情况又该怎么办呢?这个时候快照表就派上用途了,快 阅读全文
posted @ 2020-05-14 15:16 cknds 阅读(2836) 评论(0) 推荐(1)
摘要:原文地址:https://blog.csdn.net/xiepeifeng/article/details/42431027 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看 阅读全文
posted @ 2020-05-14 15:05 cknds 阅读(490) 评论(0) 推荐(0)
摘要:数据仓库设计方案 一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因: 清晰数据 阅读全文
posted @ 2020-05-14 14:46 cknds 阅读(762) 评论(0) 推荐(0)
摘要:Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容: 1、数据结构简介:DataFrame和Series 2、数据索引index 3、利用pandas查询数据 4、利用pandas的DataFrames进行统计分析 5、利用pandas实现SQL操作 6、利 阅读全文
posted @ 2020-05-11 10:16 cknds 阅读(221) 评论(0) 推荐(0)
摘要:矩阵和数组的区别 数组中的元素可以是字符等矩阵中的只能是数这是二者最直观的区别。因为矩阵是一个数学概念(线性代数里的),数组是个计算机上的概念。你见过纯粹数学中有数组的概念吗?没有。因为计算机上(准确的说是信息科学中)常用到线性代数的知识,就引用了矩阵的概念。 《精通MATLAB6.5版》(张志涌编 阅读全文
posted @ 2020-05-09 23:49 cknds 阅读(1120) 评论(0) 推荐(1)
摘要:链接地址:https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度 阅读全文
posted @ 2020-05-09 14:03 cknds 阅读(13670) 评论(1) 推荐(2)
摘要:为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建 阅读全文
posted @ 2020-05-09 13:46 cknds 阅读(15902) 评论(1) 推荐(1)