2020 年 5月随笔档案 - cknds

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

摘要：坑：在虚拟机上开启cdh 5.8.2集群后，在linux客户端使用 spark-shell 命令开启spark shell时候报错： [root@master conf]# spark-shell Exception in thread "main" java.lang.NoClassDefFou 阅读全文

posted @ 2020-05-26 16:48 cknds 阅读(1360) 评论(0) 推荐(0)

CDH管理界面查看各框架的版本（hive为例）

摘要：安装好的CDH如果查看hive的版本呢， 1、官网 2、管理界面中官网查看一般看到的都是CDH系统默认自带的版本，如果你的CDH在运行的过程中升级过，那再参考官网的版本就会出现错误。参考：http://www.cloudera.com/documentation/enterprise/relea 阅读全文

posted @ 2020-05-26 15:06 cknds 阅读(3428) 评论(0) 推荐(0)

Cloudera hadoop配置文件地址和修改配置属性方法

摘要：问题导读 1.cloudera 的配置文件路径默认在什么位置？ 2.如何通过cloudera manager web UI修改配置文件？配置文件地址： Hadoop: /etc/hadoop/conf hbase: /etc/hadoop/conf hive: /etc/hive/conf 使用c 阅读全文

posted @ 2020-05-26 15:04 cknds 阅读(3009) 评论(0) 推荐(0)

idea快速创建级联目录

摘要：点击左边项目结构右上方的小齿轮，取消勾选compact middle packlages选项，此时你建立一个com.itheima.package包，就会显示为com包下itheima包，itheima包下package! 阅读全文

posted @ 2020-05-22 16:37 cknds 阅读(578) 评论(0) 推荐(0)

为什么您应该使用`python -m pip`

摘要：核心开发人员和加拿大人Mariatta在Twitter上询问了有关python -m pip的问题，以及谁向她介绍了该惯用法并要求其提供解释它的参考资料：我以前就了解到我们应该使用‘python -m pip install……’，而不是简单地使用‘pip install ...’，但现在我不记得阅读全文

posted @ 2020-05-20 17:15 cknds 阅读(622) 评论(0) 推荐(0)

join ... on.... [and] 的理解

摘要：建表： CREATE TABLE `tb1` ( `a_id` INT(11) NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '序号', `a_name` VARCHAR(50) NOT NULL COMMENT '名字' ) ; CREATE TABLE 阅读全文

posted @ 2020-05-15 17:23 cknds 阅读(1645) 评论(0) 推荐(0)

MySQL语句执行顺序和编写顺序

摘要：select语句完整语法： SELECT DISTINCT <select_list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition> GROUP BY <gro 阅读全文

posted @ 2020-05-15 15:30 cknds 阅读(364) 评论(0) 推荐(0)

一文读懂一台计算机是如何把数据发送给另一台计算机的

摘要：前言天各一方的两台计算机是如何通信的呢？在成千上万的计算机中，为什么一台计算机能够准确着寻找到另外一台计算机，并且把数据发送给它呢？可能很多人都听说过网络通信的 5 层模型，但是可能并不是很清楚为什么需要五层模型，五层模型负责的任务也有可能经常混淆。下面是网络通信的五层模型说实话，五层模型的具阅读全文

posted @ 2020-05-15 00:22 cknds 阅读(484) 评论(0) 推荐(0)

mysql怎么查看数据库中数据的大小

摘要：1、查询整个mysql数据库，整个库的大小；e79fa5e98193e78988e69d8331333431376638单位转换为MB。 select concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') as data from information_ 阅读全文

posted @ 2020-05-14 16:22 cknds 阅读(3327) 评论(0) 推荐(0)

什么是全量表，增量表，快照表，拉链表，维度表，事实表，实体表

摘要：全量表全量表没有分区，表中的数据是前一天的所有数据，比如说今天是24号，那么全量表里面拥有的数据是23号的所有数据，每次往全量表里面写数据都会覆盖之前的数据，所以全量表不能记录历史的数据情况，只有截止到当前最新的、全量的数据。快照表那么要能查到历史数据情况又该怎么办呢？这个时候快照表就派上用途了，快阅读全文

posted @ 2020-05-14 15:16 cknds 阅读(2836) 评论(0) 推荐(1)

什么是拉链表

摘要：原文地址：https://blog.csdn.net/xiepeifeng/article/details/42431027 在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等;3. 需要查看阅读全文

posted @ 2020-05-14 15:05 cknds 阅读(490) 评论(0) 推荐(0)

数仓设计

摘要：数据仓库设计方案一.概述数据仓库的特征在于面向主题、集成性、稳定性和时变性，用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。数仓分层的主要原因：清晰数据阅读全文

posted @ 2020-05-14 14:46 cknds 阅读(762) 评论(0) 推荐(0)

pandas学习

摘要：Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容： 1、数据结构简介：DataFrame和Series 2、数据索引index 3、利用pandas查询数据 4、利用pandas的DataFrames进行统计分析 5、利用pandas实现SQL操作 6、利阅读全文

posted @ 2020-05-11 10:16 cknds 阅读(221) 评论(0) 推荐(0)

矩阵和数组的区别

摘要：矩阵和数组的区别数组中的元素可以是字符等矩阵中的只能是数这是二者最直观的区别。因为矩阵是一个数学概念（线性代数里的），数组是个计算机上的概念。你见过纯粹数学中有数组的概念吗？没有。因为计算机上（准确的说是信息科学中）常用到线性代数的知识，就引用了矩阵的概念。《精通MATLAB6.5版》（张志涌编阅读全文

posted @ 2020-05-09 23:49 cknds 阅读(1120) 评论(0) 推荐(1)

中文文本关键词抽取的三种方法（TF-IDF、TextRank、word2vec）

摘要：链接地址：https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法词频（Term Frequency，TF）指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频，因此根据文件的长度阅读全文

posted @ 2020-05-09 14:03 cknds 阅读(13670) 评论(1) 推荐(2)

python使用结巴分词(jieba)创建自己的词典/词库

摘要：为什么需要在python使用结巴分词(jieba)创建自己的词典/词库，因为很多时候分词给我们的结果了能刚好相反，如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典，基本的安装和基本使用大家直接去看那篇文章即可，我们主要介绍如何python创建阅读全文

posted @ 2020-05-09 13:46 cknds 阅读(15902) 评论(1) 推荐(1)

cknds

05 2020 档案

公告