摘要: 1.hbase的特点是什么? 答:1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。 3)hbase为null的数据不会阅读全文
posted @ 2018-07-26 22:04 stone1234567890 阅读(724) 评论(0) 编辑
摘要: Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库、工具(2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删阅读全文
posted @ 2018-07-16 15:47 stone1234567890 阅读(1499) 评论(0) 编辑
摘要: 本文系原创,若有转载需要,请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架:(画图不易,请勿挑剔) 2.1. inputformat工作机制 在 Ma阅读全文
posted @ 2018-07-14 07:47 stone1234567890 阅读(180) 评论(0) 编辑
摘要: 一、简介 1.在监督学习中,数据集中的每个样本都被标明为阳性样本或者阴性样本,即良性肿瘤或者恶心肿瘤,对于监督学习中的每个样本,我们已经被清楚的告知了什么是正确的答案,即他们是恶心肿瘤还是良性肿瘤,下图左图是监督学习。在无监督学习中,我们用的数据和之前不同,数据样本没有任何标签,都具有相同的标签或者阅读全文
posted @ 2019-01-19 10:30 stone1234567890 阅读(0) 评论(0) 编辑
摘要: 一、简介 0.example:假设你要对房价进行预测,横轴是不同房屋的平方英尺数,纵轴是不同房子的价格,单位是千美元。那么现在有了这些数据,假设你现在有一栋150平方英尺的房子,你想把这个房子卖掉,想知道能卖多少钱。那么什么样的学习算法能帮到你呢? 学习算法能做的一件事就是根据数据画一条直线来拟合数阅读全文
posted @ 2019-01-19 09:29 stone1234567890 阅读(1) 评论(0) 编辑
摘要: 写在开头的话,本博客内容全部来自吴恩达深度学习教学课程,插图均来自吴恩达课件,在此说明来处,不喜勿喷! 一、什么是神经网络 1.我们从一个房屋加个预测的例子开始,假设有一个6间房间的数据集,已知房屋的面积单位是平方米或者平方英尺,已知房屋加个,现在想要找到一个函数,根据房屋面积来预测房屋价格的函数。阅读全文
posted @ 2019-01-18 22:02 stone1234567890 阅读(3) 评论(0) 编辑
摘要: 一、神经网络起源:线性回归 1.线性回归: (1)概念:线性关系来藐视输入到输出的映射关系 (2)应用场景:网络分析,银行风向分析 (3)线性回归问题: 优化方法:梯度下降法SGD 梯度下降总结: 2.线性回归多个y值的输出 (1)多目标学习的过程,通过合并多个任务loss,一般能够产生比单个模型更阅读全文
posted @ 2019-01-18 19:00 stone1234567890 阅读(2) 评论(0) 编辑
摘要: 一、神经网络与卷积神经网络 0.DNN能用到计算机视觉上吗?为什么需要CNN? 卷积神经网络和人工神经网络的差异在哪? 1.层级结构 (1)保持了层级的网络结构 (2)不同的层次有不同形式的(运算)与功能 (3)主要是以下的层次: 数据输入层/input layer 卷积计算层 /CONV laye阅读全文
posted @ 2019-01-15 21:07 stone1234567890 阅读(5) 评论(0) 编辑
摘要: 1. (1)熵的概念的引入,首先在热力学中,用来表述热力学第二定律。由玻尔兹曼研究得到,热力学熵与微 观状态数目的对数之间存在联系,公式如下: 信息熵的定义与热力学熵的定义虽然不是一个东西,但是有一定的联系,熵在信息论中表示随机变量不确定度的度量。一个离散随机变量X与熵H(X)的定义为: (2)为了阅读全文
posted @ 2019-01-14 14:29 stone1234567890 阅读(6) 评论(0) 编辑
摘要: 一、基本形式: 1.在机器学习中,X一般表示m行1列的列向量: 对于一个m行n列的X矩阵而言,每一行是一个样本,每一列是其特征值。给定d个属性描述的示例x=(x1;x2;x3;.........xd),其中xi是在第i个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行函数的预测 即: 而对阅读全文
posted @ 2019-01-13 09:30 stone1234567890 阅读(5) 评论(0) 编辑
摘要: 1.S 型神经元和感知器类似,但是被修改为权重和偏置的微小改动只引起输出的微小变化 2.S型神经元结构: S型函数: 带有x1,x2,........,权重w1,w2.....,和偏置b的S型神经元的输出是: sigmoid函数图像阅读全文
posted @ 2019-01-11 21:54 stone1234567890 阅读(1) 评论(0) 编辑
摘要: 在神经网络中,我们主要使用的是一种称为S型神经元的神经元模型。感知器就是我们所谓的“人工神经元”。那么感知器怎么工作的呢,接下来我们来谈谈。 1.感知器工作机制: 上图中有x1,x2和x3输入,一般情况下我们可以引入权重w1,w2和w3来表示输入对输出的重要性,这时可以计算w1 * x1 +w2 *阅读全文
posted @ 2019-01-11 20:07 stone1234567890 阅读(2) 评论(0) 编辑
摘要: 一、pandas数据操作: 1.处理缺失数据 (1)判断是否存在缺失值 ser_obj.isnull(),df_obj.isnull() (2)dropna:丢弃缺失数据 (3)fillna:填充缺失值 2.常用的统计计算 (1)sum,mean,max,min....... (2)axis=0按照阅读全文
posted @ 2019-01-05 15:48 stone1234567890 阅读(4) 评论(0) 编辑