摘要: 1.hbase的特点是什么? 答:1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。 3)hbase为null的数据不会阅读全文
posted @ 2018-07-26 22:04 stone12345 阅读(431) 评论(0) 编辑
摘要: Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库、工具(2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删阅读全文
posted @ 2018-07-16 15:47 stone12345 阅读(964) 评论(0) 编辑
摘要: 本文系原创,若有转载需要,请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架:(画图不易,请勿挑剔) 2.1. inputformat工作机制 在 Ma阅读全文
posted @ 2018-07-14 07:47 stone12345 阅读(90) 评论(0) 编辑
摘要: 一、shuffle操作 1.spark中特定的操作会触发我们都知道的shuffle事件,shuffle是spark进行数据重新分布的机制,这通常涉及跨执行程序和机器来赋值数据,使得混洗称为复杂而且昂贵的操作。 2.为了理解shuffle过程中所发生的事情,我们先来关注reduceByKey操作的例子阅读全文
posted @ 2018-11-18 14:25 stone12345 阅读(0) 评论(0) 编辑
摘要: 一、Linux系统简介 1.什么是linux Linux是一个免费的、多用户、多任务的操作系统,其运行方式、功能和UNIX系统很相似,但Linux系统的稳定性、安全性与网络功能是许多商业操作系统所无法比拟的。Linux系统最大的特色是源代码完全公开,在符合GNU/GPL(通用公共许可证)的原则下,任阅读全文
posted @ 2018-11-15 21:12 stone12345 阅读(1) 评论(0) 编辑
摘要: 一、Pandas的数据结构 1.Series (1)类似于一维数组 (2)通过list构建Series ser_obj=pd.Series(range(10)) (3)pandas数据结构案例阅读全文
posted @ 2018-11-13 07:45 stone12345 阅读(1) 评论(0) 编辑
摘要: 一、白话期权 本文来自知乎,对于一个NJU软工学生来说,先来补补脑:https://zhuanlan.zhihu.com/optionmarketmaking 随着2015年上证50ETF 期权的开放,豆粕和白糖期权的即将开市,最近几年期权在国内逐渐火了起来。虽然关注了一些国内相关的期权平台,公众账阅读全文
posted @ 2018-11-09 23:16 stone12345 阅读(2) 评论(0) 编辑
摘要: 一、简单表述 通过大量重复产生大量随机数模拟可能的实现环境帮助我们解决不确定场景下 的决策问题的方法 二、圆周率pi的计算 代码: 三、蒙特卡洛模拟在期权定价或者风险管理问题上有很强的能力,容易处理高维问题 缺点:高计算要求,因此必须高效的实现该算法 实现策略:(1)从基础到向量化两种方法 (2)纯阅读全文
posted @ 2018-11-09 23:11 stone12345 阅读(8) 评论(0) 编辑
摘要: 一、SPARK-CORE 1.spark核心模块是整个项目的基础。提供了分布式的任务分发,调度以及基本的IO功能,Spark使用基础的数据结构,叫做RDD(弹性分布式数据集),是一个逻辑的数据分区的集合,可以跨机器。RDD可以通过两种方式进行创建,一种是从外部的数据集引用数据,第二种方式是通过在现有阅读全文
posted @ 2018-11-09 18:36 stone12345 阅读(1) 评论(0) 编辑
摘要: 一、弹性分布式数据集 1.弹性分布式数据集(RDD)是spark数据结构的基础。它是一个不可变的分布式对象的集合,RDD中的每个数据集都被划分为一个个逻辑分区,每个分区可以在集群上的不同节点上进行计算。RDDs可以包含任何类型的Python,Java或者Scala对象,包括用户自定义的类。 2.正常阅读全文
posted @ 2018-11-09 14:36 stone12345 阅读(1) 评论(0) 编辑
摘要: 每日一博:今天总结一下shell脚本吧 Shell程序就是放在一个文件中的一系列 Linux命令和实用程序,在执行的时候,通过 Linux系统一个接着一个地解释和执行每个命 令,这和Windows系统下的批处理程序非常相 似。 一、理论知识 1.开头:Shell程序必须以#!/bin/bash来作为阅读全文
posted @ 2018-11-08 23:16 stone12345 阅读(3) 评论(0) 编辑
摘要: 零、Python语言基础复习 一、环境部署 1.python包管理: (1)安装:pip install xxx,conda install xxx (2)卸载:pip uninstall xxx, conda uninstall xxx (3)升级:pip install -upgrade xxx阅读全文
posted @ 2018-11-07 07:56 stone12345 阅读(0) 评论(0) 编辑
摘要: 一、介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取。并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和windo阅读全文
posted @ 2018-11-06 18:01 stone12345 阅读(9) 评论(0) 编辑