随笔分类 - 大数据框架
看看Hadoop、spark、hive是什么魔鬼
摘要:一直想知道动态图谱是怎么画出来的,特地搜索了下 1. Flourish 2. power BI+Animated Bar Chart Race插件 我还没接触过power BI 3. 花火hanabi 官方文档:http://hanabi.data-viz.cn/help 4.Python数据可视化
阅读全文
摘要:计算每种图书每天的销量 假如数据: 程序实现
阅读全文
摘要:对word.txt文件做词频统计 word.txt中的内容 具体程序
阅读全文
摘要:命令式编程:C C++等 函数式编程: Haskell,Erlang,lisp, scala scala的基本介绍: scala在java基础上开发的,Martin scala运行在java虚拟机(jvm)之上 scala是面型对象的语言,每一个值都是对象 scala并发性好,含有轻量级函数(lam
阅读全文
摘要:1. Hadoop 2005 2015最主流 数据仓库和数据库有啥区别 数据库是存储某一时刻的数据信息 而数据仓库是存储连续时间段的数据信息(反映了时间维度) 因此,数据仓库可以做很多决策分析,例如OLAP分析,可以对多维数据分析,可以分析商品销量的走势之类,销量变化情况 Hive的数据保存在底层的
阅读全文
摘要:1. 批处理计算 批量处理无法实现实时计算,可以用Mapreduce和spark。 由于spark是将数据放在内存中计算的,而mapreduce数据在磁盘中,需要将数据从磁盘中读取到内存,算完后再释放回磁盘 因此spark可以实现接近准实时性和秒级的响应 2. 流计算 数据源源不断的放入系统中计算(
阅读全文
摘要:分布四个部分 1. 数据采集 通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。 extract, transform,load 2. 数据存储和管理 典型的存储地方: 文件系统和数据库 由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百
阅读全文
摘要:科学研究经历了4个阶段 第一阶段 以实验研究为基础的第一范式 通过做实验来研究问题,例如伽利略 第二阶段 以理论提出为基础的第二范式 例如牛顿的三大定律 第三阶段 以计算为基础的第三范式 例如天河二号,互联网 假如想知道某个商品的销量下降的原因,我们会写程序去探究啥原因 第四阶段 以数据为中心的第四
阅读全文
摘要:首先参看关于关系型数据库和非关系型数据库的介绍 计算机信息化系统中的数据分为结构化数据、半结构化数据和非结构化数据。 结构化数据 指由二维表结构表达数据的逻辑关系,严格遵循数据格式和长度规范,主要是通过关系型数据库来存储和管理。 非结构化数据 是数据结构不规则或者不完整,没有预定义的数据模型,主要通
阅读全文
摘要:combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>) 它是一个泛型函数,主要完成聚合
阅读全文
摘要:键值对RDD(pair RDD)是常见的数据类型 用于聚合计算 一般先通过初始的ETL(抽取,转化、装载)操作来将数据转化为键值对形式。 pair RDD的创建 键值对就是我们常见的字典类型的数据 如果数据格式本身就是键值对,在读取时直接返回由其键值对数据组成的pair RDD。 如果将一个普通的R
阅读全文
摘要:RDD(Resilient Distributed Dataset)弹性分布式数据集 Spark程序如何工作: 即: step1: 从外部数据创建输入RDD step2: 使用诸如filter()这样的转换操作对RDD进行转换,以定义新的RDD step3: 告诉Spark对需要重用的中间结果RDD
阅读全文
摘要:错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva
阅读全文
摘要:环境:win10 这里介绍了在spark环境下如何通过shell来打开python和scala 目标: 由于我擅长python语言,jupyter notebook 是我比较熟悉的编辑器(由于其方便的单元测试,可以很好的进行结果展示) 所以,我想在pyspark环境下启动jupyter notebo
阅读全文
摘要:本机:win10 python3.5.4 spark3.0.0 JDK13.0.1 scala2.13.1 hadoop2.7.7 shell的交互式环境是帮助你调试程序的! 情况一:如果想打开scala版本的shell 终端输入 spark-shell 进入scala的shell(由于没有添加--
阅读全文
摘要:本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja
阅读全文
摘要:1.查询语言不同:hive是hql语言,mysql是sql语句; 2.数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3.数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4.数据更新:hive不支持数据更新,只可以读,不可以写,
阅读全文

浙公网安备 33010602011771号