随笔分类 -  大数据框架

看看Hadoop、spark、hive是什么魔鬼
摘要:一直想知道动态图谱是怎么画出来的,特地搜索了下 1. Flourish 2. power BI+Animated Bar Chart Race插件 我还没接触过power BI 3. 花火hanabi 官方文档:http://hanabi.data-viz.cn/help 4.Python数据可视化 阅读全文
posted @ 2020-03-24 20:05 lililili—— 阅读(940) 评论(0) 推荐(0)
摘要:计算每种图书每天的销量 假如数据: 程序实现 阅读全文
posted @ 2020-03-10 21:51 lililili—— 阅读(463) 评论(0) 推荐(0)
摘要:对word.txt文件做词频统计 word.txt中的内容 具体程序 阅读全文
posted @ 2020-03-10 17:45 lililili—— 阅读(213) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-03-10 08:10 lililili—— 阅读(194) 评论(0) 推荐(0)
摘要:命令式编程:C C++等 函数式编程: Haskell,Erlang,lisp, scala scala的基本介绍: scala在java基础上开发的,Martin scala运行在java虚拟机(jvm)之上 scala是面型对象的语言,每一个值都是对象 scala并发性好,含有轻量级函数(lam 阅读全文
posted @ 2020-03-09 16:04 lililili—— 阅读(239) 评论(0) 推荐(0)
摘要:1. Hadoop 2005 2015最主流 数据仓库和数据库有啥区别 数据库是存储某一时刻的数据信息 而数据仓库是存储连续时间段的数据信息(反映了时间维度) 因此,数据仓库可以做很多决策分析,例如OLAP分析,可以对多维数据分析,可以分析商品销量的走势之类,销量变化情况 Hive的数据保存在底层的 阅读全文
posted @ 2020-03-09 11:32 lililili—— 阅读(729) 评论(0) 推荐(0)
摘要:1. 批处理计算 批量处理无法实现实时计算,可以用Mapreduce和spark。 由于spark是将数据放在内存中计算的,而mapreduce数据在磁盘中,需要将数据从磁盘中读取到内存,算完后再释放回磁盘 因此spark可以实现接近准实时性和秒级的响应 2. 流计算 数据源源不断的放入系统中计算( 阅读全文
posted @ 2020-03-09 10:58 lililili—— 阅读(7637) 评论(0) 推荐(0)
摘要:分布四个部分 1. 数据采集 通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。 extract, transform,load 2. 数据存储和管理 典型的存储地方: 文件系统和数据库 由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百 阅读全文
posted @ 2020-03-09 10:42 lililili—— 阅读(3341) 评论(0) 推荐(0)
摘要:科学研究经历了4个阶段 第一阶段 以实验研究为基础的第一范式 通过做实验来研究问题,例如伽利略 第二阶段 以理论提出为基础的第二范式 例如牛顿的三大定律 第三阶段 以计算为基础的第三范式 例如天河二号,互联网 假如想知道某个商品的销量下降的原因,我们会写程序去探究啥原因 第四阶段 以数据为中心的第四 阅读全文
posted @ 2020-03-09 10:24 lililili—— 阅读(1033) 评论(0) 推荐(0)
摘要:首先参看关于关系型数据库和非关系型数据库的介绍 计算机信息化系统中的数据分为结构化数据、半结构化数据和非结构化数据。 结构化数据 指由二维表结构表达数据的逻辑关系,严格遵循数据格式和长度规范,主要是通过关系型数据库来存储和管理。 非结构化数据 是数据结构不规则或者不完整,没有预定义的数据模型,主要通 阅读全文
posted @ 2020-03-04 22:33 lililili—— 阅读(757) 评论(0) 推荐(0)
摘要:combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>) 它是一个泛型函数,主要完成聚合 阅读全文
posted @ 2020-03-03 11:53 lililili—— 阅读(422) 评论(0) 推荐(0)
摘要:键值对RDD(pair RDD)是常见的数据类型 用于聚合计算 一般先通过初始的ETL(抽取,转化、装载)操作来将数据转化为键值对形式。 pair RDD的创建 键值对就是我们常见的字典类型的数据 如果数据格式本身就是键值对,在读取时直接返回由其键值对数据组成的pair RDD。 如果将一个普通的R 阅读全文
posted @ 2020-02-29 22:47 lililili—— 阅读(325) 评论(0) 推荐(0)
摘要:RDD(Resilient Distributed Dataset)弹性分布式数据集 Spark程序如何工作: 即: step1: 从外部数据创建输入RDD step2: 使用诸如filter()这样的转换操作对RDD进行转换,以定义新的RDD step3: 告诉Spark对需要重用的中间结果RDD 阅读全文
posted @ 2020-02-29 17:03 lililili—— 阅读(162) 评论(0) 推荐(0)
摘要:错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva 阅读全文
posted @ 2020-02-29 12:03 lililili—— 阅读(2801) 评论(0) 推荐(0)
摘要:环境:win10 这里介绍了在spark环境下如何通过shell来打开python和scala 目标: 由于我擅长python语言,jupyter notebook 是我比较熟悉的编辑器(由于其方便的单元测试,可以很好的进行结果展示) 所以,我想在pyspark环境下启动jupyter notebo 阅读全文
posted @ 2020-02-29 11:29 lililili—— 阅读(707) 评论(0) 推荐(0)
摘要:本机:win10 python3.5.4 spark3.0.0 JDK13.0.1 scala2.13.1 hadoop2.7.7 shell的交互式环境是帮助你调试程序的! 情况一:如果想打开scala版本的shell 终端输入 spark-shell 进入scala的shell(由于没有添加-- 阅读全文
posted @ 2020-02-28 22:56 lililili—— 阅读(1181) 评论(0) 推荐(0)
摘要:本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja 阅读全文
posted @ 2020-02-28 21:50 lililili—— 阅读(1316) 评论(0) 推荐(0)
摘要:1.查询语言不同:hive是hql语言,mysql是sql语句; 2.数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3.数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4.数据更新:hive不支持数据更新,只可以读,不可以写, 阅读全文
posted @ 2019-09-20 10:19 lililili—— 阅读(6163) 评论(0) 推荐(0)