大数据框架 - 随笔分类 - lililili——

数据可视化工具（网站）

摘要：一直想知道动态图谱是怎么画出来的，特地搜索了下 1. Flourish 2. power BI+Animated Bar Chart Race插件我还没接触过power BI 3. 花火hanabi 官方文档：http://hanabi.data-viz.cn/help 4.Python数据可视化阅读全文

posted @ 2020-03-24 20:05 lililili—— 阅读(940) 评论(0) 推荐(0)

spark学习（每种图书销量统计案例）

摘要：计算每种图书每天的销量假如数据：程序实现阅读全文

posted @ 2020-03-10 21:51 lililili—— 阅读(463) 评论(0) 推荐(0)

spark学习（词频统计案例）

摘要：对word.txt文件做词频统计 word.txt中的内容具体程序阅读全文

posted @ 2020-03-10 17:45 lililili—— 阅读(213) 评论(0) 推荐(0)

不同应用场景下的大数据框架

摘要：阅读全文

posted @ 2020-03-10 08:10 lililili—— 阅读(194) 评论(0) 推荐(0)

编程范式scala

摘要：命令式编程：C C++等函数式编程： Haskell，Erlang，lisp, scala scala的基本介绍： scala在java基础上开发的，Martin scala运行在java虚拟机（jvm）之上 scala是面型对象的语言，每一个值都是对象 scala并发性好，含有轻量级函数（lam 阅读全文

posted @ 2020-03-09 16:04 lililili—— 阅读(239) 评论(0) 推荐(0)

有代表性的大数据技术Hadoop，Spark，Flink，Beam

摘要：1. Hadoop 2005 2015最主流数据仓库和数据库有啥区别数据库是存储某一时刻的数据信息而数据仓库是存储连续时间段的数据信息（反映了时间维度）因此，数据仓库可以做很多决策分析，例如OLAP分析，可以对多维数据分析，可以分析商品销量的走势之类，销量变化情况 Hive的数据保存在底层的阅读全文

posted @ 2020-03-09 11:32 lililili—— 阅读(729) 评论(0) 推荐(0)

大数据的计算模式：批处理，流计算，图计算，查询分析

摘要：1. 批处理计算批量处理无法实现实时计算，可以用Mapreduce和spark。由于spark是将数据放在内存中计算的，而mapreduce数据在磁盘中，需要将数据从磁盘中读取到内存，算完后再释放回磁盘因此spark可以实现接近准实时性和秒级的响应 2. 流计算数据源源不断的放入系统中计算（阅读全文

posted @ 2020-03-09 10:58 lililili—— 阅读(7637) 评论(0) 推荐(0)

大数据的关键技术：数据采集，数据存储和管理，数据处理和分析，数据隐私和安全

摘要：分布四个部分 1. 数据采集通过爬虫工具，ETL工具获取数据，然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。 extract, transform,load 2. 数据存储和管理典型的存储地方：文件系统和数据库由于海量的数据导致单机存储的方式不够用，转而存到多个机器上（甚至上百阅读全文

posted @ 2020-03-09 10:42 lililili—— 阅读(3341) 评论(0) 推荐(0)

大数据对科学发展的影响

摘要：科学研究经历了4个阶段第一阶段以实验研究为基础的第一范式通过做实验来研究问题，例如伽利略第二阶段以理论提出为基础的第二范式例如牛顿的三大定律第三阶段以计算为基础的第三范式例如天河二号，互联网假如想知道某个商品的销量下降的原因，我们会写程序去探究啥原因第四阶段以数据为中心的第四阅读全文

posted @ 2020-03-09 10:24 lililili—— 阅读(1033) 评论(0) 推荐(0)

结构化数据、非结构化数据和半结构化数据

摘要：首先参看关于关系型数据库和非关系型数据库的介绍计算机信息化系统中的数据分为结构化数据、半结构化数据和非结构化数据。结构化数据指由二维表结构表达数据的逻辑关系，严格遵循数据格式和长度规范，主要是通过关系型数据库来存储和管理。非结构化数据是数据结构不规则或者不完整，没有预定义的数据模型，主要通阅读全文

posted @ 2020-03-04 22:33 lililili—— 阅读(757) 评论(0) 推荐(0)

pyspark combineByKey的理解

摘要：combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>) 它是一个泛型函数，主要完成聚合阅读全文

posted @ 2020-03-03 11:53 lililili—— 阅读(422) 评论(0) 推荐(0)

第5篇：键值对操作

摘要：键值对RDD（pair RDD）是常见的数据类型用于聚合计算一般先通过初始的ETL（抽取，转化、装载）操作来将数据转化为键值对形式。 pair RDD的创建键值对就是我们常见的字典类型的数据如果数据格式本身就是键值对，在读取时直接返回由其键值对数据组成的pair RDD。如果将一个普通的R 阅读全文

posted @ 2020-02-29 22:47 lililili—— 阅读(325) 评论(0) 推荐(0)

第4篇： RDD学习

摘要：RDD（Resilient Distributed Dataset）弹性分布式数据集 Spark程序如何工作：即： step1: 从外部数据创建输入RDD step2: 使用诸如filter()这样的转换操作对RDD进行转换，以定义新的RDD step3：告诉Spark对需要重用的中间结果RDD 阅读全文

posted @ 2020-02-29 17:03 lililili—— 阅读(162) 评论(0) 推荐(0)

pyspark错误记录1: Py4JJavaError

摘要：错误代码：完整错误信息为： Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva 阅读全文

posted @ 2020-02-29 12:03 lililili—— 阅读(2801) 评论(0) 推荐(0)

第3篇：pyspark中启动jupyter notebook

摘要：环境：win10 这里介绍了在spark环境下如何通过shell来打开python和scala 目标：由于我擅长python语言，jupyter notebook 是我比较熟悉的编辑器（由于其方便的单元测试，可以很好的进行结果展示）所以，我想在pyspark环境下启动jupyter notebo 阅读全文

posted @ 2020-02-29 11:29 lililili—— 阅读(707) 评论(0) 推荐(0)

第2篇：启动spark中的python 和 scala的shell

摘要：本机：win10 python3.5.4 spark3.0.0 JDK13.0.1 scala2.13.1 hadoop2.7.7 shell的交互式环境是帮助你调试程序的！情况一：如果想打开scala版本的shell 终端输入 spark-shell 进入scala的shell（由于没有添加-- 阅读全文

posted @ 2020-02-28 22:56 lililili—— 阅读(1181) 评论(0) 推荐(0)

第1篇：新手如何开始spark的安装（jdk,scala,spark,hadoop）

摘要：本人情况：首次接触大数据工具spark，只会python，sql; 不会java。本机情况： win10新电脑，里面基本啥都没有，连java都没有需求：尝试单机安装spark，学习这个大数据工具，特来记录安装全过程。第一步：安装JDK 1. 下载安装JDK JDK为java开发工具包（ja 阅读全文

posted @ 2020-02-28 21:50 lililili—— 阅读(1316) 评论(0) 推荐(0)

hive和mysql的区别，以及hive的介绍

摘要：1.查询语言不同：hive是hql语言，mysql是sql语句； 2.数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中； 3.数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式； 4.数据更新：hive不支持数据更新，只可以读，不可以写，阅读全文

posted @ 2019-09-20 10:19 lililili—— 阅读(6163) 评论(0) 推荐(0)

不知名

随笔分类 - 大数据框架

公告