摘要: 命令式编程:C C++等 函数式编程: Haskell,Erlang,lisp, scala scala的基本介绍: scala在java基础上开发的,Martin scala运行在java虚拟机(jvm)之上 scala是面型对象的语言,每一个值都是对象 scala并发性好,含有轻量级函数(lam 阅读全文
posted @ 2020-03-09 16:04 lililili—— 阅读(237) 评论(0) 推荐(0)
摘要: 1. Hadoop 2005 2015最主流 数据仓库和数据库有啥区别 数据库是存储某一时刻的数据信息 而数据仓库是存储连续时间段的数据信息(反映了时间维度) 因此,数据仓库可以做很多决策分析,例如OLAP分析,可以对多维数据分析,可以分析商品销量的走势之类,销量变化情况 Hive的数据保存在底层的 阅读全文
posted @ 2020-03-09 11:32 lililili—— 阅读(729) 评论(0) 推荐(0)
摘要: 1. 批处理计算 批量处理无法实现实时计算,可以用Mapreduce和spark。 由于spark是将数据放在内存中计算的,而mapreduce数据在磁盘中,需要将数据从磁盘中读取到内存,算完后再释放回磁盘 因此spark可以实现接近准实时性和秒级的响应 2. 流计算 数据源源不断的放入系统中计算( 阅读全文
posted @ 2020-03-09 10:58 lililili—— 阅读(7629) 评论(0) 推荐(0)
摘要: 分布四个部分 1. 数据采集 通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。 extract, transform,load 2. 数据存储和管理 典型的存储地方: 文件系统和数据库 由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百 阅读全文
posted @ 2020-03-09 10:42 lililili—— 阅读(3340) 评论(0) 推荐(0)
摘要: 科学研究经历了4个阶段 第一阶段 以实验研究为基础的第一范式 通过做实验来研究问题,例如伽利略 第二阶段 以理论提出为基础的第二范式 例如牛顿的三大定律 第三阶段 以计算为基础的第三范式 例如天河二号,互联网 假如想知道某个商品的销量下降的原因,我们会写程序去探究啥原因 第四阶段 以数据为中心的第四 阅读全文
posted @ 2020-03-09 10:24 lililili—— 阅读(1032) 评论(0) 推荐(0)