摘要: 互联网 -> 推荐系统 (实时推荐) 长尾理论: 冷门商品销售额甚至可能超过热门商品,推荐长尾商品给“需要”的用户。需要通过挖掘,获得用户特征(个性化推荐)。 推荐方法: 专家推荐:领域专家,人为推荐 统计推荐: 热门排行榜 基于内容推荐: 挖掘物品特征,推荐与它相似的产品 协同过滤推荐: 用户 A 阅读全文
posted @ 2020-02-29 21:07 神之一招 阅读(236) 评论(0) 推荐(0)
摘要: 静态数据:比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测, 这种需要实时的监控和处理(分析). 流数据的特性 推送的方式: 实时查询的结果 流计算应用 阅读全文
posted @ 2020-02-29 19:21 神之一招 阅读(391) 评论(0) 推荐(0)
摘要: Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 阅读全文
posted @ 2020-02-29 17:21 神之一招 阅读(258) 评论(0) 推荐(0)
摘要: 数据仓库中的数据,多数是存储的历史数据, 进入数据仓库之后的数据基本保持不变. HBase 实时的在线业务. Hive High avalibale. Impala 类似 Hive, 但是执行效率更高. Hive操作 创建数据库: create database db01; 创建表: use db0 阅读全文
posted @ 2020-02-29 16:00 神之一招 阅读(279) 评论(0) 推荐(0)
摘要: MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程. MapReduce 帮你自动实现底层. 分而治之的策略: 理念: 实例: 两个文件, 统计这两个文件中单词的个数 key:单词, value:出现次数 reduce: key - value list. 用 Iter 阅读全文
posted @ 2020-02-29 13:58 神之一招 阅读(192) 评论(0) 推荐(0)
摘要: HBase 可以理解为是一个分布式存储系统, 利用MapReduce 来处理存储在这个分布式存储系统中的数据. 所以可以理解为它是 HDFS 的一层抽象. 所以HBase 可以理解为是一个分布式系统(DB), 但是实际上内存存储的实现是通过 HDFS 实现的. HBase 特点: 是 BigTabl 阅读全文
posted @ 2020-02-29 12:31 神之一招 阅读(96) 评论(0) 推荐(0)
摘要: JobTracker 分配工作给若干机器. TaskTracker: 负责监督 光纤交换机. 块的概念: 一个块 64M. 还可以是 128M. 大文件切割成这种小块, 然后分布存储在不同机器上. 当然也可以并行处理. 名称节点: 整个 HDFS 集群管家, 负责元数据的存储. (index 数据块 阅读全文
posted @ 2020-02-29 11:48 神之一招 阅读(165) 评论(0) 推荐(0)