Hadoop大数据生态

  1. Linux
    1.HDFS 分布式文件系统
    2.MapReduce并行计算框架
    3.Hive 数据仓库
  2. sqoop 数据集成工具HDFS<->RDBMS
    5.用户行为分析项目

大数据产生的三个助推力

1.互联网产生的非结构化数据(TB PB以上)
2.传统名数据库在处理海量非结构化数据产生的瓶颈
3.分布式和搜索技术(云计算、爬虫)

12-13 午高峰
18-19 晚高峰
21-22 夜高峰

抖音的推荐机制:
1.中心化、流浪池原则(关注->同城->垂直领域 -> tag- ^)
小流量池到大流量池 作品权重(点赞量、评论量、转发量、完播率)

2.叠加推荐
账号权重
资料权重
作品权重
大数据算法的加权

3.抖音引流的核心
8~15秒
选择分类(标题、标签)
不要植入硬广告

大数据的数据来源
互联网数据
结构化
word、excel文件
半结构化、
css、js
非结构化
视频、音频、图像(字节流)
物联网数据
行业/企业数据
OA、HR、ERP(SAP)

大数据技术流程
	可视化呈现->数据分析挖掘->数据存储->数据清洗->数据采集
	
大数据技术架构图

大数据项目-分布式离线计算框架

posted @ 2020-06-17 17:31  ZC_Wang  阅读(109)  评论(0编辑  收藏  举报