大数据学习
大数据生态圈
大数据的用来干啥:
- 精准营销
- 智能搜索
- 定位,确认喜好
- 统计,作出预测
所需工具:
- hadoop: 资源管理器、节点管理器(分布式)、运营管理器
- HBase:存储数据,可以定义数据的结构,添加数据进行管理
- hive: 数据分析
- Spring
- spark
实操
1. 安装上述工具
2. 搭建测试环境
数据准备(用python 爬虫抓取数据,可以爬携程动态数据)
3. 数据分析 hive
job管理
4. 大数据平台的搭建
cdh安装更简单一些
算法不需要自己写,已经集成,只需要在用的时候选用不同纬度的算法去拼凑之行就行,但是对于算法应该要有粗略的了解
测试重点
- 基本上和传统的功能测试相同,但是大数据测试多了一点:生态功能,即大数据的准确率(正确,全面)
- 性能方面:kafka(内存,并发数等)

浙公网安备 33010602011771号