大数据学习

大数据生态圈

   大数据的用来干啥:

  •    精准营销
  •    智能搜索
  •    定位,确认喜好
  •    统计,作出预测

   所需工具:

  •     hadoop: 资源管理器、节点管理器(分布式)、运营管理器
  •     HBase:存储数据,可以定义数据的结构,添加数据进行管理
  •     hive:  数据分析
  •     Spring
  •     spark

实操

  1. 安装上述工具

  2. 搭建测试环境 

      数据准备(用python 爬虫抓取数据,可以爬携程动态数据)

  3. 数据分析 hive

     job管理

  4. 大数据平台的搭建

     cdh安装更简单一些

     算法不需要自己写,已经集成,只需要在用的时候选用不同纬度的算法去拼凑之行就行,但是对于算法应该要有粗略的了解

测试重点

  •     基本上和传统的功能测试相同,但是大数据测试多了一点:生态功能,即大数据的准确率(正确,全面)
  •     性能方面:kafka(内存,并发数等)
posted @ 2019-03-10 20:51  pretend_smile  阅读(116)  评论(0)    收藏  举报