• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
正在努力成为一个优秀的废物
博客园    首页    新随笔    联系   管理    订阅  订阅
数据分析之数据标准化

 

  数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化的数据还具有直接计算并生成复合指标的意义,是加权指标的必要操作。

  • 实现中心化和正态分布的Z-Score

转换公式:

其中x表示原数据,x' 表示转化后的数据,mean表示样本均值,std表示样本的标准差。

  这种方法适用于大多数的数据,也是很多工具默认的标准化方法。标准化后的数据以0为均值,1为方差的正态分布。但是Z-Score是一种中心化的方法,会改变数据原有的分布结构,不适合对稀疏数据做处理。

  • 实现归一化的Max_Min

转换公式:

其中x表示原数据,x' 表示转化后的数据,Xmin表示样本中的最小值,Xmax表示样本中的最大值。

  这种方法应用也很广泛,标准化的数据会落在[0, 1]区间,这种方法可以使得数据落在一定区间,还能较好的保持原数据结构。

posted on 2018-04-20 17:11  你算哪根小毛线  阅读(1782)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3