• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
百里丶落云
Gee,gee,baby,baby
            管理     
数据预处理--数据清洗

 日常数据大部分时间是存在噪声值的, 为了模型能够更好展现效果,往往需要进行噪声处理,即数据预处理

 

一:数据缺失值处理

 

 准备数据

import pandas as pd 
import numpy as np
from pandas import Series,DataFrame
from numpy import nan as NA
#导包
data =Series([17,None,34,NA,45])

 

 

  数据为缺失部分存在缺失数据

 

     检查是否存在空值

 

 

 

  一.1  缺失值删除

 

 

       对于:dataframe 数据     

 

 

     

 

 

 

 

  一,2 缺失值补全

                  准备数据

 

 

 

 

 

 

 

 

 

 

二:检查和过滤异常值

 

 

 

 

 

 

 找出data3 数据大于1 的数据并重新赋值

 

 

 

 

 

 

 

 

 

 

 

三:检查和移除重复数据

数据准备

 

 

 

 

 

 

 找出重复数据 并删除数据 

 

 

 

 

 

三 :常规聚合函数

 

 

 

 

每列数据的和

每行数据的和

 

 

 

 

每列最小数值所在的行每行最小数值所在的列每列最大数值所在的行统计每行最大数所在的列相对于上一行的累积结果计算方差计算标准差计算百分比变化计算协方差计算相关系数

 

年与时驰,意与日去,遂成枯落, 多不接世,悲守穷庐,将复何及。
posted on 2020-06-22 14:40  百里丶落云  阅读(366)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3