09 2021 档案
摘要:数据预处理 处理数据缺失 方法 具体措施 忽略 直接删除,简单粗暴,缺失数据少的时候很管用 手动填充 重新收集数据,需要某些领域的专业知识,可行性不高 自动填充 取中位数或者平均数 离群点检测 OUTLIER 世界之大,无奇不有,有时候明显和其他数据格格不入的数据,并不一定是错误的点,比如我们身边平
阅读全文
摘要:数据可视化 EDA探索性数据分析exploded data analysis 主要介绍工具的使用 matplotlib、seaborn BI business information 集成工具 Power BI Tableau Fine BI Metabase superset 代码工具 Matpl
阅读全文
摘要:最近在学机器学习的相关内容,看到决策树这一块提到了信息增益等内容,在此做下笔记 信息&信息熵&信息增益 信息 所谓信息,引用香农的话,信息即消除不确定性的东西,十分形象 定义系统$X$,发生了事件$x_i$,其中$i∈{0,1,2,···,n}$ 则从事件$x_i$中可以得到的信息量为 \(I(x_
阅读全文
摘要:导论 数据挖掘,单纯从字面意思理解,可能会存在误区,认为只是像爬虫一样做着简单重复劳动,而这只是冰山一角,更加全面的解释我认为应该是从数据中挖掘到价值和规律。 数据矿——数据集 总结一下数据来源 data.gov 美国政府公开数据集 kaggle open-EI UCI公开数据库 “挖掘机”——数据
阅读全文

浙公网安备 33010602011771号