• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
niemand-01
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理
1 2 3 下一页

2021年2月9日

EDA中级-Kaggle学习6-异常值检测
摘要: 前言 原文链接这里 本文着重的要点是:Anomaly Detection 异常值检测 也就是通过对于不同异常值的定义,用不同的检测算法/方法来检测异常值 在了解有哪些对应的方法之前,我们要先知道异常值有哪些类型 异常值类型 参考这篇文章 异常值分为三类: global outlier/point a 阅读全文
posted @ 2021-02-09 00:03 niemand-01 阅读(899) 评论(0) 推荐(0)
 
 

2021年2月5日

EDA中级-kaggle学习5-XGB+LGB简单ensemble
摘要: 原文 这里 前言 虽然当时候设想这篇文章的重点在于outlier treatment异常值处理,但是读了下来貌似作者的重点在xgb和lgb的调优和组合参数的调优上面。 对于异常值处理貌似简单的threshold就带过了。不过即使这样,本文也有很多值得学的东西。 正文 按照原文顺序来盘点值得学习的地方 阅读全文
posted @ 2021-02-05 20:00 niemand-01 阅读(344) 评论(0) 推荐(0)
 
EDA中级-kaggle学习3.5-训练结构
摘要: 总体训练结构 在上文 总体介绍 提供了2种encoding的方式:one-hot-encoding和label-encoding cross-validation用了kfold 模型用了lightGBMClassifier 个人觉得值得学习的地方在于自己生成一些metrics指标和coding的基本 阅读全文
posted @ 2021-02-05 18:55 niemand-01 阅读(134) 评论(0) 推荐(0)
 
 

2021年2月4日

EDA中级-Kaggle学习4-特征选择
摘要: 原文链接 这里 原文小结 个人觉得本文最有价值点的地方在于提供了一些上文说的一些automated feature selection方法:都是sklearn里面的 RFE:rucursive feature elimination(需要给定K值) RFECV:recursive feature e 阅读全文
posted @ 2021-02-04 20:22 niemand-01 阅读(230) 评论(0) 推荐(0)
 
EDA中级-Kaggle学习3-特征工程2
摘要: 原文链接: 这里 文章简介 这篇文章相比与“特征工程序章”而言,主要的工作是新研究了2个csv(序章研究了一些,这里有新研究的2个并且将特征合并到一个csv里面了)。 此外本文还重新提出了一些概念和想法: automated feature engineering自动化提取新特征 在feature 阅读全文
posted @ 2021-02-04 00:47 niemand-01 阅读(204) 评论(0) 推荐(0)
 
 

2021年1月8日

EDA中级-Kaggle学习2-特征工程序章
摘要: 前言 原文来源:这里! 数据集:根据不同人的数据来判断他有没有可能再次偿还信用借款(Home credit default risk) 看完的感想是: 每个不同的数据集的数据都是不一样的,背后表现的现象也是有差异。 但是还是有处理数据的规律和套路可以值得学习的。 本文是特征工程处理的第一章,提供了一 阅读全文
posted @ 2021-01-08 18:56 niemand-01 阅读(236) 评论(0) 推荐(0)
 
MOA-基本思路整理1
摘要: MOA(Massive Online Analysis) 背景 是waikato大学开发的一款java框架(用于数据分析,online training等数据分析)。 官网在这里 API在这里 其中作者是著名的aibet,然后这款框架配有GUI,而且也和yahoo实验室合作推出了MOA的研究平台SA 阅读全文
posted @ 2021-01-08 03:15 niemand-01 阅读(1103) 评论(0) 推荐(0)
 
 

2021年1月7日

java9 publisher-subscriber模型
摘要: 前言 本文摘自于下面两篇文章: 中文参考最详细的模型解释 API翻译最有价值的例子 并且通过intellij写了例子并实验成功,下面记录一下实验过程。 代码结构 一个PublisherImpl和SubscriberImpl,main函数PublisherImpl里面。 主要流程: 生成一个分发杂志的 阅读全文
posted @ 2021-01-07 01:06 niemand-01 阅读(186) 评论(0) 推荐(0)
 
 

2021年1月5日

EDA中级-kaggle学习第一篇-EDA+house price
摘要: 关于原文 原文是kaggle在EDA词条下vote最高的一篇文章,理由主要是通俗易懂,没有太多的数理知识,分析直观。 链接在上文的介绍篇里面的第一条,下面总结一下本文最出彩(我之前不知道的)一些技巧/分析方法。 按照分析的逻辑顺序,按照一问一答的形式。 原文小结 在初步分析的时候遇到超过50个特征c 阅读全文
posted @ 2021-01-05 19:08 niemand-01 阅读(249) 评论(0) 推荐(0)
 
 

2021年1月4日

EDA中级-Kaggle技巧-介绍学习
摘要: Kaggle的技巧总结学习 前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。 我对于DS目前的总体理解 目前DS notebook里面所做的数据处理有2个不同的目的: 为了写分析报告(analysis report):很多做了很多的图,比 阅读全文
posted @ 2021-01-04 22:45 niemand-01 阅读(215) 评论(0) 推荐(0)
 
 
1 2 3 下一页

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3