• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • YouClaw
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
niemand-01
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

01 2021 档案

 
EDA中级-Kaggle学习2-特征工程序章
摘要:前言 原文来源:这里! 数据集:根据不同人的数据来判断他有没有可能再次偿还信用借款(Home credit default risk) 看完的感想是: 每个不同的数据集的数据都是不一样的,背后表现的现象也是有差异。 但是还是有处理数据的规律和套路可以值得学习的。 本文是特征工程处理的第一章,提供了一 阅读全文
posted @ 2021-01-08 18:56 niemand-01 阅读(247) 评论(0) 推荐(0)
MOA-基本思路整理1
摘要:MOA(Massive Online Analysis) 背景 是waikato大学开发的一款java框架(用于数据分析,online training等数据分析)。 官网在这里 API在这里 其中作者是著名的aibet,然后这款框架配有GUI,而且也和yahoo实验室合作推出了MOA的研究平台SA 阅读全文
posted @ 2021-01-08 03:15 niemand-01 阅读(1150) 评论(0) 推荐(0)
java9 publisher-subscriber模型
摘要:前言 本文摘自于下面两篇文章: 中文参考最详细的模型解释 API翻译最有价值的例子 并且通过intellij写了例子并实验成功,下面记录一下实验过程。 代码结构 一个PublisherImpl和SubscriberImpl,main函数PublisherImpl里面。 主要流程: 生成一个分发杂志的 阅读全文
posted @ 2021-01-07 01:06 niemand-01 阅读(194) 评论(0) 推荐(0)
EDA中级-kaggle学习第一篇-EDA+house price
摘要:关于原文 原文是kaggle在EDA词条下vote最高的一篇文章,理由主要是通俗易懂,没有太多的数理知识,分析直观。 链接在上文的介绍篇里面的第一条,下面总结一下本文最出彩(我之前不知道的)一些技巧/分析方法。 按照分析的逻辑顺序,按照一问一答的形式。 原文小结 在初步分析的时候遇到超过50个特征c 阅读全文
posted @ 2021-01-05 19:08 niemand-01 阅读(255) 评论(0) 推荐(0)
EDA中级-Kaggle技巧-介绍学习
摘要:Kaggle的技巧总结学习 前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。 我对于DS目前的总体理解 目前DS notebook里面所做的数据处理有2个不同的目的: 为了写分析报告(analysis report):很多做了很多的图,比 阅读全文
posted @ 2021-01-04 22:45 niemand-01 阅读(215) 评论(0) 推荐(0)
EDA常用操作4
摘要:pandas遗留的操作 pivot: # 个人理解就是选择1对1个变量,或者1对多个变量进行研究(从以index作为索引的dataframe,作左上角有斜线的一个分析表) foo bar baz zoo 0 one A 1 x 1 one B 2 y 2 one C 3 z 3 two A 4 q 阅读全文
posted @ 2021-01-01 21:47 niemand-01 阅读(161) 评论(0) 推荐(0)
Statistics概念学习-第二章
摘要:第二章 data and sampling distributions 抽样和分布 random sampling and sample bias 随机抽样和抽样偏倚 key terms sample : 抽样集 subset from a larger dataset population: th 阅读全文
posted @ 2021-01-01 04:55 niemand-01 阅读(315) 评论(0) 推荐(0)
 

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3