EDA中级-Kaggle学习2-特征工程序章
摘要:前言 原文来源:这里! 数据集:根据不同人的数据来判断他有没有可能再次偿还信用借款(Home credit default risk) 看完的感想是: 每个不同的数据集的数据都是不一样的,背后表现的现象也是有差异。 但是还是有处理数据的规律和套路可以值得学习的。 本文是特征工程处理的第一章,提供了一
阅读全文
MOA-基本思路整理1
摘要:MOA(Massive Online Analysis) 背景 是waikato大学开发的一款java框架(用于数据分析,online training等数据分析)。 官网在这里 API在这里 其中作者是著名的aibet,然后这款框架配有GUI,而且也和yahoo实验室合作推出了MOA的研究平台SA
阅读全文
java9 publisher-subscriber模型
摘要:前言 本文摘自于下面两篇文章: 中文参考最详细的模型解释 API翻译最有价值的例子 并且通过intellij写了例子并实验成功,下面记录一下实验过程。 代码结构 一个PublisherImpl和SubscriberImpl,main函数PublisherImpl里面。 主要流程: 生成一个分发杂志的
阅读全文
EDA中级-kaggle学习第一篇-EDA+house price
摘要:关于原文 原文是kaggle在EDA词条下vote最高的一篇文章,理由主要是通俗易懂,没有太多的数理知识,分析直观。 链接在上文的介绍篇里面的第一条,下面总结一下本文最出彩(我之前不知道的)一些技巧/分析方法。 按照分析的逻辑顺序,按照一问一答的形式。 原文小结 在初步分析的时候遇到超过50个特征c
阅读全文
EDA中级-Kaggle技巧-介绍学习
摘要:Kaggle的技巧总结学习 前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。 我对于DS目前的总体理解 目前DS notebook里面所做的数据处理有2个不同的目的: 为了写分析报告(analysis report):很多做了很多的图,比
阅读全文
EDA常用操作4
摘要:pandas遗留的操作 pivot: # 个人理解就是选择1对1个变量,或者1对多个变量进行研究(从以index作为索引的dataframe,作左上角有斜线的一个分析表) foo bar baz zoo 0 one A 1 x 1 one B 2 y 2 one C 3 z 3 two A 4 q
阅读全文
Statistics概念学习-第二章
摘要:第二章 data and sampling distributions 抽样和分布 random sampling and sample bias 随机抽样和抽样偏倚 key terms sample : 抽样集 subset from a larger dataset population: th
阅读全文