会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
光彩照人
每一次挫折都是一次蜕变,挫折越大,蜕变越彻底!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
16
17
18
19
20
21
22
23
24
25
下一页
2017年6月26日
机器学习中评价指标
摘要: 拟合相关 一、R2 决定系数(拟合优度) 它是表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值的拟合程度如何。 因为如果单纯用残差平方和会受到你因变量和自变量绝对值大小的影响,不利于在不同模型之间进行相对比较.而用拟合优度就可以解决这个问题。例如一个模型中的因变量:10000、2000
阅读全文
posted @ 2017-06-26 11:46 光彩照人
阅读(1337)
评论(0)
推荐(0)
2017年6月14日
排序中topK那点事(转)
摘要: 问题描述:有 N (N>1000000)个数,求出其中的前K个最小的数(又被称作topK问题)。 这类问题似乎是备受面试官的青睐,相信面试过互联网公司的同学都会遇到这来问题。下面由浅入深,分析一下这类问题。 思路1:最基本的思路,将N个数进行完全排序,从中选出排在前K的元素即为所求。有了这个思路,我
阅读全文
posted @ 2017-06-14 10:40 光彩照人
阅读(8808)
评论(2)
推荐(2)
2017年6月6日
特征工程(Feature Engineering)
摘要: 一、什么是特征工程? "Feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive m
阅读全文
posted @ 2017-06-06 09:37 光彩照人
阅读(5983)
评论(0)
推荐(0)
2017年6月5日
kaggle比赛流程(转)
摘要: 一、比赛概述 不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常为 5 次。 比赛结束前一周是一个 Deadline,在这之后不能再组队,也不能再新加入比赛。所以想要参加比赛请务必在这一 Dea
阅读全文
posted @ 2017-06-05 11:01 光彩照人
阅读(2060)
评论(0)
推荐(1)
Kaggle 数据挖掘比赛经验分享(转)
摘要: 原作者:陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot
阅读全文
posted @ 2017-06-05 10:08 光彩照人
阅读(1550)
评论(0)
推荐(0)
2017年5月25日
ipython notebook环境搭建
摘要: 默认已经装好python基本环境,再进行下面步骤: 1. 下载安装IPython: c:>pip.exe install ipython 系统就会去网上寻找ipython的包, 进行下载及安装. 等待差不多5分钟, 整个安装就完成了, 并且还把pyreadline也安装了. ipython3.exe
阅读全文
posted @ 2017-05-25 14:00 光彩照人
阅读(230)
评论(0)
推荐(0)
2017年5月19日
kaggle比赛之悟
摘要: 一、模型与特征哪个重要? 参与Sberbank Russian Housing Market比赛,一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右,然后同样的特征又使用了XGboost,残差值降到了0.34左右,提高的还是挺显著的。 但是另外一些参赛选手,使用XGboos
阅读全文
posted @ 2017-05-19 14:13 光彩照人
阅读(309)
评论(0)
推荐(0)
2017年5月10日
python进行机器学习(五)之模型打分
摘要: 一、画出模型的残差值分布情况 注:本样例只是为了说明问题,只用了几行数据来预测画图。 正常来讲,一个好的模型,残差值应该分布比较集中,而且基本都在0上下稍微浮动,表明残差值都比较小。
阅读全文
posted @ 2017-05-10 16:19 光彩照人
阅读(2503)
评论(0)
推荐(0)
2017年5月9日
机器学习面试问题大概梳理(转)
摘要: 一、朴素贝叶斯 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计
阅读全文
posted @ 2017-05-09 09:51 光彩照人
阅读(1739)
评论(0)
推荐(0)
python进行机器学习(四)之模型验证与参数选择
摘要: 一、模型验证 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 这里我们将训练集再分成训练集与验证集两部分,大概比例就是3:1吧。一般来讲不同的训练集、验证集分割的方法会导致
阅读全文
posted @ 2017-05-09 09:34 光彩照人
阅读(3340)
评论(0)
推荐(0)
上一页
1
···
16
17
18
19
20
21
22
23
24
25
下一页
公告