会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
理想几岁
博客园
新随笔
联系
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
16
下一页
2018年8月13日
pandas数据分析
摘要: 本篇主要介绍如何用pandas来分析一份刚拿到的数据集,即做数据挖掘或清洗的工作。 这里以贷款申请预测的数据来作为例子 一、查看基本信息 拿到数据首先看看大致结构,查看行列数,dataframe数据结构的通用信息,和基本数据类型信息 方法:pandas.head(), pd.info(), pd.s
阅读全文
posted @ 2018-08-13 03:36 理想几岁
阅读(1566)
评论(0)
推荐(0)
2018年8月10日
各领域公开数据集下载-收藏
摘要: 金融 美国劳工部统计局官方发布数据 房地产公司 Zillow 公开美国房地产历史数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日线数据,截止 2017.05.05,原始价、前复权
阅读全文
posted @ 2018-08-10 17:10 理想几岁
阅读(2419)
评论(0)
推荐(0)
2018年8月7日
自然语言处理--N-gram
摘要: 考虑一个语音识别系统,假设用户说了这么一句话:“I have a gun”,因为发音的相似,该语音识别系统发现如下几句话都是可能的候选:1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了,到底哪一个是正确答案呢? 一般的解决方法是采用统计的
阅读全文
posted @ 2018-08-07 01:20 理想几岁
阅读(595)
评论(0)
推荐(0)
机器学习模型为什么要将特征离散化
摘要: 在学习机器学习中,看过挺多案例,看到很多人在处理数据的时候,经常把连续性特征离散化。为此挺好奇,为什么要这么做,什么情况下才要做呢。 一、离散化原因 数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点: 1、算法
阅读全文
posted @ 2018-08-07 00:54 理想几岁
阅读(3120)
评论(0)
推荐(0)
2018年8月6日
机器学习模型评估指标汇总
摘要: 在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。 一、分类问题 1、混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。 2、准确率(Accur
阅读全文
posted @ 2018-08-06 18:14 理想几岁
阅读(36950)
评论(1)
推荐(0)
2018年7月31日
Linux 搭建Hadoop集群错误锦集
摘要: 一、Hadoop集群配置好后,执行start-dfs.sh后报错,一堆permission denied 解决方案:对hadoop安装目录执行命令:sudo chmod a+w * 对文件敞开权限 二、执行./start-dfs.sh 和 ./start-yarn.sh 后master主机上jps
阅读全文
posted @ 2018-07-31 20:59 理想几岁
阅读(1667)
评论(0)
推荐(0)
2018年7月21日
机器学习--聚类系列--DBSCAN算法
摘要: DBSCAN算法 基本概念:(Density-Based Spatial Clustering of Applications with Noise) 核心对象:若某个点的密度达到算法设定的阈值则其为核心点。(即 r 邻域内点的数量不小于 minPts) ε-邻域的距离阈值:设定的半径r 直接密度可
阅读全文
posted @ 2018-07-21 01:25 理想几岁
阅读(1294)
评论(0)
推荐(0)
机器学习--聚类系列--层次聚类
摘要: 层次聚类 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。 作为一家公司的人力资源部经理
阅读全文
posted @ 2018-07-21 00:52 理想几岁
阅读(38154)
评论(6)
推荐(5)
机器学习--聚类系列--K-means算法
摘要: 一、聚类 聚类分析是非监督学习的很重要的领域。所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提取出一定的规律。而聚类分析就是试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”。它的难点是不好调参和评估。下面是sklearn中对各种聚类算法的比较。 二、K-Me
阅读全文
posted @ 2018-07-21 00:35 理想几岁
阅读(1080)
评论(0)
推荐(0)
2018年7月20日
数据分析--降维--LDA和PCA
摘要: 一、因子分析 因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配,并且在条件许可时借此尝试对变量进行分类。 因子分析的基本思想 根据变量间相关性的大小把变量分组,使
阅读全文
posted @ 2018-07-20 18:35 理想几岁
阅读(3023)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
16
下一页