摘要: *特征工程是一个复杂活,本人认为它一般包括以下几个过程:特征初筛、特征衍生(加工)、特征选择; 特征筛选是一个精细活,需要考虑很多因素,比如:预测能力、相关性、稳定性、合规性、业务可解释性等等。 案例实践代码:https://github.com/iihcy/Credit_ACard 从广义上,特征 阅读全文
posted @ 2020-03-01 10:18 诀语尘定 阅读(1679) 评论(0) 推荐(0) 编辑
摘要: *探索性数据分析:用于初步检验数据的质量,需计算各类数据特征指标。 案例实践代码:https://github.com/iihcy/Credit_ACard 本文框架: 探索数据分布(Exploratory Data Distribution,EDD) 缺失率(Missing Rate) 重复值(D 阅读全文
posted @ 2020-02-28 17:52 诀语尘定 阅读(856) 评论(0) 推荐(0) 编辑
摘要: 起源:PCA、特征提取.... 随着一些奇怪的高维数据出现,比如图像、语音,传统的统计学-机器学习方法遇到了前所未有的挑战。 数据维度过高,数据单调,噪声分布广,传统方法的“数值游戏”很难奏效。数据挖掘?已然挖不出有用的东西。 为了解决高维度的问题,出现的线性学习的PCA降维方法,PCA的数学理论确 阅读全文
posted @ 2017-11-23 11:23 诀语尘定 阅读(6594) 评论(1) 推荐(0) 编辑
摘要: @Hcy(黄灿奕) 文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libs 阅读全文
posted @ 2016-01-15 20:24 诀语尘定 阅读(4355) 评论(0) 推荐(1) 编辑
摘要: 系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / 阅读全文
posted @ 2016-01-12 14:51 诀语尘定 阅读(594) 评论(0) 推荐(0) 编辑
摘要: matlab函数 randn:产生正态分布的随机数或矩阵的函数 randn:产生均值为0,方差σ^2 = 1,标准差σ = 1的正态分布的随机数或矩阵的函数。 用法: Y = randn(n):返回一个n*n的随机项的矩阵。如果n不是个数量,将返回错误信息。 Y = randn(m,n) 或 Y = 阅读全文
posted @ 2016-01-06 17:33 诀语尘定 阅读(4536) 评论(0) 推荐(1) 编辑
摘要: size():获取矩阵的行数和列数 (1)s=size(A), 当只有一个输出参数时,返回一个行向量,该行向量的第一个元素时矩阵的行数,第二个元素是矩阵的列数。 (2)[r,c]=size(A), 当有两个输出参数时,size函数将矩阵的行数返回到第一个输出变量r,将矩阵的列数返回到第二个输出变量c 阅读全文
posted @ 2016-01-06 17:31 诀语尘定 阅读(1535) 评论(0) 推荐(0) 编辑
摘要: Matlab plotyy画双纵坐标图实例 x = 0:0.01:20;y1 = 200*exp(-0.05*x).*sin(x);y2 = 0.8*exp(-0.5*x).*sin(10*x);[AX,H1,H2] = plotyy(x,y1,x,y2,'plot'); set(AX(1),'XC 阅读全文
posted @ 2016-01-06 17:30 诀语尘定 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容L 阅读全文
posted @ 2016-01-06 17:10 诀语尘定 阅读(7386) 评论(0) 推荐(0) 编辑
摘要: Linux系统调用--getrusage函数详解 功能描述: 获得进程的相关资源信息。如:用户开销时间,系统开销时间,接收的信号量等等; 用法: #include <sys/types.h> #include <sys/time.h> #include <sys/resource.h> #defin 阅读全文
posted @ 2016-01-06 15:40 诀语尘定 阅读(8373) 评论(0) 推荐(1) 编辑