随笔分类 - 机器学习算法
常用机器学习算法总结及应用
摘要:科学推理的方式就2种,一个是归纳,从案例从总结规律。 一个是演绎,也就是已经有了某个规律之类的,那根据这个规律,针对某个案例会有一个结论出现。 那么机器学习就是归纳的过程, 因为其是从样例中学习的过程,然后将这个学习的函数用于测试,得出一些结果。 机器学习领域的格言! 1.数学是宇宙的语言,这个世界
阅读全文
摘要:1. 南京大学LAMDA实验组杨杨博士的建议与资料的分享 2. 常见的机器学习算法的实现代码 常用机器学习算法实现2 3. 机器学习实战python3代码实现 4. 西瓜书个人笔记
阅读全文
摘要:一直想知道动态图谱是怎么画出来的,特地搜索了下 1. Flourish 2. power BI+Animated Bar Chart Race插件 我还没接触过power BI 3. 花火hanabi 官方文档:http://hanabi.data-viz.cn/help 4.Python数据可视化
阅读全文
摘要:这里我做了一个实验 也就是随着阈值的增大,precision增加或者不变,recall减少或者不变。
阅读全文
摘要:https://www.nowcoder.com/test/question/done?tid=25737021&qid=44645#summary 我觉得选A,D 详见博客介绍 https://www.hrwhisper.me/machine-learning-support-vector-mac
阅读全文
摘要:以下哪个是常见的时间序列算法模型 以下哪个是常见的时间序列算法模型 以下哪个是常见的时间序列算法模型 正确答案: C 你的答案: 空 (错误) RSI MACD ARMA KDJ 时间序列中常用预测技术 一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。 1. 移动平均法 (MA) 1.
阅读全文
摘要:假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是: 假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是: 假定某同学使用Naive Bayesia
阅读全文
摘要:解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。 造成多重共线性的原因有一下几种: 1、解释变量都享有共同的时间趋势; 2、一个解释变量是另一个的滞后,二者往往遵循一个趋势; 3、由于数据收集的基
阅读全文
摘要:https://blog.csdn.net/zpxcod007/article/details/80118580 制作A卡,申请评分卡 数据集:15万个样本,特征 主要预处理手段:缺失值,异常值,样本不平衡的处理,划分数据集,做分箱处理(离散化),将样本的每个特征都映射到WOE空间 之后建模,这里采
阅读全文
摘要:熵在热力学中,表达了系统的混乱程度 公式: H = p*log2(p) 其取值范围应该为0-无穷大
阅读全文
摘要:https://blog.csdn.net/mao_feng/article/details/78939864 现实生活中,我们会遇到少量有标签的样本,而大量无标签的样本,怎么去做这个处理呢? 方法1:迁移学习的finetune 找类似的通用数据集(在图像领域:imagenet,电商领域:淘宝电商数
阅读全文
摘要:https://blog.csdn.net/tianguiyuyu/article/details/80438630 以上是莫烦对L1和L2的理解 l2正则:权重的平方和,也就是一个圆 l1正则:权重的绝对值之和,等价与一个正方形。 图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2
阅读全文
摘要:https://blog.csdn.net/zhang_shuai12/article/details/53064697
阅读全文
摘要:交叉熵是用来计算两个函数或者概率之间的距离,计算的方式也是使用的KL Divergence 理解交叉熵作为神经网络的损失函数的意义:交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。CrossEntropy=H(p)+DKL(p∣∣q)
阅读全文
摘要:1. RF 随机森林基于Bagging的策略是Bagging的扩展变体,概括RF包括四个部分:1、随机选择样本(放回抽样);2、随机选择特征(相比普通通bagging多了特征采样);3、构建决策树;4、随机森林投票(平均)。 在构建决策树的时候,RF的每棵决策树都最大可能的进行生长而不进行剪枝;在对
阅读全文
摘要:链接:https://www.nowcoder.com/questionTerminal/d19aa44d07fb470d990ab1cff061314c?orderByHotValue=2来源:牛客网 欠拟合的原因:模型复杂度过低,不能很好的拟合所有的数据,训练误差大; 避免欠拟合:增加模型复杂度
阅读全文
摘要:学习笔记 那你怎么去建立这样一个数据集呢? 我们从一个很小的例子切入,如果让我来收集信用卡欺诈数据集,那我能拿到的数据都是正常的,怎么去判别不正常的数据集呢?可想而知,自己建立一个有标签的数据集是一个很困难的任务。 对异常检测案例训练数据集进行分类: 1.数据有标签,直接当成分类问题处理。我们希望机
阅读全文
摘要:总结下bagging算法和boosting算法: bagging :基学习器是平行关系,不相互影响,最终将基学习器获得结果:若是分类则投票表决,若是回归则平均 boosting: 基学习器是由依赖关系,前一个基学习器的训练结果“指导”下一个基学习器,当然了不同的boosting算法指导策略是不一样的
阅读全文
摘要:建立决策树的过程:在建立每一棵决策树的过程中,有两点需要注意--采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。(1)对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得
阅读全文
摘要:之前工作的之前,认为模型和算法是一个东西,并没有区分过。 在工作中,做算法集成工作的过程中,我们需要加载模型,加载算法等概念搞得我有些傻了。 后来在西瓜书上获得了解答:模型其实包含了算法、数据以及任务需求的概念。 也就是说我们是评估一个模型的好坏,而不是算法的好坏。 算法只有适用环境。
阅读全文

浙公网安备 33010602011771号