机器学习 - 随笔分类 - 郭耀华

【异常检测】孤立森林（Isolation Forest）算法简介

摘要：简介工作的过程中经常会遇到这样一个问题，在构建模型训练数据时，我们很难保证训练数据的纯净度，数据中往往会参杂很多被错误标记噪声数据，而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记，成本会很高，我们希望能使用一种无监督算法帮我们做这件事，异常检测算法可以在一定程度上解决这个问题。异常检阅读全文

posted @ 2020-08-17 16:10 郭耀华阅读(9893) 评论(1) 推荐(3) 编辑

深入理解决策树算法

摘要：引言决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，决策树模型可以认为是规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。决策树学习通常包括3个步骤：阅读全文

posted @ 2019-11-07 17:19 郭耀华阅读(2574) 评论(0) 推荐(2) 编辑

【机器学习】一文读懂分类算法常用评价指标

摘要：评价指标是针对将相同的数据，输入不同的算法模型，或者输入不同参数的同一种算法模型，而给出这个算法或者参数好坏的定量指标。在模型评估过程中，往往需要使用多种不同的指标进行评估，在诸多的评价指标中，大部分指标只能片面的反应模型的一部分性能，如果不能合理的运用评估指标，不仅不能发现模型本身的问题，而且会阅读全文

posted @ 2019-08-27 14:52 郭耀华阅读(18869) 评论(0) 推荐(18) 编辑

Git常用操作指南

摘要：[TOC] 前言因为工作需求，最近又重新温习了一下Git操作，遂总结了一篇Git常用操作指南，方便日后学习查阅，本博客精简提炼了在开发过程中Git经常用到的核心命令，主要参考了《 "廖雪峰老师的Git教程" 》，希望对大家学习使用Git能带来帮助。 Git简介 Git是Linux之父Linus的第阅读全文

posted @ 2019-07-21 17:24 郭耀华阅读(5086) 评论(0) 推荐(8) 编辑

深度学习工作站攒机指南

摘要：[TOC] 引言接触深度学习已经快两年了，之前一直使用 "Google Colab" 和 "Kaggle Kernel" 提供的免费GPU（Tesla K80）训练模型（最近Google将Colab的GPU升级为 Tesla T4 ，计算速度又提升了一个档次），不过由于内地网络的原因，Google 阅读全文

posted @ 2019-05-11 15:06 郭耀华阅读(10027) 评论(2) 推荐(10) 编辑

一文看懂Transformer内部原理（含PyTorch实现）

摘要：Transformer注解及PyTorch实现 Transformer注解及PyTorch实现原文：http://nlp.seas.harvard.edu/2018/04/03/attention.html 作者：Alexander Rush 转载自机器之心：https://www.jiqizhi 阅读全文

posted @ 2018-12-21 11:45 郭耀华阅读(32796) 评论(2) 推荐(20) 编辑

【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练

摘要：BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文《BERT：语言理解的深度双向变换器预训练》，介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语阅读全文

posted @ 2018-12-20 14:47 郭耀华阅读(16529) 评论(0) 推荐(24) 编辑

机器学习数学基础总结

摘要：[TOC] 线性代数一、基本知识 1. 本文中所有的向量都是列向量的形式： $$\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}$$ 本书中所有的矩 $\mathbf 阅读全文

posted @ 2018-11-04 21:40 郭耀华阅读(5173) 评论(0) 推荐(20) 编辑

平均精度均值(mAP)——目标检测模型性能统计量

摘要：在机器学习领域，对于大多数常见问题，通常会有多个模型可供选择。当然，每个模型会有自己的特性，并会受到不同因素的影响而表现不同。每个模型的好坏是通过评价它在某个数据集上的性能来判断的，这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量，包括准确率（ accuracy ）、精确率（阅读全文

posted @ 2018-11-03 18:19 郭耀华阅读(15483) 评论(2) 推荐(10) 编辑

SVM（支持向量机）之Hinge Loss解释

摘要：Hinge Loss 解释 SVM 求解使通过建立二次规划原始问题，引入拉格朗日乘子法，然后转换成对偶的形式去求解，这是一种理论非常充实的解法。这里换一种角度来思考，在机器学习领域，一般的做法是经验风险最小化 ERM ，即构建假设函数为输入输出间的映射，然后采用损失函数来衡量模型的优劣。求得使损失最阅读全文

posted @ 2018-08-07 12:23 郭耀华阅读(21532) 评论(0) 推荐(1) 编辑

【NLP】Attention Model（注意力模型）学习总结

摘要：最近一直在研究深度语义匹配算法，搭建了个模型，跑起来效果并不是很理想，在分析原因的过程中，发现注意力模型在解决这个问题上还是很有帮助的，所以花了两天研究了一下。此文大部分参考深度学习中的注意力机制(2017版) 张俊林的博客，不过添加了一些个人的思考与理解过程。在github上找到一份基于kera 阅读全文

posted @ 2018-08-06 21:55 郭耀华阅读(32158) 评论(3) 推荐(21) 编辑

NLP之——Word2Vec详解

摘要：2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（D 阅读全文

posted @ 2018-06-28 19:29 郭耀华阅读(108658) 评论(9) 推荐(95) 编辑

NLP基础——词集模型（SOW）和词袋模型（BOW）

摘要：（1）词集模型（Set Of Words）：单词构成的集合，集合自然每个元素都只有一个，也即词集中的每个单词都只有一个。（2）词袋模型（Bag Of Words）：如果一个单词在文档中出现不止一次，并统计其出现的次数（频数）。为文档生成对应的词集模型和词袋模型考虑如下的文档： list o 阅读全文

posted @ 2018-06-27 13:56 郭耀华阅读(4645) 评论(0) 推荐(1) 编辑

【深度学习】一文读懂机器学习常用损失函数（Loss Function）

摘要：最近太忙已经好久没有写博客了，今天整理分享一篇关于损失函数的文章吧，以前对损失函数的理解不够深入，没有真正理解每个损失函数的特点以及应用范围，如果文中有任何错误，请各位朋友指教，谢谢~ 损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数, 阅读全文

posted @ 2018-06-23 14:46 郭耀华阅读(76743) 评论(1) 推荐(34) 编辑

什么是指数加权平均、偏差修正？

摘要：指数加权平均在深度学习优化算法中，例如Momentum、RMSprop、Adam，都提到了一个概念，指数加权平均，看了Andrew Ng的深度学习课程后，总结一下什么是指数加权平均。式中v_t可近似代表1/(1-β)个θ的平均值。偏差修正由以上证明可以看出，每个最新数据值，依赖于以前的数据结阅读全文

posted @ 2018-03-11 17:19 郭耀华阅读(12872) 评论(1) 推荐(16) 编辑

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

摘要：在机器学习、深度学习中使用的优化算法除了常见的梯度下降，还有 Adadelta，Adagrad，RMSProp 等几种优化器，都是什么呢，又该怎么选择呢？在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较，今天来学习一下：https://arxiv.org/pdf/1609.0 阅读全文

posted @ 2018-03-10 23:00 郭耀华阅读(244979) 评论(10) 推荐(164) 编辑

深度学习论文汇总

摘要：本博客用于记录自己平时收集的一些不错的深度学习论文，近9成的文章都是引用量3位数以上的论文，剩下少部分来自个人喜好，本博客将伴随着我的研究生涯长期更新，如有错误或者推荐文章烦请私信。深度学习书籍和入门资源 LeCun Y, Bengio Y, Hinton G. Deep learning[J]. 阅读全文

posted @ 2018-03-09 14:55 郭耀华阅读(7159) 评论(0) 推荐(12) 编辑

在linux ubuntu下搭建深度学习/机器学习开发环境

摘要：一、安装Anaconda 1.下载下载地址为：https://www.anaconda.com/download/#linux 2.安装anaconda，执行命令： 3.在安装过程中会显示配置路径 Prefix=/home/jsy/anaconda2/ 4.安装完之后，运行python，仍是ubu 阅读全文

posted @ 2018-03-02 11:14 郭耀华阅读(8435) 评论(0) 推荐(0) 编辑

为什么使用卷积？

摘要：![](http://images2017.cnblogs.com/blog/1192699/201801/1192699-20180120000156740-1131117184.png) 阅读全文

posted @ 2018-01-20 00:02 郭耀华阅读(539) 评论(0) 推荐(0) 编辑

郭耀华's Blog

欲穷千里目，更上一层楼
项目主页：https://github.com/guoyaohua/

随笔分类 - 机器学习

公告

郭耀华's Blog

欲穷千里目，更上一层楼 项目主页：https://github.com/guoyaohua/

随笔分类 - 机器学习

公告

欲穷千里目，更上一层楼
项目主页：https://github.com/guoyaohua/