博客园 - 郭耀华

十大经典排序算法最强总结（含Java、Python码实现） - 郭耀华

2020-12-29T07:26:00Z

【摘要】引言所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。排序算法，就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视，尤其是在大量数据的处理方面。一个优秀的算法可以节省大量的资源。在各个领域中考虑到数据的各种限制和规范，要得到一个符合实际的优秀阅读全文

【异常检测】孤立森林（Isolation Forest）算法简介 - 郭耀华

2020-08-17T08:10:00Z

【摘要】简介工作的过程中经常会遇到这样一个问题，在构建模型训练数据时，我们很难保证训练数据的纯净度，数据中往往会参杂很多被错误标记噪声数据，而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记，成本会很高，我们希望能使用一种无监督算法帮我们做这件事，异常检测算法可以在一定程度上解决这个问题。异常检阅读全文

深入理解决策树算法 - 郭耀华

2019-11-07T09:19:00Z

【摘要】引言决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，决策树模型可以认为是规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。决策树学习通常包括3个步骤：阅读全文

【机器学习】一文读懂分类算法常用评价指标 - 郭耀华

2019-08-27T06:52:00Z

【摘要】评价指标是针对将相同的数据，输入不同的算法模型，或者输入不同参数的同一种算法模型，而给出这个算法或者参数好坏的定量指标。在模型评估过程中，往往需要使用多种不同的指标进行评估，在诸多的评价指标中，大部分指标只能片面的反应模型的一部分性能，如果不能合理的运用评估指标，不仅不能发现模型本身的问题，而且会阅读全文

Git常用操作指南 - 郭耀华

2019-07-21T09:24:00Z

【摘要】[TOC] 前言因为工作需求，最近又重新温习了一下Git操作，遂总结了一篇Git常用操作指南，方便日后学习查阅，本博客精简提炼了在开发过程中Git经常用到的核心命令，主要参考了《 "廖雪峰老师的Git教程" 》，希望对大家学习使用Git能带来帮助。 Git简介 Git是Linux之父Linus的第阅读全文

深度学习工作站攒机指南 - 郭耀华

2019-05-11T07:06:00Z

【摘要】[TOC] 引言接触深度学习已经快两年了，之前一直使用 "Google Colab" 和 "Kaggle Kernel" 提供的免费GPU（Tesla K80）训练模型（最近Google将Colab的GPU升级为 Tesla T4 ，计算速度又提升了一个档次），不过由于内地网络的原因，Google 阅读全文

一文看懂Transformer内部原理（含PyTorch实现） - 郭耀华

2018-12-21T03:45:00Z

【摘要】Transformer注解及PyTorch实现 Transformer注解及PyTorch实现原文：http://nlp.seas.harvard.edu/2018/04/03/attention.html 作者：Alexander Rush 转载自机器之心：https://www.jiqizhi 阅读全文

【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练 - 郭耀华

2018-12-20T06:47:00Z

【摘要】BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文《BERT：语言理解的深度双向变换器预训练》，介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语阅读全文

机器学习数学基础总结 - 郭耀华

2018-11-04T13:40:00Z

【摘要】[TOC] 线性代数一、基本知识 1. 本文中所有的向量都是列向量的形式： $$\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}$$ 本书中所有的矩 $\mathbf 阅读全文

平均精度均值(mAP)——目标检测模型性能统计量 - 郭耀华

2018-11-03T10:19:00Z

【摘要】在机器学习领域，对于大多数常见问题，通常会有多个模型可供选择。当然，每个模型会有自己的特性，并会受到不同因素的影响而表现不同。每个模型的好坏是通过评价它在某个数据集上的性能来判断的，这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量，包括准确率（ accuracy ）、精确率（阅读全文

【Java面试宝典】深入理解JAVA虚拟机 - 郭耀华

2018-09-25T03:22:00Z

【摘要】一、运行时数据区域线程隔离：线程隔离的意思，就是给不同的线程多分配的资源用，以做到不争用。线程共享：线程共享就是资源只有一个没有办法分配更多，只能共享。 Java虚拟机管理的内存包括几个运行时数据内存：方法区、虚拟机栈、本地方法栈、堆、程序计数器，其中方法区和堆是由线程共享的数据区，其他几个是线阅读全文

Faster R-CNN：详解目标检测的实现过程 - 郭耀华

2018-08-16T09:49:00Z

【摘要】本文详细解释了 Faster R-CNN 的网络架构和工作流，一步步带领读者理解目标检测的工作原理，作者本人也提供了 Luminoth 实现，供大家参考。 Luminoth 实现：https://github.com/tryolabs/luminoth/tree/master/luminoth/mo 阅读全文

TensorFlow 使用变量共享 - 郭耀华

2018-08-14T09:54:00Z

【摘要】参考： https://www.tensorflow.org/programmers_guide/variable_scope 举例说明 TensorFlow中的变量一般就是模型的参数。当模型复杂的时候共享变量会无比复杂。官网给了一个case，当创建两层卷积的过滤器时，每输入一次图片就会创建一次过阅读全文

各种卷积结构原理及优劣总结 - 郭耀华

2018-08-08T08:23:00Z

【摘要】卷积神经网络作为深度学习的典型网络，在图像处理和计算机视觉等多个领域都取得了很好的效果。 Paul-Louis Pröve在Medium上通过这篇文章快速地介绍了不同类型的卷积结构（Convolution）及优势。为了简单起见，本文仅探讨二维卷积结构。卷积首先，定义下卷积层的结构参数。 △ 卷积阅读全文

SVM（支持向量机）之Hinge Loss解释 - 郭耀华

2018-08-07T04:23:00Z

【摘要】Hinge Loss 解释 SVM 求解使通过建立二次规划原始问题，引入拉格朗日乘子法，然后转换成对偶的形式去求解，这是一种理论非常充实的解法。这里换一种角度来思考，在机器学习领域，一般的做法是经验风险最小化 ERM ，即构建假设函数为输入输出间的映射，然后采用损失函数来衡量模型的优劣。求得使损失最阅读全文

【NLP】Attention Model（注意力模型）学习总结 - 郭耀华

2018-08-06T13:55:00Z

【摘要】最近一直在研究深度语义匹配算法，搭建了个模型，跑起来效果并不是很理想，在分析原因的过程中，发现注意力模型在解决这个问题上还是很有帮助的，所以花了两天研究了一下。此文大部分参考深度学习中的注意力机制(2017版) 张俊林的博客，不过添加了一些个人的思考与理解过程。在github上找到一份基于kera 阅读全文

Win10 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程） - 郭耀华

2018-07-05T03:44:00Z

【摘要】[TOC] 前言配置环境，研究了一整天，踩了很多坑，在网上找了很多资料，发现基本上都没非常明确的教程，所以今天想分享一下配置tensorflow GPU版本的经验，希望能让各位朋友少走些弯路。（PS：一切的前提，你需要有一张Nvidia显卡。我的显卡是 GT940MX） Tensorflow有两个阅读全文

NLP之——Word2Vec详解 - 郭耀华

2018-06-28T11:29:00Z

【摘要】2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（D 阅读全文

NLP基础——词集模型（SOW）和词袋模型（BOW） - 郭耀华

2018-06-27T05:56:00Z

【摘要】（1）词集模型（Set Of Words）：单词构成的集合，集合自然每个元素都只有一个，也即词集中的每个单词都只有一个。（2）词袋模型（Bag Of Words）：如果一个单词在文档中出现不止一次，并统计其出现的次数（频数）。为文档生成对应的词集模型和词袋模型考虑如下的文档： list o 阅读全文

DSSM：深度语义匹配模型（及其变体CLSM、LSTM-DSSM） - 郭耀华

2018-06-26T07:06:00Z

【摘要】导语在NLP领域，语义相似度的计算一直是个难题：搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN DSSM、LSTM DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。阅读全文