博客园 - 郭耀华
uuid:6cbd1ba2-f883-4c34-aed1-30dde64a3a3e;id=647648
2020-12-31T07:12:52Z
郭耀华
https://www.cnblogs.com/guoyaohua/
feed.cnblogs.com
https://www.cnblogs.com/guoyaohua/p/sorting.html
十大经典排序算法最强总结(含Java、Python码实现) - 郭耀华
引言 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。排序算法,就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视,尤其是在大量数据的处理方面。一个优秀的算法可以节省大量的资源。在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀
2020-12-29T07:26:00Z
2020-12-29T07:26:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】引言 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。排序算法,就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视,尤其是在大量数据的处理方面。一个优秀的算法可以节省大量的资源。在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀 <a href="https://www.cnblogs.com/guoyaohua/p/sorting.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/Isolation_Forest.html
【异常检测】孤立森林(Isolation Forest)算法简介 - 郭耀华
简介 工作的过程中经常会遇到这样一个问题,在构建模型训练数据时,我们很难保证训练数据的纯净度,数据中往往会参杂很多被错误标记噪声数据,而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记,成本会很高,我们希望能使用一种无监督算法帮我们做这件事,异常检测算法可以在一定程度上解决这个问题。 异常检
2020-08-17T08:10:00Z
2020-08-17T08:10:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】简介 工作的过程中经常会遇到这样一个问题,在构建模型训练数据时,我们很难保证训练数据的纯净度,数据中往往会参杂很多被错误标记噪声数据,而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记,成本会很高,我们希望能使用一种无监督算法帮我们做这件事,异常检测算法可以在一定程度上解决这个问题。 异常检 <a href="https://www.cnblogs.com/guoyaohua/p/Isolation_Forest.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/decision-tree.html
深入理解决策树算法 - 郭耀华
引言 决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,决策树模型可以认为是 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。决策树学习通常包括3个步骤:
2019-11-07T09:19:00Z
2019-11-07T09:19:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】引言 决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,决策树模型可以认为是 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。决策树学习通常包括3个步骤: <a href="https://www.cnblogs.com/guoyaohua/p/decision-tree.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/classification-metrics.html
【机器学习】一文读懂分类算法常用评价指标 - 郭耀华
评价指标是针对将相同的数据,输入不同的算法模型,或者输入不同参数的同一种算法模型,而给出这个算法或者参数好坏的定量指标。 在模型评估过程中,往往需要使用多种不同的指标进行评估,在诸多的评价指标中,大部分指标只能片面的反应模型的一部分性能,如果不能合理的运用评估指标,不仅不能发现模型本身的问题,而且会
2019-08-27T06:52:00Z
2019-08-27T06:52:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】评价指标是针对将相同的数据,输入不同的算法模型,或者输入不同参数的同一种算法模型,而给出这个算法或者参数好坏的定量指标。 在模型评估过程中,往往需要使用多种不同的指标进行评估,在诸多的评价指标中,大部分指标只能片面的反应模型的一部分性能,如果不能合理的运用评估指标,不仅不能发现模型本身的问题,而且会 <a href="https://www.cnblogs.com/guoyaohua/p/classification-metrics.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/Git-tutorial.html
Git常用操作指南 - 郭耀华
[TOC] 前言 因为工作需求,最近又重新温习了一下Git操作,遂总结了一篇Git常用操作指南,方便日后学习查阅,本博客精简提炼了在开发过程中Git经常用到的核心命令,主要参考了《 "廖雪峰老师的Git教程" 》,希望对大家学习使用Git能带来帮助。 Git简介 Git是Linux之父Linus的第
2019-07-21T09:24:00Z
2019-07-21T09:24:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】[TOC] 前言 因为工作需求,最近又重新温习了一下Git操作,遂总结了一篇Git常用操作指南,方便日后学习查阅,本博客精简提炼了在开发过程中Git经常用到的核心命令,主要参考了《 "廖雪峰老师的Git教程" 》,希望对大家学习使用Git能带来帮助。 Git简介 Git是Linux之父Linus的第 <a href="https://www.cnblogs.com/guoyaohua/p/Git-tutorial.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/deeplearning-workstation.html
深度学习工作站攒机指南 - 郭耀华
[TOC] 引言 接触深度学习已经快两年了,之前一直使用 "Google Colab" 和 "Kaggle Kernel" 提供的免费GPU(Tesla K80)训练模型(最近Google将Colab的GPU升级为 Tesla T4 ,计算速度又提升了一个档次),不过由于内地网络的原因,Google
2019-05-11T07:06:00Z
2019-05-11T07:06:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】[TOC] 引言 接触深度学习已经快两年了,之前一直使用 "Google Colab" 和 "Kaggle Kernel" 提供的免费GPU(Tesla K80)训练模型(最近Google将Colab的GPU升级为 Tesla T4 ,计算速度又提升了一个档次),不过由于内地网络的原因,Google <a href="https://www.cnblogs.com/guoyaohua/p/deeplearning-workstation.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/transformer.html
一文看懂Transformer内部原理(含PyTorch实现) - 郭耀华
Transformer注解及PyTorch实现 Transformer注解及PyTorch实现 原文:http://nlp.seas.harvard.edu/2018/04/03/attention.html 作者:Alexander Rush 转载自机器之心:https://www.jiqizhi
2018-12-21T03:45:00Z
2018-12-21T03:45:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】Transformer注解及PyTorch实现 Transformer注解及PyTorch实现 原文:http://nlp.seas.harvard.edu/2018/04/03/attention.html 作者:Alexander Rush 转载自机器之心:https://www.jiqizhi <a href="https://www.cnblogs.com/guoyaohua/p/transformer.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/bert.html
【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练 - 郭耀华
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文《BERT:语言理解的深度双向变换器预训练》,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语
2018-12-20T06:47:00Z
2018-12-20T06:47:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文《BERT:语言理解的深度双向变换器预训练》,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语 <a href="https://www.cnblogs.com/guoyaohua/p/bert.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9905760.html
机器学习数学基础总结 - 郭耀华
[TOC] 线性代数 一、基本知识 1. 本文中所有的向量都是列向量的形式: $$\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}$$ 本书中所有的矩 $\mathbf
2018-11-04T13:40:00Z
2018-11-04T13:40:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】[TOC] 线性代数 一、基本知识 1. 本文中所有的向量都是列向量的形式: $$\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}$$ 本书中所有的矩 $\mathbf <a href="https://www.cnblogs.com/guoyaohua/p/9905760.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9901614.html
平均精度均值(mAP)——目标检测模型性能统计量 - 郭耀华
在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。当然,每个模型会有自己的特性,并会受到不同因素的影响而表现不同。 每个模型的好坏是通过评价它在某个数据集上的性能来判断的,这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量,包括准确率( accuracy )、精确率(
2018-11-03T10:19:00Z
2018-11-03T10:19:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。当然,每个模型会有自己的特性,并会受到不同因素的影响而表现不同。 每个模型的好坏是通过评价它在某个数据集上的性能来判断的,这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量,包括准确率( accuracy )、精确率( <a href="https://www.cnblogs.com/guoyaohua/p/9901614.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9692647.html
【Java面试宝典】深入理解JAVA虚拟机 - 郭耀华
一、运行时数据区域 线程隔离:线程隔离的意思,就是给不同的线程多分配的资源用,以做到不争用。 线程共享:线程共享就是资源只有一个没有办法分配更多,只能共享。 Java虚拟机管理的内存包括几个运行时数据内存:方法区、虚拟机栈、本地方法栈、堆、程序计数器,其中方法区和堆是由线程共享的数据区,其他几个是线
2018-09-25T03:22:00Z
2018-09-25T03:22:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】一、运行时数据区域 线程隔离:线程隔离的意思,就是给不同的线程多分配的资源用,以做到不争用。 线程共享:线程共享就是资源只有一个没有办法分配更多,只能共享。 Java虚拟机管理的内存包括几个运行时数据内存:方法区、虚拟机栈、本地方法栈、堆、程序计数器,其中方法区和堆是由线程共享的数据区,其他几个是线 <a href="https://www.cnblogs.com/guoyaohua/p/9692647.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9488119.html
Faster R-CNN:详解目标检测的实现过程 - 郭耀华
本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考。 Luminoth 实现:https://github.com/tryolabs/luminoth/tree/master/luminoth/mo
2018-08-16T09:49:00Z
2018-08-16T09:49:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考。 Luminoth 实现:https://github.com/tryolabs/luminoth/tree/master/luminoth/mo <a href="https://www.cnblogs.com/guoyaohua/p/9488119.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9476235.html
TensorFlow 使用变量共享 - 郭耀华
参考: https://www.tensorflow.org/programmers_guide/variable_scope 举例说明 TensorFlow中的变量一般就是模型的参数。当模型复杂的时候共享变量会无比复杂。 官网给了一个case,当创建两层卷积的过滤器时,每输入一次图片就会创建一次过
2018-08-14T09:54:00Z
2018-08-14T09:54:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】参考: https://www.tensorflow.org/programmers_guide/variable_scope 举例说明 TensorFlow中的变量一般就是模型的参数。当模型复杂的时候共享变量会无比复杂。 官网给了一个case,当创建两层卷积的过滤器时,每输入一次图片就会创建一次过 <a href="https://www.cnblogs.com/guoyaohua/p/9476235.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9443612.html
各种卷积结构原理及优劣总结 - 郭耀华
卷积神经网络作为深度学习的典型网络,在图像处理和计算机视觉等多个领域都取得了很好的效果。 Paul-Louis Pröve在Medium上通过这篇文章快速地介绍了不同类型的卷积结构(Convolution)及优势。为了简单起见,本文仅探讨二维卷积结构。 卷积 首先,定义下卷积层的结构参数。 △ 卷积
2018-08-08T08:23:00Z
2018-08-08T08:23:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】卷积神经网络作为深度学习的典型网络,在图像处理和计算机视觉等多个领域都取得了很好的效果。 Paul-Louis Pröve在Medium上通过这篇文章快速地介绍了不同类型的卷积结构(Convolution)及优势。为了简单起见,本文仅探讨二维卷积结构。 卷积 首先,定义下卷积层的结构参数。 △ 卷积 <a href="https://www.cnblogs.com/guoyaohua/p/9443612.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9436237.html
SVM(支持向量机)之Hinge Loss解释 - 郭耀华
Hinge Loss 解释 SVM 求解使通过建立二次规划原始问题,引入拉格朗日乘子法,然后转换成对偶的形式去求解,这是一种理论非常充实的解法。这里换一种角度来思考,在机器学习领域,一般的做法是经验风险最小化 ERM ,即构建假设函数为输入输出间的映射,然后采用损失函数来衡量模型的优劣。求得使损失最
2018-08-07T04:23:00Z
2018-08-07T04:23:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】Hinge Loss 解释 SVM 求解使通过建立二次规划原始问题,引入拉格朗日乘子法,然后转换成对偶的形式去求解,这是一种理论非常充实的解法。这里换一种角度来思考,在机器学习领域,一般的做法是经验风险最小化 ERM ,即构建假设函数为输入输出间的映射,然后采用损失函数来衡量模型的优劣。求得使损失最 <a href="https://www.cnblogs.com/guoyaohua/p/9436237.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9429924.html
【NLP】Attention Model(注意力模型)学习总结 - 郭耀华
最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下。 此文大部分参考深度学习中的注意力机制(2017版) 张俊林的博客,不过添加了一些个人的思考与理解过程。在github上找到一份基于kera
2018-08-06T13:55:00Z
2018-08-06T13:55:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下。 此文大部分参考深度学习中的注意力机制(2017版) 张俊林的博客,不过添加了一些个人的思考与理解过程。在github上找到一份基于kera <a href="https://www.cnblogs.com/guoyaohua/p/9429924.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9265268.html
Win10 Anaconda下TensorFlow-GPU环境搭建详细教程(包含CUDA+cuDNN安装过程) - 郭耀华
[TOC] 前言 配置环境,研究了一整天,踩了很多坑,在网上找了很多资料,发现基本上都没非常明确的教程,所以今天想分享一下配置tensorflow GPU版本的经验,希望能让各位朋友少走些弯路。(PS:一切的前提,你需要有一张Nvidia显卡。我的显卡是 GT940MX) Tensorflow有两个
2018-07-05T03:44:00Z
2018-07-05T03:44:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】[TOC] 前言 配置环境,研究了一整天,踩了很多坑,在网上找了很多资料,发现基本上都没非常明确的教程,所以今天想分享一下配置tensorflow GPU版本的经验,希望能让各位朋友少走些弯路。(PS:一切的前提,你需要有一张Nvidia显卡。我的显卡是 GT940MX) Tensorflow有两个 <a href="https://www.cnblogs.com/guoyaohua/p/9265268.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9240336.html
NLP之——Word2Vec详解 - 郭耀华
2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(D
2018-06-28T11:29:00Z
2018-06-28T11:29:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(D <a href="https://www.cnblogs.com/guoyaohua/p/9240336.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9233577.html
NLP基础——词集模型(SOW)和词袋模型(BOW) - 郭耀华
(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。 (2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一次,并统计其出现的次数(频数)。 为文档生成对应的词集模型和词袋模型 考虑如下的文档: list o
2018-06-27T05:56:00Z
2018-06-27T05:56:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。 (2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一次,并统计其出现的次数(频数)。 为文档生成对应的词集模型和词袋模型 考虑如下的文档: list o <a href="https://www.cnblogs.com/guoyaohua/p/9233577.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/guoyaohua/p/9229190.html
DSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM) - 郭耀华
导语 在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN DSSM、LSTM DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。
2018-06-26T07:06:00Z
2018-06-26T07:06:00Z
郭耀华
https://www.cnblogs.com/guoyaohua/
【摘要】导语 在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN DSSM、LSTM DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。 <a href="https://www.cnblogs.com/guoyaohua/p/9229190.html" target="_blank">阅读全文</a>