deephub

2022年6月28日

摘要：时间序列预测是基于时间数据进行预测的任务。它包括建立模型来进行观测，并在诸如天气、工程、经济、金融或商业预测等应用中推动未来的决策。本文主要介绍时间序列预测并描述任何时间序列的两种主要模式(趋势和季节性)。并基于这些模式对时间序列进行分解。最后使用一个被称为Holt-Winters季节方法的预测模阅读全文

posted @ 2022-06-28 11:15 deephub 阅读(273) 评论(0) 推荐(0)

2022年6月27日

100+数据科学面试问题和答案总结 - 机器学习和深度学习

摘要：来自Amazon，谷歌，Meta, Microsoft等的面试问题，本文接着昨天的文章整理了机器学习和深度学习的问题机器学习 54、什么是机器学习? 机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有阅读全文

posted @ 2022-06-27 10:55 deephub 阅读(215) 评论(0) 推荐(0)

2022年6月26日

100+数据科学面试问题和答案总结 - 基础知识和数据分析

摘要：来自Amazon，google，Meta, Microsoft等的面试问题，问题很多所以对问题进行了分类整理，本文包含基础知识和数据分析相关问题基础知识 1、什么是数据科学?列出监督学习和非监督学习的区别。数据科学是各种工具、算法和机器学习方法的混合，其目标是从原始数据中发现隐藏的模式。这与统计阅读全文

posted @ 2022-06-26 13:08 deephub 阅读(248) 评论(0) 推荐(0)

2022年6月25日

使用“BERT”作为编码器和解码器(BERT2BERT)来改进Seq2Seq文本摘要模型

摘要： BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。 Transformer 架构由两个主要构建块组成——编码器和解码器——我们将它们堆叠在一起形成一个 seq2seq 模型。从头开始训练基于Transformer 的模型通常很困难，因为阅读全文

posted @ 2022-06-25 10:38 deephub 阅读(420) 评论(0) 推荐(0)

2022年6月24日

如何比较两个或多个分布：从可视化到统计检验的方法总结

摘要：比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时，因果推断的黄金标准便是随机对照试验，也就是所谓的A /B测试。在实践中，我们为研究选择一个样本，并将其随机分为对照组（control group）和实验组（treatment 阅读全文

posted @ 2022-06-24 12:05 deephub 阅读(394) 评论(0) 推荐(0)

2022年6月23日

评估和选择最佳学习模型的一些指标总结

摘要：在评估模型时，虽然准确性是训练阶段模型评估和应用模型调整的重要指标，但它并不是模型评估的最佳指标，我们可以使用几个评估指标来评估我们的模型。因为我们用于构建大多数模型的数据是不平衡的，并且在对数据进行训练时模型可能会过拟合。在本文中，我将讨论和解释其中的一些方法，并给出使用 Python 代码的示阅读全文

posted @ 2022-06-23 11:58 deephub 阅读(26) 评论(0) 推荐(0)

2022年6月22日

位置编码（PE）是如何在Transformers中发挥作用的

摘要：在人类的语言中，单词的顺序和它们在句子中的位置是非常重要的。如果单词被重新排序后整个句子的意思就会改变，甚至可能变得毫无意义。 Transformers不像LSTM具有处理序列排序的内置机制，它将序列中的每个单词视为彼此独立。所以使用位置编码来保留有关句子中单词顺序的信息。什么是位置编码？位置编阅读全文

posted @ 2022-06-22 11:44 deephub 阅读(154) 评论(0) 推荐(0)

2022年6月21日

主动学习（Active Learning）概述、策略和不确定性度量

摘要：主动学习是指对需要标记的数据进行优先排序的过程，这样可以确定哪些数据对训练监督模型产生最大的影响。主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle)，用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。主动学习的动机在于认识到并非所有标有标签的样本都同等重阅读全文

posted @ 2022-06-21 11:51 deephub 阅读(365) 评论(0) 推荐(0)

2022年6月20日

模型的度量指标和损失函数有什么区别？为什么在项目中两者都很重要？

摘要：你是否一直在使用你的损失函数来评估你的机器学习系统的性能?我相信有很多人也是这样做的，这是一个普遍存在的误解，因为人工智能中的程序默认设置、课程中介绍都是这样说的。在本文中，我将解释为什么需要两个独立的模型评分函数来进行评估和优化……甚至还可能需要第三个模型评分函数来进行统计测试。在整个数据科学阅读全文

posted @ 2022-06-20 11:41 deephub 阅读(136) 评论(0) 推荐(0)

2022年6月19日

Curriculum Labeling：重新审视半监督学习的伪标签

摘要： Curriculum Labeling (CL)，在每个自训练周期之前重新启动模型参数，优于伪标签 (PL) Pseudo-Labeling (PL) 通过将伪标签应用于未标记集中的样本以在自训练周期中进行模型训练。Curriculum Labeling (CL)中，应用类似课程学习的原则，通过在每阅读全文

posted @ 2022-06-19 13:10 deephub 阅读(134) 评论(0) 推荐(0)

overfit深度学习

公告