随笔分类 - 机器(深度)学习
使用Bert模型实现embedding嵌入
摘要:参考文献:保姆级教程,用PyTorch和BERT进行文本分类 - 知乎 (zhihu.com) 模型地址:https://huggingface.co/bert-base-cased 结果是BaseModelOutput对象: BaseModelOutput 类型是 Hugging Face Tra
阅读全文
过拟合、欠拟合
摘要:过拟合(Overfitting): 定义: 过拟合指的是模型在训练数据上表现很好,但在新数据上表现较差的情况。模型过于复杂,可能捕捉了训练数据中的噪声或特定的样本特征,而这些特征并不代表整体的数据分布。 原因: 过拟合通常发生在模型复杂度较高、参数过多或者训练数据不足的情况下。模型可能过分记住了训练
阅读全文
什么是Bert
摘要:论文:https://arxiv.org/abs/1810.04805 参考文献:自然语言处理中的Transformer和BERT - 知乎 (zhihu.com) 定义: BERT(Bidirectional Encoder Representations from Transformers)是一
阅读全文
模型的评估
摘要:在机器学习中,模型评估有很多不同的指标,具体的选择通常取决于你解决的问题的性质(例如分类、回归等)以及你关心的特定性能方面。以下是一些常见的模型评估指标: 分类问题指标: 在二分类问题中,"正类别"通常指的是模型预测为正例的类别。在一个二分类问题中,我们通常将其中一个类别标记为正例(Positive
阅读全文
epoch
摘要:在机器学习中,一个 epoch 是指对整个训练数据集进行一次完整的训练。在训练神经网络时,一次完整的训练周期会经过所有的训练样本,然后根据模型的权重进行参数更新。 训练数据集通常被分成小批次(minibatches)进行处理,每个小批次包含一组训练样本。在一个 epoch 中,模型会逐批次地处理训练
阅读全文
多分类问题:模型输出结果,和标签的顺序
摘要:背景: 在多分类问题中,模型输出的结果是一个矩阵,某个值为1,其他的值为0. 怎么知道值为1的那个位置,代表的是哪个标签?? 二分类 常见的约定的惯例 第一个位置通常对应"负类别":这是因为通常情决定了负类别是标签0或其他表示非目标类别的值。 第二个位置通常对应"正类别":同样地,正类别通常被编码为
阅读全文
词袋模型
摘要:不好用,以后也不会用 很难用,非常不建议,训练模型和预测时候,词嵌入维度都不一致 参考文档:https://blog.csdn.net/ProgramNovice/article/details/128159731
阅读全文
文本张量和文本向量
摘要:文本张量(Text Tensor) 是一种将文本数据表示为多维数组(张量)的数据结构。文本张量通常用于深度学习和神经网络模型中,以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面: 词汇表:文本张量的一个重要维度是词汇表大小,即语料库中唯一单词的数量。这通常是一个整数值,表示
阅读全文
词向量word2vec
摘要:词向量(Word Vectors),也被称为词嵌入(Word Embeddings) 是自然语言处理(NLP)领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术,使计算机能够更好地理解和处理文本数据。词向量的主要思想是 将单词的语义信息编码成连续的实数向量,使相似的词在向量空间中距离较近,
阅读全文
【文本向量化】【刚接触NLP,啥也不会,写错的,都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数:标签编码
摘要:参考文档:https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP,其实是想把句子变成词向量。用了词袋模型,用了word2vec,都也没用明白。糊里糊涂的用到了这个 哈哈哈 转换类别数据为整数:LabelEncoder 可
阅读全文
下采样和上采样
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 下采样: 上采样是指减少某类别的样本数量多的数据,使其与多数类别的样本数量相近。 对图像而言,下采样就是特征提取,减少数据量 上采样: 上采样是指增加某类别的样本数量少
阅读全文
什么是卷积
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 不断的学习,就会有不同的认识和理解. 卷积操作的基本思想是提取输入数据的局部特征,这有助于网络捕捉图像中的空间结构和模式。 卷积核是一个小的矩阵,通常是正方形的,它在输
阅读全文
归一化,池化
摘要:定义:归一化(Normalization)是数据处理和统计分析中常用的一种技术,其目的是将数据转换成特定的范围或分布,以便更好地进行比较、分析和处理。 归一化通常用于以下领域: 数据标准化:在数据分析和机器学习中,归一化可以用于将不同尺度的数据转换为相同的尺度,以避免某些特征对模型的权重产生不合理的
阅读全文
浙公网安备 33010602011771号