机器（深度）学习 - 随笔分类(第3页) - 黑逍逍

摘要：. 阅读全文

posted @ 2023-11-14 16:57 黑逍逍阅读(19) 评论(0) 推荐(0)

摘要：参考文献：保姆级教程，用PyTorch和BERT进行文本分类 - 知乎 (zhihu.com) 模型地址：https://huggingface.co/bert-base-cased 结果是BaseModelOutput对象： BaseModelOutput 类型是 Hugging Face Tra 阅读全文

posted @ 2023-11-14 09:54 黑逍逍阅读(554) 评论(0) 推荐(0)

过拟合、欠拟合

摘要：过拟合（Overfitting）：定义：过拟合指的是模型在训练数据上表现很好，但在新数据上表现较差的情况。模型过于复杂，可能捕捉了训练数据中的噪声或特定的样本特征，而这些特征并不代表整体的数据分布。原因：过拟合通常发生在模型复杂度较高、参数过多或者训练数据不足的情况下。模型可能过分记住了训练阅读全文

posted @ 2023-11-13 22:38 黑逍逍阅读(157) 评论(0) 推荐(0)

bert和transformer有什么区别和联系

摘要：重新在写阅读全文

posted @ 2023-11-13 09:57 黑逍逍阅读(1954) 评论(0) 推荐(0)

什么是Bert

摘要：论文：https://arxiv.org/abs/1810.04805 参考文献：自然语言处理中的Transformer和BERT - 知乎 (zhihu.com) 定义： BERT（Bidirectional Encoder Representations from Transformers）是一阅读全文

posted @ 2023-11-12 23:31 黑逍逍阅读(244) 评论(0) 推荐(0)

模型的评估

摘要：在机器学习中，模型评估有很多不同的指标，具体的选择通常取决于你解决的问题的性质（例如分类、回归等）以及你关心的特定性能方面。以下是一些常见的模型评估指标：分类问题指标：在二分类问题中，"正类别"通常指的是模型预测为正例的类别。在一个二分类问题中，我们通常将其中一个类别标记为正例（Positive 阅读全文

posted @ 2023-11-10 13:41 黑逍逍阅读(113) 评论(0) 推荐(0)

epoch

摘要：在机器学习中，一个 epoch 是指对整个训练数据集进行一次完整的训练。在训练神经网络时，一次完整的训练周期会经过所有的训练样本，然后根据模型的权重进行参数更新。训练数据集通常被分成小批次（minibatches）进行处理，每个小批次包含一组训练样本。在一个 epoch 中，模型会逐批次地处理训练阅读全文

posted @ 2023-11-10 09:54 黑逍逍阅读(129) 评论(0) 推荐(0)

wandb怎么用

摘要：安装：剩下的就是跑代码阅读全文

posted @ 2023-11-09 10:39 黑逍逍阅读(32) 评论(0) 推荐(0)

多分类问题：模型输出结果，和标签的顺序

摘要：背景：在多分类问题中，模型输出的结果是一个矩阵，某个值为1，其他的值为0. 怎么知道值为1的那个位置，代表的是哪个标签？？二分类常见的约定的惯例第一个位置通常对应"负类别"：这是因为通常情决定了负类别是标签0或其他表示非目标类别的值。第二个位置通常对应"正类别"：同样地，正类别通常被编码为阅读全文

posted @ 2023-11-06 22:20 黑逍逍阅读(144) 评论(0) 推荐(0)

英文分词NLTK

摘要：？阅读全文

posted @ 2023-10-26 22:23 黑逍逍阅读(21) 评论(0) 推荐(0)

中文分词jieba

摘要：？阅读全文

posted @ 2023-10-26 22:23 黑逍逍阅读(17) 评论(0) 推荐(0)

确定主题种类的方法

摘要：？阅读全文

posted @ 2023-10-26 22:02 黑逍逍阅读(12) 评论(0) 推荐(0)

层次主题模型——Hierarchical LDA原理

摘要：l 阅读全文

posted @ 2023-10-26 18:12 黑逍逍阅读(79) 评论(0) 推荐(0)

词袋模型

摘要：不好用，以后也不会用很难用，非常不建议，训练模型和预测时候，词嵌入维度都不一致参考文档：https://blog.csdn.net/ProgramNovice/article/details/128159731 阅读全文

posted @ 2023-10-23 00:25 黑逍逍阅读(28) 评论(0) 推荐(0)

文本张量和文本向量

摘要：文本张量（Text Tensor）是一种将文本数据表示为多维数组（张量）的数据结构。文本张量通常用于深度学习和神经网络模型中，以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面：词汇表：文本张量的一个重要维度是词汇表大小，即语料库中唯一单词的数量。这通常是一个整数值，表示阅读全文

posted @ 2023-10-22 23:49 黑逍逍阅读(272) 评论(0) 推荐(0)

词向量word2vec

摘要：词向量（Word Vectors），也被称为词嵌入（Word Embeddings）是自然语言处理（NLP）领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术，使计算机能够更好地理解和处理文本数据。词向量的主要思想是将单词的语义信息编码成连续的实数向量，使相似的词在向量空间中距离较近，阅读全文

posted @ 2023-10-22 21:48 黑逍逍阅读(164) 评论(0) 推荐(0)

【文本向量化】【刚接触NLP，啥也不会，写错的，都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数：标签编码

摘要：参考文档：https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP，其实是想把句子变成词向量。用了词袋模型，用了word2vec，都也没用明白。糊里糊涂的用到了这个哈哈哈转换类别数据为整数：LabelEncoder 可阅读全文

posted @ 2023-10-20 17:52 黑逍逍阅读(79) 评论(0) 推荐(0)

下采样和上采样

摘要：参考文献：https://blog.csdn.net/zhibing_ding/article/details/125254670 下采样：上采样是指减少某类别的样本数量多的数据，使其与多数类别的样本数量相近。对图像而言，下采样就是特征提取，减少数据量上采样：上采样是指增加某类别的样本数量少阅读全文

posted @ 2023-10-19 10:42 黑逍逍阅读(254) 评论(0) 推荐(0)

什么是卷积

摘要：参考文献：https://blog.csdn.net/zhibing_ding/article/details/125254670 不断的学习，就会有不同的认识和理解. 卷积操作的基本思想是提取输入数据的局部特征，这有助于网络捕捉图像中的空间结构和模式。卷积核是一个小的矩阵，通常是正方形的，它在输阅读全文

posted @ 2023-10-19 10:28 黑逍逍阅读(49) 评论(0) 推荐(0)

归一化，池化

摘要：定义：归一化（Normalization）是数据处理和统计分析中常用的一种技术，其目的是将数据转换成特定的范围或分布，以便更好地进行比较、分析和处理。归一化通常用于以下领域：数据标准化：在数据分析和机器学习中，归一化可以用于将不同尺度的数据转换为相同的尺度，以避免某些特征对模型的权重产生不合理的阅读全文

posted @ 2023-10-18 16:14 黑逍逍阅读(287) 评论(0) 推荐(0)

随笔分类 - 机器（深度）学习

公告