随笔分类 -  机器(深度)学习

使用bert进行文本分类
摘要:. 阅读全文
posted @ 2023-11-14 16:57 黑逍逍 阅读(9) 评论(0) 推荐(0)
使用Bert模型实现embedding嵌入
摘要:参考文献:保姆级教程,用PyTorch和BERT进行文本分类 - 知乎 (zhihu.com) 模型地址:https://huggingface.co/bert-base-cased 结果是BaseModelOutput对象: BaseModelOutput 类型是 Hugging Face Tra 阅读全文
posted @ 2023-11-14 09:54 黑逍逍 阅读(518) 评论(0) 推荐(0)
过拟合、欠拟合
摘要:过拟合(Overfitting): 定义: 过拟合指的是模型在训练数据上表现很好,但在新数据上表现较差的情况。模型过于复杂,可能捕捉了训练数据中的噪声或特定的样本特征,而这些特征并不代表整体的数据分布。 原因: 过拟合通常发生在模型复杂度较高、参数过多或者训练数据不足的情况下。模型可能过分记住了训练 阅读全文
posted @ 2023-11-13 22:38 黑逍逍 阅读(142) 评论(0) 推荐(0)
bert和transformer有什么区别和联系
摘要:重新在写 阅读全文
posted @ 2023-11-13 09:57 黑逍逍 阅读(1948) 评论(0) 推荐(0)
什么是Bert
摘要:论文:https://arxiv.org/abs/1810.04805 参考文献:自然语言处理中的Transformer和BERT - 知乎 (zhihu.com) 定义: BERT(Bidirectional Encoder Representations from Transformers)是一 阅读全文
posted @ 2023-11-12 23:31 黑逍逍 阅读(212) 评论(0) 推荐(0)
模型的评估
摘要:在机器学习中,模型评估有很多不同的指标,具体的选择通常取决于你解决的问题的性质(例如分类、回归等)以及你关心的特定性能方面。以下是一些常见的模型评估指标: 分类问题指标: 在二分类问题中,"正类别"通常指的是模型预测为正例的类别。在一个二分类问题中,我们通常将其中一个类别标记为正例(Positive 阅读全文
posted @ 2023-11-10 13:41 黑逍逍 阅读(81) 评论(0) 推荐(0)
epoch
摘要:在机器学习中,一个 epoch 是指对整个训练数据集进行一次完整的训练。在训练神经网络时,一次完整的训练周期会经过所有的训练样本,然后根据模型的权重进行参数更新。 训练数据集通常被分成小批次(minibatches)进行处理,每个小批次包含一组训练样本。在一个 epoch 中,模型会逐批次地处理训练 阅读全文
posted @ 2023-11-10 09:54 黑逍逍 阅读(120) 评论(0) 推荐(0)
wandb怎么用
摘要:安装: 剩下的就是跑代码 阅读全文
posted @ 2023-11-09 10:39 黑逍逍 阅读(27) 评论(0) 推荐(0)
多分类问题:模型输出结果,和标签的顺序
摘要:背景: 在多分类问题中,模型输出的结果是一个矩阵,某个值为1,其他的值为0. 怎么知道值为1的那个位置,代表的是哪个标签?? 二分类 常见的约定的惯例 第一个位置通常对应"负类别":这是因为通常情决定了负类别是标签0或其他表示非目标类别的值。 第二个位置通常对应"正类别":同样地,正类别通常被编码为 阅读全文
posted @ 2023-11-06 22:20 黑逍逍 阅读(134) 评论(0) 推荐(0)
英文分词NLTK
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(16) 评论(0) 推荐(0)
中文分词jieba
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(11) 评论(0) 推荐(0)
确定主题种类的方法
摘要:? 阅读全文
posted @ 2023-10-26 22:02 黑逍逍 阅读(11) 评论(0) 推荐(0)
层次主题模型——Hierarchical LDA原理
摘要:l 阅读全文
posted @ 2023-10-26 18:12 黑逍逍 阅读(72) 评论(0) 推荐(0)
词袋模型
摘要:不好用,以后也不会用 很难用,非常不建议,训练模型和预测时候,词嵌入维度都不一致 参考文档:https://blog.csdn.net/ProgramNovice/article/details/128159731 阅读全文
posted @ 2023-10-23 00:25 黑逍逍 阅读(22) 评论(0) 推荐(0)
文本张量和文本向量
摘要:文本张量(Text Tensor) 是一种将文本数据表示为多维数组(张量)的数据结构。文本张量通常用于深度学习和神经网络模型中,以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面: 词汇表:文本张量的一个重要维度是词汇表大小,即语料库中唯一单词的数量。这通常是一个整数值,表示 阅读全文
posted @ 2023-10-22 23:49 黑逍逍 阅读(254) 评论(0) 推荐(0)
词向量word2vec
摘要:词向量(Word Vectors),也被称为词嵌入(Word Embeddings) 是自然语言处理(NLP)领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术,使计算机能够更好地理解和处理文本数据。词向量的主要思想是 将单词的语义信息编码成连续的实数向量,使相似的词在向量空间中距离较近, 阅读全文
posted @ 2023-10-22 21:48 黑逍逍 阅读(150) 评论(0) 推荐(0)
【文本向量化】【刚接触NLP,啥也不会,写错的,都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数:标签编码
摘要:参考文档:https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP,其实是想把句子变成词向量。用了词袋模型,用了word2vec,都也没用明白。糊里糊涂的用到了这个 哈哈哈 转换类别数据为整数:LabelEncoder 可 阅读全文
posted @ 2023-10-20 17:52 黑逍逍 阅读(69) 评论(0) 推荐(0)
下采样和上采样
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 下采样: 上采样是指减少某类别的样本数量多的数据,使其与多数类别的样本数量相近。 对图像而言,下采样就是特征提取,减少数据量 上采样: 上采样是指增加某类别的样本数量少 阅读全文
posted @ 2023-10-19 10:42 黑逍逍 阅读(234) 评论(0) 推荐(0)
什么是卷积
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 不断的学习,就会有不同的认识和理解. 卷积操作的基本思想是提取输入数据的局部特征,这有助于网络捕捉图像中的空间结构和模式。 卷积核是一个小的矩阵,通常是正方形的,它在输 阅读全文
posted @ 2023-10-19 10:28 黑逍逍 阅读(41) 评论(0) 推荐(0)
归一化,池化
摘要:定义:归一化(Normalization)是数据处理和统计分析中常用的一种技术,其目的是将数据转换成特定的范围或分布,以便更好地进行比较、分析和处理。 归一化通常用于以下领域: 数据标准化:在数据分析和机器学习中,归一化可以用于将不同尺度的数据转换为相同的尺度,以避免某些特征对模型的权重产生不合理的 阅读全文
posted @ 2023-10-18 16:14 黑逍逍 阅读(275) 评论(0) 推荐(0)