2025 年 2月 13 日随笔档案 - ExplorerMan

深度学习中常用的开源数据集

摘要： Kaggle（https://www.kaggle.com/datasets）：Kaggle 是一个著名的数据科学竞赛平台，也提供了大量的开放数据集供用户下载和使用。UCI Machine Learning Repository（https://archive.ics.uci.edu/dataset 阅读全文

posted @ 2025-02-13 14:39 ExplorerMan 阅读(1062) 评论(0) 推荐(0)

LLM时代，数据为王，19个开源数据集下载网站汇总

摘要：大模型时代，数据为王，在哪里寻找开源数据集，是一个比较头疼的问题。经过调研整理，下面列出了目前可以寻找开源大模型数据集的网站清单。 1、HuggingFace开源数据集链接：https://huggingface.co/datasets 镜像：https://hf-mirror.com/datas 阅读全文

posted @ 2025-02-13 14:36 ExplorerMan 阅读(3029) 评论(0) 推荐(0)

模型训练学习率设置

摘要：在大语言模型训练中，学习率的调整策略对模型的收敛速度和最终性能至关重要。以下是一些常用的学习率调整方法和建议： 1. 固定学习率（Constant Learning Rate）固定学习率是最简单的方法，学习率在整个训练过程中保持不变。这种方法适用于简单的任务或小规模模型，但在大规模模型训练中可能不阅读全文

posted @ 2025-02-13 11:45 ExplorerMan 阅读(450) 评论(0) 推荐(0)

大模型训练迭代轮次设置

摘要：在大模型训练中，迭代轮次（通常指Epoch数量）的设置取决于多种因素，包括数据集大小、模型复杂度、硬件资源以及训练目标等。以下是一些常见的设置和建议： 1. 基础设置小型数据集：如果数据集较小（如几千到几万个样本），通常可以设置较高的Epoch数量，例如10-50个Epoch。大型数据集：对于大阅读全文

posted @ 2025-02-13 11:37 ExplorerMan 阅读(865) 评论(0) 推荐(0)

大模型的token 和文字长度关系

摘要：在大语言模型中，Token 是文本的基本单位，用于将文本分解为模型能够处理的最小单元。Token 的计算方法和文字长度的换算比例会因语言和模型的分词策略不同而有所差异。以下是具体介绍： Token 的计算方法加载分词器：使用预训练的分词器，这些分词器已经学习了如何将文本转换为 Tokens。文本阅读全文

posted @ 2025-02-13 11:27 ExplorerMan 阅读(941) 评论(0) 推荐(0)

ExplorerMan

深度学习中常用的开源数据集

LLM时代，数据为王，19个开源数据集下载网站汇总

模型训练学习率设置

大模型训练迭代轮次设置

大模型的token 和文字长度关系

导航

公告