Chapter 3 Stage 1: Data Preparation

本系列仅作翻译记录和个人总结

原文链接：The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities

3.1 Steps Involved in Data Preparation

3.1.1 Data Collection

数据准备的第一步是从各种来源收集数据。这些来源可以是任何格式，例如 \(CSV\)、网页、\(SQL\)数据库、\(S3\) 存储等。\(Python\) 提供了几个库，以高效和准确地收集数据。下表展示了常用数据格式的选集以及用于数据收集的相应 \(Python\) 库。

数据格式	\(Python\) 库	描述	库链接
\(CSV\, Files\)	\(pandas\)	\(pandas\) 是一个强大的数据处理和分析库。它提供了 \(read_csv\) 函数，用于轻松高效地将 \(CSV\) 文件读入 \(DataFrame\) 对象。它还支持读取 \(Excel\)、\(JSON\) 等格式的数据	https://pandas.pydata.org/pandas-docs/stable/
\(Web\, Pages\)	\(Beautiful\, Soup\, and\, requests\)	\(BeautifulSoup\) 是一个用于解析 \(HTML\) 和 \(XML\) 文档的库。与用于发送 \(HTTP\) 请求的 \(requests\) 结合使用，它能够从网页中提取数据，这对于网络爬取任务至关重要	https://www.crummy.com/software/BeautifulSoup/bs4/doc/
\(SQL\, Databases\)	\(SQLAlchemy\)	\(SQLAlchemy\) 是一个 \(SQL\) 工具包和针对 \(Python\) 的对象关系映射（\(ORM\)）库，提供了一整套企业级持久化模式。	https://www.sqlalchemy.org/
\(S3\, Storage\)	\(boto3\)	\(boto3\) 是亚马逊网络服务（\(AWS\)）的 \(Python\, SDK\)，允许开发人员使用像 \(Amazon\, S3\) 和 \(EC2\) 这样的服务。它支持与 \(AWS\) 服务的交互，包括上传、下载和管理 \(S3\) 存储桶文件。	https://boto3.amazonaws.com/v1/documentation/api/latest/index.html
\(Data\, Integration\)	\(RapidMiner\)	\(RapidMiner\) 是一个全面的数据准备、机器学习和预测分析环境，能够高效处理和转化原始数据为可操作的洞察。	https://rapidminer.com/
\(Data\, Cleaning\)	\(Trifacta\, Wrangler\)	\(Trifacta\, Wrangler\) 专注于简化和自动化数据整理过程，将原始数据转化为干净和结构化的格式。	https://www.trifacta.com/

3.1.2 Data Preprocessing and Formatting

数据预处理和格式化对于确保用于微调的高质量数据至关重要。此步骤涉及清理数据、处理缺失值以及将数据格式化以匹配任务的特定要求等任务。多个库可以帮助进行文本数据处理，下表包含了一些在 \(Python\) 中最常用的数据预处理库。

库名	数据预处理选项	库链接
\(spaCy\)	\(spaCy\) 提供强大的文本预处理能力，包括分词、词形还原和高效的句子边界检测。	https://spacy.io/
\(NLTK\)	\(NLTK\) 提供了一套全面的数据预处理工具，如分词、词干提取和停用词删除。	https://www.nltk.org/
\(HuggingFace\)	\(HuggingFace\) 通过其 \(transformers\) 库提供了广泛的文本预处理功能，包括分词和对各种预训练模型的支持。	https://huggingface.co/
\(KNIME\)	KNIME分析平台允许进行可视化工作流设计，用于数据集成、预处理，以及像文本挖掘和图像分析这样的高级处理。	https://www.knime.com/

3.1.3 Handling Data Imbalance

处理不平衡数据集对于确保所有类别之间的平衡性能至关重要。采用了几种技术和策略：

过采样和欠采样：像 \(SMOTE\)（\(Synthetic\, Minority\, Over\, sampling\, Technique\)，合成少数类过采样技术）这样的技术通过生成合成样本来实现平衡。
\(Python\) 库：\(imbalanced-learn\)
描述：\(imbalanced-learn\) 提供多种方法来处理不平衡数据集，包括像 \(SMOTE\) 这样的过采样技术。
调整损失函数：修改损失函数以给予少数类更多权重，设置类权重与类频率成反比。
焦点损失：交叉熵损失的一种变体，它添加了一个因子以降低简单示例的权重，并将训练重点放在难负样本上。
\(Python\) 库：\(focal_loss\)
描述：\(focal_loss\) 包提供了各种焦点损失函数的稳健实现，包括 \(BinaryFocalLoss\) 和 \(SparseCategoricalFocalLoss\)。
成本敏感学习：将误分类的成本直接纳入学习算法中，对误分类少数类样本分配更高的成本。
集成方法：使用诸如 \(bagging\) 和 \(boosting\) 等技术结合多个模型，以处理类别不平衡。
Python库：\(sklearn.ensemble\)
描述：\(scikit-learn\) 提供了多种集成方法的强大实现，包括 \(bagging\) 和 \(boosting\)。
分层抽样：确保每个训练中的小批量包含每个类别的平等或按比例的代表性。
\(Python\) 库：\(sklearn.model_selection.StratifiedShuffleSplit\)
描述：\(scikit-learn\) 提供用于分层抽样的工具，确保各类别间的平衡代表性。
数据清理：去除嘈杂和错误标记的数据，这会不成比例地影响少数类别。
\(Python\) 库：\(pandas.DataFrame.sample\)
描述：\(pandas\) 提供从数据框中采样数据的方法，对数据清理和预处理非常有用。
使用适当的指标：像 \(AUC\) 曲线、\(F1-score\) 和 \(Cohen's\, Kappa\) 等指标在处理不平衡数据集时比准确率更具信息量。
\(Python\) 库：\(sklearn.metrics\)
描述：\(scikit-learn\) 提供了一整套用于评估分类模型性能的工具，特别是在处理不平衡数据集时。

3.1.4 Splitting Dataset

将数据集拆分以进行微调涉及将其分为训练集和验证集，通常使用 \(8:2\) 的比例。不同的技术包括：

随机采样：随机选择一部分数据以创建一个代表性样本。
\(Python\) 库：\(sklearn.model_selection.train_test_split\)
分层抽样：将数据集划分为子组，并从每个子组中抽样，以保持类别平衡。
\(Python\) 库：\(sklearn.model_selection.StratifiedShuffleSplit\)
\(K-Fold\) 交叉验证：将数据集分成 \(K\) 个折叠，并进行 \(K\) 次训练和验证。
\(Python\) 库：\(sklearn.model_selection.KFold\)
\(Leave-One-Out\) 交叉验证：将一个数据点作为验证集，其余用于训练，对每个数据点重复。 \(Python\) 库：\(sklearn.model_selection.LeaveOneOut\)

3.2 Existing and Potential Research Methodologies

3.2.1 Data Annotation

数据标注涉及将文本数据标记或标记与模型训练目标相关的特定属性。这个过程对于监督学习任务至关重要，并对微调模型的性能产生重大影响。最近的研究强调了数据标注的各种方法：

人工注释：人工专家的手动注释仍然是黄金标准，因为它具有准确性和上下文理解。但对于大型数据集来说，这既耗时又昂贵。像 Excel、Prodigy 和 Innodata 这样的工具使这个过程更加便利。
半自动注释：结合机器学习算法与人工审查，以更高效地创建标签数据集。这种方法平衡了效率与准确性。像 Snorkel 这样的工具利用弱监督生成初始标签，然后由人工注释者进行精炼。
自动标注：完全自动化标注利用机器学习算法对数据进行标记，无需人工干预，具有可扩展性和成本效益。像 Amazon SageMaker Ground Truth 这样的服务利用机器学习来自动化数据标记，尽管准确性可能会根据任务的复杂性而有所不同。

3.2.2 Data Augmentation

数据增强（DA）技术通过人为扩展训练数据集来解决数据稀缺问题并提高模型性能。在自然语言处理（NLP）中，常用的高级技术包括：

词嵌入：使用词嵌入（如 \(Word2Vec\) 和 \(GloVe\)）将单词替换为其语义等价物，从而生成新的数据实例。
反向翻译：将文本翻译成另一种语言，再翻译回原语言以创建同义句数据。这种技术有助于生成多样化的训练样本。像 \(Google\, Translate\, API\) 等工具通常用于此目的。
对抗攻击：通过对抗示例生成增强数据，这些示例对原始文本进行轻微修改，从而创建新的训练样本，同时保留原始意思。像 \(TextAttack\) 这样的库提供了此类增强的框架。
\(NLP-AUG\)：这个库提供了多种增强方法，用于字符、单词、句子、音频和声谱图增强，提高数据集的多样性。

3.2.3 Synthetic Data Generation using LLMs

大语言模型（\(LLMs\)）可以通过创新技术生成合成数据，例如：

提示工程：设计特定的提示以指导像 \(GPT-3\) 这样的 \(LLMs\) 生成相关的高质量合成数据。
多步骤生成：采用迭代生成过程，其中 \(LLMs\) 生成初始数据，然后在后续步骤中进行完善。这种方法可以为各种任务生成高质量的合成数据，包括摘要和偏差检测。在将 \(LLMs\) 生成的合成数据用于微调过程之前，验证其准确性和相关性至关重要。

3.3 Challenges in Data Preparation for Fine-Tuning LLMs

数据准备中的主要挑战包括：

领域相关性：确保数据与特定领域相关，以便模型性能准确。领域不匹配的数据可能导致泛化不良和输出不准确。
数据多样性：包括多样且平衡良好的数据，以防止模型偏见并改善泛化。缺乏多样性可能导致模型在代表性不足的场景中表现不佳。
数据规模：管理和处理大型数据集，建议至少使用 \(1000\) 个样本以实现有效的微调。然而，大型数据集在存储、计算需求和处理时间方面会带来挑战。
数据清理和预处理：清除噪声、错误和不一致性对于提供干净的输入给模型至关重要。处理不当的数据可能显著降低模型性能。
数据标注：确保精确和一致的标签对于需要标记数据的任务至关重要。不一致的标注可能导致模型预测不可靠。
处理稀有情况：在数据集中充分代表稀有但重要的实例，以确保模型能够推广到不太频繁但关键的场景。
伦理考虑：仔细审查数据中的有害或偏见内容，以防止意外后果。伦理数据处理包括消除偏见和确保隐私。

3.4 Available LLM Fine-Tuning Datasets

有关适合微调大语言模型的数据集的全面列表，请参考像 LLMXplorer 这样的资源，该资源提供特定领域和任务的数据集。

这是该报告所属中心的网站。

3.5 Best Practices

3.5.1 High-Quality Data Collection

确保高质量、多样化和具有代表性的数据至关重要。利用经过精心挑选的来源，并确保在不同场景下的全面覆盖，可以增强模型的稳健性。像 DataRobot Paxata 和 KNIME 分析平台这样的工具提供强大的数据分析和转换能力。

3.5.2 Effective Data Preprocessing

适当的数据预处理对于模型性能至关重要。利用像 \(spaCy\)、\(NLTK\) 和 \(HuggingFace\, Transformers\) 这样的库可以简化预处理任务。像 \(Trifacta\, Wrangler\) 和 \(RapidMiner\) 这样的平台可以自动化数据清理任务，提高效率并确保一致性。

3.5.3 Managing Data Imbalance

解决数据不平衡至关重要。像过采样、欠采样和SMOTE等技术有助于平衡数据集。像 \(imbalanced-learn\) 和 \(scikit-learn\) 中的集成方法这样的库提供了强大的工具来管理不平衡的数据集。

3.5.4 Augmenting and Annotating Data

数据增强和标注提高模型的鲁棒性。像 \(NLP-AUG\)、\(TextAttack\) 和 \(Snorkel\) 这样的工具提供了创建多样化和良好标注数据集的复杂能力。

3.5.5 Ethical Data Handling

确保伦理数据处理涉及对偏见和隐私问题的彻底审查。实施隐私保护技术和过滤有害内容至关重要。像 \(Amazon\, SageMaker\, Ground\, Truth\) 这样的服务确保可扩展和安全的数据标注。

3.5.6 Regular Evaluation and Iteration

对数据准备流程进行持续评估和迭代有助于维护数据质量和相关性。利用反馈循环和性能指标可以确保持续改进和适应新的数据需求。通过整合这些最佳实践，研究人员和从业者可以提高大语言模型微调的有效性，确保模型性能的稳健性和可靠性。

posted on 2025-07-07 21:56 Cocoicobird 阅读(43) 评论(0) 收藏举报