Datawhale AI夏令营大模型技术篇对baseline的一些理解

baseline的核心思路可以概括为： “文本向量化 + 线性模型” 。

baseline使用了TF-IDF 这样一个文本表示法。

TF-IDF的计算完全不需要任何标签，可以直接应用于所有文本，这使得它在处理训练集和测试集时非常方便

在获得了文本的向量表示后，需要一个模型来完成分类任务。设计者选择了SGDClassifier

SGD（随机梯度下降）是训练线性模型的极快方法，尤其适合处理高维稀疏的TF-IDF特征矩阵。即使数据量增大到数十万甚至上百万，它依然能保持很高的训练效率。
线性模型是机器学习中最简单的模型之一，参数少，不易过拟合，对于一个旨在“跑通”而非“极致优化”的Baseline来说，这是一个非常安全和稳健的选择。
SGDClassifier是scikit-learn库的核心组件，可以无缝地与TfidfVectorizer通过Pipeline（流水线）组合在一起，用极少的代码实现“特征工程+模型训练”的完整流程。

baseline中选择了KMeans

K-Means的核心是计算向量间的欧氏距离，这与TF-IDF产出的向量空间是天然兼容的。

K-Means会产出每个簇的“质心”，这个质心向量可以被直观地用来寻找每个簇中最具代表性的关键词，从而完成“提炼类簇总结词”的任务。

代码将TfidfVectorizer和KMeans打包在Pipeline中，并展示了如何从训练好的KMeans模型中提取出cluster_centers_，并结合TfidfVectorizer的词汇表来找到每个簇的Top-N关键词。

posted @ 2025-07-16 23:31 语冰morni 阅读(30) 评论(0) 收藏举报

刷新页面返回顶部

insight-nexus