Datawhale AI夏令营 大模型技术篇 对baseline的一些理解

baseline的核心思路可以概括为: “文本向量化 + 线性模型”

文本的处理

baseline使用了TF-IDF 这样一个文本表示法。

TF-IDF的计算完全不需要任何标签,可以直接应用于所有文本,这使得它在处理训练集和测试集时非常方便

模型选择

在获得了文本的向量表示后,需要一个模型来完成分类任务。设计者选择了SGDClassifier

  1. SGD(随机梯度下降)是训练线性模型的极快方法,尤其适合处理高维稀疏的TF-IDF特征矩阵。即使数据量增大到数十万甚至上百万,它依然能保持很高的训练效率。
  2. 线性模型是机器学习中最简单的模型之一,参数少,不易过拟合,对于一个旨在“跑通”而非“极致优化”的Baseline来说,这是一个非常安全和稳健的选择。
  3. SGDClassifierscikit-learn库的核心组件,可以无缝地与TfidfVectorizer通过Pipeline(流水线)组合在一起,用极少的代码实现“特征工程+模型训练”的完整流程。

聚类方法

baseline中选择了KMeans

K-Means的核心是计算向量间的欧氏距离,这与TF-IDF产出的向量空间是天然兼容的。

K-Means会产出每个簇的“质心”,这个质心向量可以被直观地用来寻找每个簇中最具代表性的关键词,从而完成“提炼类簇总结词”的任务。

代码将TfidfVectorizerKMeans打包在Pipeline中,并展示了如何从训练好的KMeans模型中提取出cluster_centers_,并结合TfidfVectorizer的词汇表来找到每个簇的Top-N关键词。

posted @ 2025-07-16 23:31  语冰morni  阅读(29)  评论(0)    收藏  举报