LLM入门

使用：

【基于词向量和神经网络，训练文本分类模型】实现英文新闻文本分类
https://www.bilibili.com/video/BV1DNxbepEpN/

【Transformer库和BERT模型快速入门，基于BERT实现中文新闻分类】实现中文新闻分类
https://www.bilibili.com/video/BV1KT421S7K4/

看到：

统计学习【特征分类和数据概率分布】
- 判别式模型（分类，回归）
  - CV（图像分类和图像分割，目标检测）
  - NLP（文本分类，关键信息提取）
- 生成式模型
  - CV（GAN，VAE）
  - NLP（问答系统）

CV图像分类：输入图像，输出类别

NLP文本分类：输入文本，输出类别（把文本进行分词【dataloder里】，把每个词转成高维向量【回调函数里】）

魔改：

简单模型确保输出，复杂网络优化准确率

解决问题的方式：

基于规则（谓词逻辑）
基于统计（蒙特卡洛搜索）
多层感知机（ResNet）
预训练模型（BERT）
预训练【无监督】加微调【先验知识】加后训练【强化学习】

题目（3种类型）:

文本分类
- CCL2025-中文电子病历ICD诊断编码评测（https://tianchi.aliyun.com/competition/entrance/532302/information）
- CCL2025-中医辨证辨病及中药处方生成评测（https://tianchi.aliyun.com/competition/entrance/532301/information）
- 医疗诊疗对话意图识别挑战赛（https://tianchi.aliyun.com/competition/entrance/532044/information）
信息提取
- 中文NLP地址要素解析（https://tianchi.aliyun.com/competition/entrance/531900/information）
- 千言数据集：通用信息抽取任务评测（https://aistudio.baidu.com/competition/detail/436/0/introduction）
问答系统
- 基于LLM智能问答系统学习赛（https://tianchi.aliyun.com/competition/entrance/532172/information）
- 千言数据集：知识对话评测（https://aistudio.baidu.com/competition/detail/432/0/task-definition）

文本分类：

医疗诊疗对话意图识别挑战赛

CCL2025-中文电子病历ICD诊断编码评测

CCL2025-中医辨证辨病及中药处方生成评测

策略：

对于单分类问题：直接套模型。
多分类问题
- 基于统计：由于单分类和多分类是一起输出的，所以如果只为了分数的话，可以统计每个单分类对应的多分类结果，取最高的前几个结果
- 基于多层感知机或者预训练模型（不会）

调参：

我们使用了两个模型，一个embedding + 线性分类层；一个BERT预训练模型 + 线性分类层。
在未调参的情况下
- GTX1650
  - ”embedding + 线性分类层“模型，优化器lr为1e-3然后bs为32。在我的GTX1650上准确率很快收敛为1.0。在这三个任务上也分别实现了0.7273（306/337名），0.3536（56/65名），0.3458（58/77名）的成绩。可见，”embedding + 线性分类层“模型容量很小，所以在输入文本量大的时候表现很差。
  - ”BERT预训练模型 + 线性分类层“模型，优化器lr为5e-5然后bs为6。跑第一个任务的时候准确率前三轮增大后几轮减小到0.3几，取准确率最大的第三轮模型得到0.7846（280/337名），后两个任务由于文本大小的增加（由一句话变成一段话）导致在我的电脑上batchsize由32减小到6才勉强训练动。
- GTX4090
  - ”embedding + 线性分类层“模型容量很小，GTX1650上已经把潜能发掘到极致了。
  - ”BERT预训练模型 + 线性分类层“模型，batchsize为6的时候跑这三个任务都没有太大进步（进步几名）。由于bs太小和lr太大导致模型震荡，无法发掘BERT的潜能。
调参，bs调大lr调小
- GTX4090上，bs由6升为16，lr由5e-5降为2e-5，模型潜力得到发掘。三个任务分别实现了0.7956（271/337名），0.7125（14/65名，之前提交的时候是第9名现在被超了），0.4153（47/77名）的成绩。
- BERT模型潜力还未完全发掘，调参之路可以继续。

posted @ 2025-04-07 20:08 zhuangzhongxu 阅读(55) 评论(0) 收藏举报

刷新页面返回顶部

2436eded1a677650

LLM入门

使用：

看到：

魔改：