摘要: 3 重新制作词表 因为很多数据没有用 新词表只有出现过的数据 自监督预训练 在大佬预训练好的模型上进行预训练 为什么选择BART 在摘要生成上效果最好 我们一般在服务器上训练,而服务器一般是linux,python main.py --learningrate 3e-2可以直接改 想改变学习率 用v 阅读全文
posted @ 2025-02-11 20:34 JYP0222 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 输入经过encoder得到特征,4个特征当作decoder的输入(打辅助),把标签拿过来做输入得到序列 自回归 区别 一步错步步错 只能串行 输出多长 分类/回归(不太行) 输入选到END表示结束 输入:start+label 输出:label+END 测试(推断) 测试时没有label Beam 阅读全文
posted @ 2025-02-08 20:39 JYP0222 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 做下游分类任务,如何处理一句话的输入 input_dis:输入哪些字 21128个汉字里编码 mask:输入的话有多长. 模型输入固定,不够的话用padding补上 Seq_ids:句子编码 segment BERT输入 token embedding 字编码(21128, 768) segment 阅读全文
posted @ 2025-02-07 14:17 JYP0222 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 独热编码表示汉字的缺点: 长 不表示含义 word embedding让意思相近的汉字离得更近 常见输入 常见输出 循环神经网络(Recurrent Neural Network,RNN) 防止垃圾进入传家宝,干扰我们的选择,推出LSTM模型 长短期记忆(Long short-term memory 阅读全文
posted @ 2025-02-06 15:31 JYP0222 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 没有标签y依旧提取出特征 你的模型朝着哪个方向压缩特征,由你的标签来定 自监督学习:从x中提取一部分作为自己的标签y,然后用x预测y 在自监督学习中,需要根据数据的特点设计一些自监督任务,这些任务通常基于数据的一些内在属性或关系来构建。例如,在图像数据中,可以设计图像旋转任务,将图像随机旋转一定角度 阅读全文
posted @ 2025-02-04 20:33 JYP0222 阅读(14) 评论(0) 推荐(0) 编辑
摘要: class semiDataset(Dataset): def __init__(self, no_label_loder, model, device, thres=0.99): x, y = self.get_label(no_label_loder, model, device, thres) 阅读全文
posted @ 2025-02-01 11:20 JYP0222 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 随机种子固定随机结果,方便复现 def seed_everything(seed): torch.manual_seed(seed) torch.cuda.manual_seed(seed) torch.cuda.manual_seed_all(seed) torch.backends.cudnn. 阅读全文
posted @ 2025-02-01 09:51 JYP0222 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 数据处理 超参:人为指定不能改变 测试数据只有x没有标签y 训练数据拆分,82开,作训练集和验证集(验证模型好坏),模型训练不是一路上升的过程,训练几次验证一次,最好的模型save下来 one-hot独热编码 猪(1 0 0) 狗(0 1 0) 猫(0 0 1) def get_feature_im 阅读全文
posted @ 2025-01-15 19:44 JYP0222 阅读(3) 评论(0) 推荐(0) 编辑
摘要: one-hot 独热编码 Dataset类中 吃文件地址 init 初始化 把数据读进来 给文件地址file_path 把所有数据放在X[] Y[] getitem 取数据 给idx 输出X[idx] len 数据长度 取数据 我们一定要用所有的loss取均值吗 会不会有什么问题 Model格式:两 阅读全文
posted @ 2025-01-13 23:00 JYP0222 阅读(1) 评论(0) 推荐(0) 编辑
摘要: import torch import matplotlib.pyplot as plt Python 中用于导入 matplotlib 库并将其 pyplot 模块简称为 plt 的常见语句。matplotlib 是一个功能强大的绘图库,而 pyplot 是其提供的一个基于状态机的接口,用于创建各 阅读全文
posted @ 2025-01-09 10:48 JYP0222 阅读(5) 评论(0) 推荐(0) 编辑