随笔分类 - AI
摘要:## 扩散模型在文本摘要任务中可以采用的训练方法 ### 条件控制 通过设定不同的条件c,文本生成任务可以被进一步分类为unconditional generation,attribute-to-text generation (如属性控制),text-to-text generation (如机器
阅读全文
摘要:## 对于加噪方式 #### Structured Denoising Diffusion Models in Discrete State-Spaces  科技频道光明网(组图) 。 Actual Title: 知情人透露章子怡怀孕后,父母很
阅读全文
摘要:1. 输入内容会带有一定的转写错误,会对模型的训练造成一个的干扰 用了input word replace方法,将一部分输入的词随机替换成其他词表中的词,这种类似于对抗训练的方法能够极大增加模型的鲁棒性,并且使得模型有一定的识别转写错误、纠正转写错误的能力。 input word replace 因
阅读全文
摘要:把英文语料翻译成中文 针对翻译的中文数据放入中文摘要模型进行推理,输出摘要。 比较输出的中文语料摘要 与 原始英文转录摘要 对比 1. 语料,一个中文语料,一个英文语料 2. 使用中文摘要生成模型 此模型在上述中文语料上是否进行过训练 1)是,相当于看过答案,生成的摘要效果较好。但对于英文语料(翻译
阅读全文
摘要:Data collator used for BART denoising language modeling. The code is largely copied from `<https://github.com/morganmcg1/rotobart/blob/main/data_colla
阅读全文
摘要:ChatGLM-6B https://github.com/THUDM/ChatGLM-6B 支持在单张 2080Ti 上进行推理使用。 在 1:1 比例的中英语料上训练了 1T 的 token 量 ChatGLM-6B 序列长度达 2048 fine-tune 需要Deepspeed 训练需要显存
阅读全文
摘要:Longformer Roberta使用绝对位置编码,最大512.为了能够适应更长的文本,Longformer添加到4096。为了利用Roberta的预训练后的权重,多次复制512位置编码。 做了实验,对比随机初始化位置编码和复制位置编码,显示出复制位置编码的重要性。 扩展BART的1K token
阅读全文
摘要:使用模型 复旦nlp——fnlp_bart_large_Chinese | 注意力头 |encoder/decoder层数 |词嵌入表示 | | | | | | 16 | 12 | 1024 | 词典使用BertTokenizer, vocab_size: 51271 在nlpcc数据集上微调模型
阅读全文
摘要:当前最流行的先进模型 huggingface社区 paperswithcode 大部分模型都是基于以下表中模型,做了数据集或其他部分的微小变动。 在近几年各种论文的对比实验中,基本对照的模型都是以下模型: |模型 | 描述 | 能否训练| | | | | | BART | 通用模型,适合做摘要任务
阅读全文
摘要:当前大模型的低成本实现方案: 语言模型 + 指令微调数据 + 微调加速 llama + alpaca_data(Fine-tuning) + lora 语言模型: ... 指令微调数据: 在一组通过指示描述的数据集上对语言模型微调,大大提高了在未见过任务上的 Zero-Shot 能力。 通过对多种任
阅读全文
摘要:热点: 2019:摘要定制化的预训练模型 不同场景的数据集 学术论文摘要 生成式摘要的事实一致性 方向: 模仿人撰写摘要的模式,融合抽取式和生成式摘要方法生成联合摘要 基于语义层面研究进一步地深度挖掘句子级、篇章级的语义并加以利用来进一步提高文本摘要的语义一致性和可读性 定制化摘要 超长文本摘要 最
阅读全文
摘要:1.prompt产生 预训练语言模型的研究思路通常是“pre-train, fine-tune”。 但是随着预训练模型的不断增大,对其进行fine-tune的硬件要求、有标注的数据的需求也在不断上涨。 为了缓解这个问题,提出了prompt。 2.prompt怎么解决上述问题 pre-train,fi
阅读全文
浙公网安备 33010602011771号