海_纳百川 - 博客园

2023年5月11日

摘要：我们鼓励员工手搓了一个数据集，训练 LLM 还把它开源。众所周知，在 ChatGPT 的问题上 OpenAI 并不 Open，从 Meta 那里开源的羊驼系列模型也因为数据集等问题「仅限于学术研究类应用」，在人们还在因为寻找绕过限制方法的时候，主打 100% 开源的大模型来了。 4 月 12 日，阅读全文

posted @ 2023-05-11 14:05 海_纳百川阅读(803) 评论(0) 推荐(0)

2023年5月10日

bitsandbytes--Facebook 推出 8 比特优化器大大减少显存

摘要： “小夕，小夕！又出来了个 SOTA 模型！赶紧 follow ！” 小夕看了看新模型的参数量，然后看了看实验室服务器的几张小破卡。小夕，陷入了沉默。自从人们发现越大的模型性能越好后，神经网络模型的参数量就在越来越大的道路上一去不复返了。从XX-large到GPT3，再到5300亿参数的Mega 阅读全文

posted @ 2023-05-10 17:13 海_纳百川阅读(1292) 评论(0) 推荐(0)

Hugging Face之PEFT

摘要： Hugging Face's PEFT是一种针对Transformer模型的加速器，其全称为"Positional Encodings for Fine-tuning"。PEFT的主要目的是通过改变位置编码的方式来提高Transformer模型的训练和推理速度。PEFT是在Hugging Face团阅读全文

posted @ 2023-05-10 16:04 海_纳百川阅读(275) 评论(0) 推荐(0)

hugging face之Tokenizers

摘要： Tokenizers是Hugging Face开发的一个高效的文本分词库，用于将自然语言文本分割成单个的标记（tokens），以便用于自然语言处理任务中，如文本分类、命名实体识别、机器翻译等。 Tokenizers支持多种语言，并提供了多种分词器的实现，包括Byte-Pair Encoding (B 阅读全文

posted @ 2023-05-10 16:00 海_纳百川阅读(301) 评论(0) 推荐(0)

text-davinci-003和ChatGPT是什么关系呢?

摘要：先看下GPT的发展时间线 InstructGPT（2022 年 1 月）是一系列 GPT-3 模型（包括 text-davinci-001、text-davinci-002 和 text-davinci-003）统称，于GPT-3相比，它的最大不同是针对人类指令（reinforcement lear 阅读全文

posted @ 2023-05-10 15:39 海_纳百川阅读(727) 评论(0) 推荐(0)

nlp中常说的对齐-Alignment

摘要：在大模型中，对齐（Alignment）指的是将两个不同序列中的对应元素（如单词、字符或子词）进行匹配，以便进行某些任务，例如机器翻译、文本摘要、语音识别等。在机器翻译中，对齐是指将源语言中的单词和目标语言中的单词进行匹配。例如，当翻译句子“我爱你”到法语时，源语言中的“我”、“爱”、“你”需要匹配阅读全文

posted @ 2023-05-10 15:29 海_纳百川阅读(2712) 评论(0) 推荐(1)

chatgpt训练策略之RLHF 技术

摘要： OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning fro 阅读全文

posted @ 2023-05-10 15:09 海_纳百川阅读(214) 评论(0) 推荐(0)

NLP领域的评价指标汇总

摘要：文本生成指标（如BLEU和ROUGE）是用于评估机器生成的文本与人类生成的文本之间相似度的度量标准。这些指标是在机器翻译领域中最初开发的，但现在已被广泛应用于文本生成和摘要等其他领域。 BLEU（Bilingual Evaluation Understudy）是最常用的文本生成指标之一。BLEU使用阅读全文

posted @ 2023-05-10 14:29 海_纳百川阅读(325) 评论(0) 推荐(0)

2023年5月9日

大模型文本数据集统计之探索如何创建自己的数据集

摘要：项目1 https://github.com/tatsu-lab/stanford_alpaca 羊驼数据集52k,基于llama模型训练此数据集是是使用llama模型自己生成数据,然后对这些生成进行过滤，以删除低质量或类似的生成，并将生成的数据添加回任务池。这个过程可以重复多次，从而产生大量的教阅读全文

posted @ 2023-05-09 20:12 海_纳百川阅读(2436) 评论(0) 推荐(0)

现有的商用大模型具有的能力

摘要：我们现在一提到大模型,总感觉这玩意好像什么都能干,主打一个'生成'能力,但是有一说一,图像生成与大模型目前是两个不同的方向,只不过在现阶段两者都在大放异彩.今天主要说一说目前商用的大模型,也就是指闭源的大模型都具有哪些能力,我们首先了解了这些能力,也可以清楚大模型具体可以做哪些事情,那么后面遇到具体阅读全文

posted @ 2023-05-09 10:53 海_纳百川阅读(89) 评论(0) 推荐(0)

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己