随笔分类 -  大模型

摘要:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 论文信息 原文地址:https://arxiv.org/abs/2103.14030 官网地址:https://github.com/microsof 阅读全文
posted @ 2024-08-25 22:11 海_纳百川 阅读(4836) 评论(0) 推荐(0)
摘要:<转>https://baijiahao.baidu.com/s?id=1770560671091860606&wfr=spider&for=pc 据统计,到目前为止,全球已经发布了数百个大模型。但是,哪些是最有能力的?哪些是最受业界关注的?请关注笔者列出的《2023年全球最佳大模型》。 1. GP 阅读全文
posted @ 2023-08-30 08:42 海_纳百川 阅读(215) 评论(0) 推荐(0)
摘要:“Completion API”是一种API(应用程序接口)类型,它提供了一种自动完成或建议输入的功能。Completion API通常用于文本输入框或搜索框中,帮助用户更快地完成输入或提供相关的建议。 Completion API可以基于多种算法实现,如基于编辑距离的算法、基于语言模型的算法、基于 阅读全文
posted @ 2023-05-12 09:35 海_纳百川 阅读(426) 评论(0) 推荐(0)
摘要:这是一个概念解释, SFT,全称是supervised fine-tuning,中文意思是有监督的微调 阅读全文
posted @ 2023-05-11 16:13 海_纳百川 阅读(1605) 评论(0) 推荐(0)
摘要:我们鼓励员工手搓了一个数据集,训练 LLM 还把它开源。 众所周知,在 ChatGPT 的问题上 OpenAI 并不 Open,从 Meta 那里开源的羊驼系列模型也因为数据集等问题「仅限于学术研究类应用」,在人们还在因为寻找绕过限制方法的时候,主打 100% 开源的大模型来了。 4 月 12 日, 阅读全文
posted @ 2023-05-11 14:05 海_纳百川 阅读(781) 评论(0) 推荐(0)
摘要:Tokenizers是Hugging Face开发的一个高效的文本分词库,用于将自然语言文本分割成单个的标记(tokens),以便用于自然语言处理任务中,如文本分类、命名实体识别、机器翻译等。 Tokenizers支持多种语言,并提供了多种分词器的实现,包括Byte-Pair Encoding (B 阅读全文
posted @ 2023-05-10 16:00 海_纳百川 阅读(295) 评论(0) 推荐(0)
摘要:在大模型中,对齐(Alignment)指的是将两个不同序列中的对应元素(如单词、字符或子词)进行匹配,以便进行某些任务,例如机器翻译、文本摘要、语音识别等。 在机器翻译中,对齐是指将源语言中的单词和目标语言中的单词进行匹配。例如,当翻译句子“我爱你”到法语时,源语言中的“我”、“爱”、“你”需要匹配 阅读全文
posted @ 2023-05-10 15:29 海_纳百川 阅读(2696) 评论(0) 推荐(1)
摘要:OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning fro 阅读全文
posted @ 2023-05-10 15:09 海_纳百川 阅读(207) 评论(0) 推荐(0)
摘要:文本生成指标(如BLEU和ROUGE)是用于评估机器生成的文本与人类生成的文本之间相似度的度量标准。这些指标是在机器翻译领域中最初开发的,但现在已被广泛应用于文本生成和摘要等其他领域。 BLEU(Bilingual Evaluation Understudy)是最常用的文本生成指标之一。BLEU使用 阅读全文
posted @ 2023-05-10 14:29 海_纳百川 阅读(318) 评论(0) 推荐(0)
摘要:项目1 https://github.com/tatsu-lab/stanford_alpaca 羊驼数据集52k,基于llama模型训练 此数据集是是使用llama模型自己生成数据,然后对这些生成进行过滤,以删除低质量或类似的生成,并将生成的数据添加回任务池。这个过程可以重复多次,从而产生大量的教 阅读全文
posted @ 2023-05-09 20:12 海_纳百川 阅读(2414) 评论(0) 推荐(0)
摘要:我们现在一提到大模型,总感觉这玩意好像什么都能干,主打一个'生成'能力,但是有一说一,图像生成与大模型目前是两个不同的方向,只不过在现阶段两者都在大放异彩.今天主要说一说目前商用的大模型,也就是指闭源的大模型都具有哪些能力,我们首先了解了这些能力,也可以清楚大模型具体可以做哪些事情,那么后面遇到具体 阅读全文
posted @ 2023-05-09 10:53 海_纳百川 阅读(86) 评论(0) 推荐(0)
摘要:随着meta的llama流出以后,基于llama的微调模型不断的出现,首先meta只给出了微调模型,并没有给出如何训练的,那作为个人研究者,假设在硬件资源支持的情况下,我们该如何去训练专属自己业务的大模型呢? 首先是数据支持,我们要区分你想训练的是大模型还是多模态,这两个任务的数据集的存储空间是完全 阅读全文
posted @ 2023-05-08 17:52 海_纳百川 阅读(468) 评论(0) 推荐(0)
摘要:Conceptual Caption 简称cc,minigpt4就使用这个数据集,一个大规模的图像文本配对数据集,包含超过30万个图像,每个图像都有5个人工描述。这个数据集的目的是为了促进计算机视觉和自然语言处理之间的研究交叉,可以用于图像检索、视觉问答等任务的训练和评估。 Conceptual C 阅读全文
posted @ 2023-05-08 15:35 海_纳百川 阅读(4642) 评论(0) 推荐(0)
摘要:作为如今LLM圈内绝对的领头羊,OpenAI并没有遵从其创立初衷,无论是ChatGPT早期所使用的的GPT3、GPT3.5还是此后推出的GPT4模型,OpenAI都因“暂无法保证其不被滥用”为由拒绝了对模型开源,开启了订阅付费模式。 对于大型科技企业而言,不管是出于秀肌肉还是出于商业竞争目的,自研L 阅读全文
posted @ 2023-04-25 17:47 海_纳百川 阅读(2012) 评论(0) 推荐(0)

本站总访问量