摘要:
dataset库也是Hugging Face 提供的一个强大工具库,用于加载、处理和操作大规模数据集。它支持多种格式(如 CSV、JSON、Parquet 等)以及在线数据集(如 Hugging Face Hub 上的数据集)。 Transformers库通常与datasets库一起使用来处理和准备 阅读全文
dataset库也是Hugging Face 提供的一个强大工具库,用于加载、处理和操作大规模数据集。它支持多种格式(如 CSV、JSON、Parquet 等)以及在线数据集(如 Hugging Face Hub 上的数据集)。 Transformers库通常与datasets库一起使用来处理和准备 阅读全文
posted @ 2025-06-14 16:10
BricheersZ
阅读(134)
评论(0)
推荐(0)
摘要:
1、AI 大模型的训练过程 AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子; 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”; 第三步:训练模型:将“孩子”(模型)放 阅读全文
1、AI 大模型的训练过程 AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子; 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”; 第三步:训练模型:将“孩子”(模型)放 阅读全文
posted @ 2025-06-14 16:07
BricheersZ
阅读(160)
评论(0)
推荐(0)
摘要:
一、行业变化 Software is eating the world,but AI is going to eat software! “软件正在吞噬世界” 这一观点由网景公司创始人马克・安德森在 2011 年提出,意味着软件在当今社会的各个领域发挥着至关重要的作用,极大地改变了人们的生活和工 阅读全文
一、行业变化 Software is eating the world,but AI is going to eat software! “软件正在吞噬世界” 这一观点由网景公司创始人马克・安德森在 2011 年提出,意味着软件在当今社会的各个领域发挥着至关重要的作用,极大地改变了人们的生活和工 阅读全文
posted @ 2025-06-14 16:07
BricheersZ
阅读(107)
评论(0)
推荐(0)
摘要:
从本篇开始笔者会尽量多使用一些英文缩写和单词,不是笔者为了装X,是为了大家在后面遇到的时候不至于被别人装到。 一、什么是RAG 1.1 大模型的局限性 大模型的知识不是实时的,比如现在《藏海传》已经完结了,但是我问deepseek给我的回答却是: 除了知识不是实时的之外,大模型可能也不知道你当前所在 阅读全文
从本篇开始笔者会尽量多使用一些英文缩写和单词,不是笔者为了装X,是为了大家在后面遇到的时候不至于被别人装到。 一、什么是RAG 1.1 大模型的局限性 大模型的知识不是实时的,比如现在《藏海传》已经完结了,但是我问deepseek给我的回答却是: 除了知识不是实时的之外,大模型可能也不知道你当前所在 阅读全文
posted @ 2025-06-14 16:06
BricheersZ
阅读(175)
评论(0)
推荐(1)
摘要:
这篇文章里面会有一些 python 代码,能看懂就行,可能会有语法错误大家当伪代码看吧, AI 应用开发也不会去敲这些代码(甚至整个过程都不太需要敲代码),文章中的这些代码只是为了更好的理解这些组件,实际应用开发中大概率是见不到文中用来示例的这种代码的。 一、LangChain是什么 LangCha 阅读全文
这篇文章里面会有一些 python 代码,能看懂就行,可能会有语法错误大家当伪代码看吧, AI 应用开发也不会去敲这些代码(甚至整个过程都不太需要敲代码),文章中的这些代码只是为了更好的理解这些组件,实际应用开发中大概率是见不到文中用来示例的这种代码的。 一、LangChain是什么 LangCha 阅读全文
posted @ 2025-06-14 16:06
BricheersZ
阅读(252)
评论(0)
推荐(0)
摘要:
本文 对《LangChain》一文中的 Chain 与 LCEL 部分的示例进行详细的展示。 先回顾下 在LangChain框架中,Chain(链) 和 LCEL(LangChain Expression Language) 是两个密切相关但本质不同的概念。 Chain(链): 是LangChain 阅读全文
本文 对《LangChain》一文中的 Chain 与 LCEL 部分的示例进行详细的展示。 先回顾下 在LangChain框架中,Chain(链) 和 LCEL(LangChain Expression Language) 是两个密切相关但本质不同的概念。 Chain(链): 是LangChain 阅读全文
posted @ 2025-06-14 16:05
BricheersZ
阅读(341)
评论(0)
推荐(0)
摘要:
一、Transformer与transformers 结论:Transformer是模型架构,transfortmers是库。 问:为什么我们要知道Transformer与transformers呢? 答:千问大模型和DeepSeek都是Transformer架构的,transformers库就是为 阅读全文
一、Transformer与transformers 结论:Transformer是模型架构,transfortmers是库。 问:为什么我们要知道Transformer与transformers呢? 答:千问大模型和DeepSeek都是Transformer架构的,transformers库就是为 阅读全文
posted @ 2025-06-14 16:04
BricheersZ
阅读(324)
评论(0)
推荐(0)

在大语言模型(LLM)技术爆发的今天,从 ChatGPT 到开源的 LLaMA、Qwen 系列,模型能力不断突破,但将这些 “智能大脑” 落地到实际业务中,却面临着效率、成本和部署复杂度的三重挑战。此时,大模型推理框架成为了连接理论与实践的关键桥梁。 一、什么是大模型推理框架 大模型推理框架是专
一、显存和算力 1. 基本概念 显存 (Memory) 定义:GPU 用于临时存储数据的高速内存,类似于计算机的 RAM。 作用: 存储模型权重、中间激活值、梯度和优化器状态。 数据在显存与 GPU 核心之间快速传输以支持计算。 衡量单位:GB (如 8GB、24GB)。 算力 (Computati
LoRA 是什么 传统的大模型微调往往需要更新全部模型参数,这不仅消耗海量计算资源,还容易陷入过拟合陷阱。LoRA 另辟蹊径,采用 “低秩分解” 策略,在不改动原始模型权重的前提下,通过添加两个低秩矩阵(A 和 B)构建参数更新层。在训练过程中,仅对这两个低秩矩阵进行优化,使得可训练参数数量相比全
本文标题中说的微调 Llama3指的是局部微调,使用 LLamaFactory 局部微调 LIama3。 一、什么是LLamaFactory LLaMA-Factory 是一个开源的大型语言模型微调框架,全称 Large Language Model Factory1。它致力于简化大模型应用开发流程
浙公网安备 33010602011771号