摘要: 你应该懂的AI大模型(七)之 datasets dataset库也是Hugging Face 提供的一个强大工具库,用于加载、处理和操作大规模数据集。它支持多种格式(如 CSV、JSON、Parquet 等)以及在线数据集(如 Hugging Face Hub 上的数据集)。 Transformers库通常与datasets库一起使用来处理和准备 阅读全文
posted @ 2025-06-14 16:10 BricheersZ 阅读(134) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(一) 之 浅知大模型 1、AI 大模型的训练过程 AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子; 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”; 第三步:训练模型:将“孩子”(模型)放 阅读全文
posted @ 2025-06-14 16:07 BricheersZ 阅读(160) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(二) 之 大模型技术架构 ​ 一、行业变化 Software is eating the world,but AI is going to eat software! “软件正在吞噬世界” 这一观点由网景公司创始人马克・安德森在 2011 年提出,意味着软件在当今社会的各个领域发挥着至关重要的作用,极大地改变了人们的生活和工 阅读全文
posted @ 2025-06-14 16:07 BricheersZ 阅读(107) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(三)之 RAG 从本篇开始笔者会尽量多使用一些英文缩写和单词,不是笔者为了装X,是为了大家在后面遇到的时候不至于被别人装到。 一、什么是RAG 1.1 大模型的局限性 大模型的知识不是实时的,比如现在《藏海传》已经完结了,但是我问deepseek给我的回答却是: 除了知识不是实时的之外,大模型可能也不知道你当前所在 阅读全文
posted @ 2025-06-14 16:06 BricheersZ 阅读(175) 评论(0) 推荐(1)
摘要: 你应该懂的AI大模型(四)之 LangChain 这篇文章里面会有一些 python 代码,能看懂就行,可能会有语法错误大家当伪代码看吧, AI 应用开发也不会去敲这些代码(甚至整个过程都不太需要敲代码),文章中的这些代码只是为了更好的理解这些组件,实际应用开发中大概率是见不到文中用来示例的这种代码的。 一、LangChain是什么 LangCha 阅读全文
posted @ 2025-06-14 16:06 BricheersZ 阅读(252) 评论(0) 推荐(0)
摘要: 你应该懂的AI 大模型(五)之 LangChain 之 LCEL 本文 对《LangChain》一文中的 Chain 与 LCEL 部分的示例进行详细的展示。 先回顾下 在LangChain框架中,Chain(链) 和 LCEL(LangChain Expression Language) 是两个密切相关但本质不同的概念。 Chain(链): 是LangChain 阅读全文
posted @ 2025-06-14 16:05 BricheersZ 阅读(341) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(六)之 transformers 一、Transformer与transformers 结论:Transformer是模型架构,transfortmers是库。 问:为什么我们要知道Transformer与transformers呢? 答:千问大模型和DeepSeek都是Transformer架构的,transformers库就是为 阅读全文
posted @ 2025-06-14 16:04 BricheersZ 阅读(324) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(十三) 之 推理框架 ​ 在大语言模型(LLM)技术爆发的今天,从 ChatGPT 到开源的 LLaMA、Qwen 系列,模型能力不断突破,但将这些 “智能大脑” 落地到实际业务中,却面临着效率、成本和部署复杂度的三重挑战。此时,大模型推理框架成为了连接理论与实践的关键桥梁。 一、什么是大模型推理框架 大模型推理框架是专 阅读全文
posted @ 2025-08-06 22:31 BricheersZ 阅读(663) 评论(2) 推荐(0)
摘要: 你应该懂的AI大模型(十二)之 QLoRA 一、显存和算力 1. 基本概念 显存 (Memory) 定义:GPU 用于临时存储数据的高速内存,类似于计算机的 RAM。 作用: 存储模型权重、中间激活值、梯度和优化器状态。 数据在显存与 GPU 核心之间快速传输以支持计算。 衡量单位:GB (如 8GB、24GB)。 算力 (Computati 阅读全文
posted @ 2025-07-03 23:05 BricheersZ 阅读(465) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(十一)之 LoRA LoRA 是什么​ 传统的大模型微调往往需要更新全部模型参数,这不仅消耗海量计算资源,还容易陷入过拟合陷阱。LoRA 另辟蹊径,采用 “低秩分解” 策略,在不改动原始模型权重的前提下,通过添加两个低秩矩阵(A 和 B)构建参数更新层。在训练过程中,仅对这两个低秩矩阵进行优化,使得可训练参数数量相比全 阅读全文
posted @ 2025-07-02 23:55 BricheersZ 阅读(392) 评论(0) 推荐(0)
摘要: 你应该懂的AI大模型(十)之 LLamaFactory 之 LoRA微调Llama3 本文标题中说的微调 Llama3指的是局部微调,使用 LLamaFactory 局部微调 LIama3。 一、什么是LLamaFactory LLaMA-Factory 是一个开源的大型语言模型微调框架,全称 Large Language Model Factory1。它致力于简化大模型应用开发流程 阅读全文
posted @ 2025-07-02 23:49 BricheersZ 阅读(669) 评论(0) 推荐(0)
摘要: 一、Ollama:让大模型部署触手可及 Ollama 是一款专注于简化大语言模型部署流程的开源工具。它打破了大模型部署的技术壁垒,即使是没有深厚 AI 背景的用户,也能轻松在本地或远程服务器上运行 Llama 2、Mistral、Llama3 等主流大语言模型。通过 Ollama,用户无需手动搭建复 阅读全文
posted @ 2025-06-25 22:53 BricheersZ 阅读(207) 评论(0) 推荐(0)
摘要: 一、什么是微调 1.1、什么是微调?为什么要做微调? 模型微调(Fine-tuning)指的是将一个预训练好的模型(通常在大规模通用数据集上训练)针对特定任务或领域进行优化的过程。 那么什么是预训练好的模型呢? 预训练好的模型(Pre-trained Model)是指在大规模通用数据集上经过预先训练 阅读全文
posted @ 2025-06-25 22:32 BricheersZ 阅读(854) 评论(0) 推荐(0)
摘要: 这边文章笔者写于一年前,之前发布在xxxx,哎,天下苦 xxxx久矣。 一、SpringCloud 是什么? 1、从架构演变开始讲起 单体架构作为一个整体,相较于SOA架构、微服务架构这种拆分的架构,还有两个明显的缺点:单体架构存在着因为一个bug而拖死整个系统的风险;单体架构无法针对某一类高峰业务 阅读全文
posted @ 2025-06-14 16:19 BricheersZ 阅读(78) 评论(0) 推荐(0)