文章分类 - AI-6大模型
摘要:https://chunkviz.up.railway.app/
阅读全文
摘要:LangGraph 和 LangChain 都是围绕大语言模型(LLM)构建应用的工具框架,但它们的设计理念、核心目标和适用场景存在显著区别,主要体现在以下几个方面: 1. 核心定位与设计理念 LangChain:定位为 “LLM 应用开发的瑞士军刀”,提供了一套全面的工具集(Toolkit),旨在
阅读全文
摘要:LangChain归属于LangChain AI公司,LangChain作为其中的一个核心项目,开源发布在Gitub上:https://github.com/langchain-ai/langchain 从LangChain的GitHub版本迭代历史上看,从2023年1月16日起已经经历了320个大
阅读全文
摘要:大语言模型的技术世界是一个混沌的世界。 作为一门快速发展中的新兴技术,大模型有着你用得越多、越能认知其潜力的显著特点,你越是懂得大模型技术,你越能理解大模型技术的厉害之处、你使用的大模型越强大、你对大模型技术的上限期待就会越高。当ChatGPT开放给公众使用时,最先恐慌的不是普罗大众,而是NLP工作
阅读全文
摘要:关于私有化部署的大模型,针对不同的开发场景,选择合适的工具至关重要。例如,进行对话测试、接口调用和数据清洗等任务时,Jupyter Lab 这种交互式环境非常适合。它允许我们直观地观察到每一步操作的输出,这对于数据分析和初步测试尤其有用。另一方面,当涉及到更复杂的软件开发项目时,例如执行模型微调、定
阅读全文
摘要:流程 glm4-9b-chat模型部署 了解模型说明 再部署任何模型之前,我们都可以去官网或者github上或者modelscope了解模型的详细信息,例如glm-4-9b-chat的详细说明: 最低硬件要求:如果希望运行官方提供的最基础代码 (transformers 后端) 您需要: Pytho
阅读全文
摘要:ReAct 与 LangChain 的核心关系:方法论 vs 工具实现 简单来说:ReAct 是一种让 LLM 具备 “推理 - 行动 - 观察” 能力的思维框架(方法论),而 LangChain 是一个封装了 ReAct 等多种策略的 LLM 应用开发工具集(工程框架)。前者是 “思想”,后者是
阅读全文
摘要:1.获取密钥 https://platform.deepseek.com/api_keys 2.将密钥配置到环境变量或者配置到项目的“.env”文件里 环境变量配置密钥 Windows系统:在命令提示符中设置 setx DEEPSEEK_API_KEY "your_actual_key" 代码读
阅读全文
摘要:在上一节课中,我们介绍了近两年大模型技术的迅速发展及其技术演进,这包括从大模型自身的能力持续突破(原生能力和涌现能力),基本的函数调用功能,到引入 RAG(检索增强生成)技术,再到当前的 AI Agent(代理)技术。如果说 2023 年是检索增强生成年,那么 2024 年毫无疑问就是代理年。全球各
阅读全文
摘要:自2023年初开始,大模型在国内外引起了极大的关注。实际上,早在2022年底,国外已经对这一技术展开了非常激烈的讨论,而在国内对大模型的普及和认知很大程度上得益于ChatGPT的问世。这一现象级的对话式应用直接改变了人们对智能应用的既有看法。在此之前,我们已经习惯了智能客服的机械式回答和智能应用的频
阅读全文
摘要:物理机 or 云服务 完全⼩⽩,对⼤模型技术没有了解,建议⽤新⼈账号⽩嫖各⼤云服务平台的免费算⼒,再考虑购买或者租赁。 如果经常做微调实验,或实验室学⽣系统学习,有⾃⼰的物理机将更加⽅便,按照学习实践部分内容采购即可。 为⽤⼾提供相关的推理服务,⾸选云服务,有更⼤参数量,更好性能的模型选择,随⽤随停
阅读全文
摘要:1. QLORA 的原理与应用 QLoRA是一种量化LoRA (Low-Rank Adaptation) 的方法,它结合了LoRA和量化技术,通过在模型微调过程中引入低秩矩阵和量化技术,降低模型的存储和计算成本,同时保留微调后的模型性能。QLoRA主要用于大模型的微调,对比其他模型微调的好处就是节约
阅读全文
摘要:什么是nl2sql? NL2SQL(Natural Language to SQL)也叫text2SQL, 主要的想法就是将自然语言查询转换为可执行 SQL 语句的技术。能够让用户通过自然语言交流的方式来操作数据库,而不用学sql这种复杂的语法。 这种情况经常用于数据分析、数据查询、智能客服、信息检
阅读全文
摘要:LORA微调方法 1.1 LOAR的介绍 LoRA来源于微软在2021年发布的Paper:《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》 低秩矩阵微调地址:https://arxiv.org/pdf/2106.09685.pdf , 同时也在
阅读全文
摘要:1. 什么是通用大模型? 大模型(Large Model)是指在深度学习中具有大量参数和复杂结构的机器学习模型,通常用于处理复杂的任务,如自然语言处理、计算机视觉和语音识别等。这些模型的参数数量通常在数亿到数千亿之间,能够从海量数据中学习到丰富的特征和模式。 按照应用领域分类 语言大模型(NLP):
阅读全文
摘要:前言 LLaMA 3 系列模型是由 Meta AI 研发的第三代大规模语言模型,旨在延续其前代模型 LLaMA 和 LLaMA 2 的优良性能,并在多个方面进行进一步提升。LLaMA 3 在设计上采用了更深层的架构和更广泛的数据集,以便更好地处理复杂的自然语言处理任务。 LLaMA 3 已经被广泛应
阅读全文
摘要:在当前大模型快速发展的背景下,各类模型的水平参差不齐,媒体宣传往往夸大其词,而一些公司则过分标榜自身模型的能力,声称“达到ChatGPT水平”或“国内第一”。这导致外行人难以分辨真实情况。业界迫切需要建立一个公开、公正和公平的大模型评测系统,以真实展现各类模型的优缺点,从而帮助行业把握发展水平和与国
阅读全文
摘要:前言 GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。 1. GLM-4-Video-9b 模型介绍 信息来源,智谱官网:https://zhipua
阅读全文
摘要:前言 开源大模型系列的课程至今已经详细介绍了围绕ChatGLM3-6b模型的部署、微调和简单调用方法。私有化部署大模型是开发大模型应用中最基础的一步,但如果像熟练掌握基于大模型的上层应用开发还有非常长的路要走。现如今的大模型开发总体上分为两类,一种是以OpenAI为代表的闭源的模型在线API应用开发
阅读全文
摘要:前言 微调是一种在特定于特定任务的新数据集上进一步训练(或微调)预训练模型的方法。该技术涉及根据新数据调整模型所有层的权重。它允许模型专门满足细微的任务,并且通常会为专业应用程序带来更高的性能。 目录 目录 一 主流微调方法 1 Full Fine-Tuning 2 Prefix-Tuning 3
阅读全文