大模型 - 第28页 - 网站分类

用Dify零代码给你的网站做AI客服！

0 前言 Dify的一个“应用”指基于LLM构建的实际场景应用。通过创建应用，可将智能 AI 技术应用于特定的需求。它既包含了开发 AI 应用的工程范式，也包含了具体的交付物。一个应用为开发者交付：封装友好的 API，可由后端或前端应用直接调用，通过 Token 鉴权开箱即用、美观且托管的 W ...

deepseek-v3 论文阅读

模型结构 MLA(Multi-Head Latent Attention) 主要作用是在保证效果的基础上, 利用低秩压缩的原理优化kvCache, 加速推理, 同时节省训练显存. 先回忆下MHA, 在每个head上, 分别经过K, V生成 $ attnweights=(W_Qh_i)^T∗(W_Kh ...

LangChain基础篇 (06)

LangChain 核心模块 Agent（构建复杂应用的代理系统） ReAct: Reasoning + Acting ReAct Prompt 由 few-shot task-solving trajectories 组成，包括人工编写的文本推理过程和动作，以及对动作的环境观察. ReAct P ...

一键部署+限免体验！盘点如何在华为云上体验DeepSeek

本文分享自华为云社区《一键部署+限免体验！盘点如何在华为云上体验DeepSeek》，作者：华为云社区精选。还在为DeepSeek深度思考出现“服务器繁忙”而头疼？华为云带你一键在线体验和本地部署DeepSeek模型，200万Token免费领取+云主机极简安装体验，5分钟搞定！更有联网搜索AI应用搭 ...

传国玉玺易主，ai.com竟然跳转到国产AI

一、震惊！输入ai.com网址竟然见证历史今天我在地址栏随手敲了个ai.com，结果网页"唰"地一下——居然跳到了国产AI新贵DeepSeek的官网！这感觉就像在胡同口买煎饼，结果老板递给我一块金砖啊要知道这个ai.com可是全球科技圈的"传国玉玺"，从1993年注册至今（整整32年历史！ ...

让 LLM 来评判 | 评估你的评估结果

评估你的评估结果这是让 LLM 来评判系列文章的第三篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示在生产中或大规模使用 LLM 评估模型之前，你需要先评估它在目标任务的表现效果如何，确保它的评分跟期望的 ...

LangChain基础篇 (05)

LangChain 核心模块：Data Conneciton - Document Transformers 一旦加载了文档，通常会希望对其进行转换以更好地适应您的应用程序。最简单的例子是，您可能希望将长文档拆分为较小的块，以适应模型的上下文窗口。LangChain具有许多内置的文档转换器，可以轻 ...

轻松部署OpenWebUI+DeepSeek API，实现多端互通查询自由

引言 DeepSeek模型很强大，但官方目前存在以下几个痛点不稳定：官方页面、官方API暂时只能提供有限的服务成本高：满血版671B个人电脑很少能带得动的本文介绍nas/云服务器部署OpenWebUI+DeepSeek API，实现多端互通查询自由，主要有以下几个优点成本低：不用昂贵的硬件 ...

基于deepseek模型知识库，Cherry Studio和AnythingLLM使用效果对比

网上有很多构建本地知识库的文章，我们更应该更深入应用，对比不同的应用效果，才能发挥知识库本身的价值。 ...

Java工程师如何理解张量？

刚接触 AI 和 PyTorch，理解 “张量 (Tensor)” 是入门关键。简单来说，可将 PyTorch 中的张量 (Tensor) 理解为 Java 中的多维数组，但它比普通的 Java 数组强大得多，尤其在 AI 和深度学习领域。 1 张量（Tensor） VS Java 数组/列表 J ...

Gemini 2.0 现已面向所有人开放

以下GOOGLE 原文BLOG翻译 0205发表去年 12 月，我们通过发布 Gemini 2.0 Flash 的实验版本开启了“代理时代”——这是我们的高效工作模型，专为开发者设计，具有低延迟和增强性能。今年早些时候，我们在 Google AI Studio 中更新了 2.0 Flash Thi ...

DeepSeek-R1论文细节时间线梳理

0 前言 2025年1月10日，DeepSeek发布名为R1的大语言模型，该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜，不仅吸引科技行业关注，也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是：该模型训练成本低于60 ...

Huggingface使用

目录1. Transformer模型1.1 核心组件1.2 模型结构1.3 Transformer 使用1.3.1 使用 Hugging Face Transformers 库1.3.2 自定义 Transformer 模型1.3.3 Transformer 的 Demo1.3.3.1 安装依赖1. ...

LangChain基础篇 (04)

LangChain 核心模块：Data Conneciton - Document Loaders 使用文档加载器从源中加载数据作为文档。一个文档是一段文字和相关的元数据。如，有用于加载简单 .txt 文件的文档加载器，用于加载 ArXiv 论文，或者任何网页的文本内容 Document 类这段 ...

三分钟让Dify接入Ollama部署的本地大模型！

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师 | 全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优 & 车联网平台架构 AIGC应用开发先行者 | 区块链落地实践者以技术驱动创新，我们的征途是改变世 ...

通过Ollama本地部署DeepSeek R1以及简单使用的教程（超详细）

本文介绍了在Windows环境下，通过Ollama来本地部署DeepSeek R1。该问包含了Ollama的下载、安装（命令和双击安装）、安装目录迁移、大模型存储位置修改、下载DeepSeek以及通过Web UI来对话等相关内容。 1、下载Ollama 首先我们到Ollama官网去下载安装包，此 ...

如何在WPS和Word/Excel中直接使用DeepSeek功能

以下是将DeepSeek功能集成到WPS中的详细步骤，无需本地部署模型，直接通过官网连接使用：1. 下载并安装OfficeAI插件（1）访问OfficeAI插件下载地址：https://www.office-ai.cn/，下载插件（目前只支持windows系统）。 OfficeAI 助手是一款免 ...

聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型

概述首发自个人公众号：阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章：聊聊DeepSeek R1的一些总结聊聊DeepSeek R1的开源复现库——Open R1之合成数据聊聊DeepSeek R1的知识蒸馏与应用思考简介 GRPO 是一种在线学习算法，这意味着它通过 ...

免费+数据安全！手把手教你在PC跑DeepSeek-R1大模型，小白也能秒变AI大神！

0 为啥本地部署？在本地运行 AI 模型具有以下优势：隐私：你的数据保留在你的机器上 — — 不存在共享敏感信息的风险成本： DeepSeek R1 可免费使用，无需订阅费或使用费控制：无需外部依赖即可进行微调和实验 1 使用Ollama 1.1 下载并运行应用程序直达官网： 1.2 选择 ...

[megatron代码阅读] 2. TP和PP实现

训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化如果是从checkpoint热启, pe ...