刷新
DeepSeek-R1论文细节时间线梳理

博主头像 0 前言 2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于60 ...

Huggingface使用

博主头像 目录1. Transformer模型1.1 核心组件1.2 模型结构1.3 Transformer 使用1.3.1 使用 Hugging Face Transformers 库1.3.2 自定义 Transformer 模型1.3.3 Transformer 的 Demo1.3.3.1 安装依赖1. ...

LangChain基础篇 (04)

博主头像 LangChain 核心模块:Data Conneciton - Document Loaders 使用文档加载器从源中加载数据作为文档。一个文档是一段文字和相关的元数据。 如,有用于加载简单 .txt 文件的文档加载器,用于加载 ArXiv 论文,或者任何网页的文本内容 Document 类 这段 ...

三分钟让Dify接入Ollama部署的本地大模型!

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 魔都架构师 | 全网30W技术追随者 大厂分布式系统/数据中台实战专家 主导交易系统百万级流量调优 & 车联网平台架构 AIGC应用开发先行者 | 区块链落地实践者 以技术驱动创新,我们的征途是改变世 ...

免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!

博主头像 0 为啥本地部署? 在本地运行 AI 模型具有以下优势: 隐私:你的数据保留在你的机器上 — — 不存在共享敏感信息的风险 成本: DeepSeek R1 可免费使用,无需订阅费或使用费 控制:无需外部依赖即可进行微调和实验 1 使用Ollama 1.1 下载并运行应用程序 直达官网: 1.2 选择 ...

[megatron代码阅读] 2. TP和PP实现

博主头像 训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化 如果是从checkpoint热启, pe ...

LangChain基础篇 (03)

博主头像 LangChain 核心模块学习:Memory 大多数LLM应用都具有对话界面。对话的一个重要组成部分是能够引用先前在对话中介绍过的信息。至少,一个对话系统应该能够直接访问一些过去消息的窗口。更复杂的系统将需要拥有一个不断更新的世界模型,使其能够保持关于实体及其关系的信息。 我们将存储过去交互信息的 ...

DeepSeek+AnythingLLM打造自己大模型知识库

博主头像 有些用户或是专家在项目建设中提出来要提炼工艺库、模型库、算法库等知识库,可以试着让deepseek成为每个角色的助手,例如工艺的、信息化的、设备的、电气的等角色,让deepseek成为自己,再不断的迭代它。deepseek扮演AI助手的角色,应用越来越发挥出来应有的价值。 ...

DeepSeek-R1真算得上开源吗?

博主头像 1 啥是 DeepSeek-R1? 如你曾为一道棘手数学题绞尽脑汁,就明白多花时间仔细思考多重要。OpenAI o1 模型证明,当 LLM 在推理时,通过增加计算量进行类似训练后,它们在数学、编程和逻辑等推理任务上的表现显著提升。 然而,OpenAI 推理模型的训练方法一直是秘密。直到DeepSee ...

利用LLM大模型学习英语思路

博主头像 思路提示词请以我上传文件: {雅思词汇词根+联想记忆法(乱序便携版) }单词表为基础,为 {雅思词汇} 生成三篇英语阅读理解文章,帮助强化单词记忆、提升英语水平。附加5道巩固练习(2道难题、2道基础、1道判断)IELTS词汇表https://github.com/fanhongtao/IELTS/b ...

用Dify零代码给你的网站做AI客服!

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 0 前言 Dify的一个“应用”指基于LLM构建的实际场景应用。通过创建应用,可将智能 AI 技术应用于特定的需求。它既包含了开发 AI 应用的工程范式,也包含了具体的交付物。 一个应用为开发者交付: 封装友好的 API,可由后端 ...

LangChain基础篇 (02)

博主头像 LangChain 核心模块学习:Chains 对于简单的大模型应用,单独使用语言模型(LLMs)是可以的。 但更复杂的大模型应用需要将 LLMs 和 Chat Models 链接在一起。 要么彼此链接,要么与其他组件链接。 LangChain 为这种“链式”应用程序提供了 Chain 接口。 La ...

21-重构大杀器!流量回放让线上BUG无处遁形,QA团队集体沉默…

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 流量:某个时间段内的所有请求,通过手段把发送到A应用的所有请求录制,然后把这些请求统一转发到B应用,让B应用接收到的请求参数跟A应用一致,实现A接收到的请求在B应用里面重新请求了一遍。整个过程即“流量回放”。 1 流量回放的意义 ...

Gemini 2.0 Flash小试牛刀

博主头像 Gemini 2.0 Flash 是谷歌最新推出的大型语言模型(LLM),它将人工智能的能力推向了新的边界。本文将深入探讨其关键特性,以及这些特性如何使其与其他知名模型区分开来。Gemini 与其他 LLM 的主要区别在于其多模态能力和高级推理能力。与许多主要专注于文本的 LLM 不同,Gemini ...

【译】DeepSeek的模型分析

博主头像 原作:阿尔贝托·罗梅罗 与 o1 相比,R1 的表现如何? DeepSeek 在六个相关基准(如 GPQA Diamond 和 SWE-bench Verified)以及其他替代测试(如 Codeforces 和 AIME)上对 R1 和 o1 进行了一对一比较。列表中遗漏了 ARC-AGI 和 F ...

Dify × AWS:0代码搭建「AI翻译中台」

博主头像 0 前言 基于Dify现有能力,已能对不少业务场景提供帮助,但对一些特定诉求,还要借助其扩展机制,本文利用翻译场景举例详细说明。 1 翻译场景复杂性分析 翻译是从简单到复杂各级都存在的场景,比较简单的翻译可能一句简单 Prompt,但对复杂、效果要求较高翻译场景,可能需要一些复杂 LLM 编排,如吴 ...

<1···202122···30>