DeepSeek-R1 会推理,GPT-4o 会看。能否让 1 LLM既能看又能推理? DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。 1.1 DeepSeek模型发展 自2024.12,DeepSeek已发布: DeepSeek-V3(2024.12):视觉语言模型(VLM ...
来源:博客链接 过去两年,开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布,并被用于实际应用中。然而,开发者在使用这些模型时面临的一个挑战是模型格式的多样性。 在本文中,我们将探讨当下常见的 AI 模型格式,包括: GGUF PyTorc ...
2025 AI实战vue3+deepseek+arcoDesign仿DeepSeek/豆包网页版AI聊天助手。 vue3-web-deepseek 实战网页PC版智能AI对话,基于vite6+vue3.5+openAI对接DeepSeek-Chat聊天对话模型。实现流动式打字返回效果、支持亮色+暗黑 ...
前排提醒: 1. 本地通过Ollama部署DeepSeek,部署版本为 deepseek-r1:1.5b,若还未进行本地部署,可以参考博客Windows系统上使用Ollama本地部署DeepSeek 2. 线上API使用的是硅基流动(siliconflow)的DeepSeek API,模型名称为 d ...
前排提醒: 1. 操作系统为Windows11 2. DeepSeek使用的是硅基流动(siliconflow)的API,模型名称为 deepseek-ai/DeepSeek-R1 第一步: 在硅基流动官网的API密钥菜单( https://cloud.siliconflow.cn/account/ ...
在HTML页面通过JavaScript访问Ollama本地部署的DeepSeek,顺便解决了 HTML 页面调用 Ollama 服务的跨域问题 ...
Adversarial Attacks White-box Attacks Task-specific Attacks 的目标是针对某个具体的任务(如图像描述生成、指代表达理解等),通过精心设计的对抗样本,使得模型在该任务上产生错误的输出。例如,攻击者可能希望模型生成错误的图像描述,或者在对图像进行 ...
蒸馏实战小实验 本实验相关代码已开源至github 失败经历 爱爱医数据蒸馏Qwen2.5-7B 1.用爬虫在爱爱医网站爬取1k条数据。(刚学一点爬虫,不会越过验证码,还是自己一次一次验证) 2.数据格式预处理,例如: { "instruction": "你需要基于我提供的患者病历,推理并生成完 ...
前排提醒: 1. 操作系统为Windows11 2. 受限于硬件资源,本地部署的DeepSeek为DeepSeek-R1 14B Ollama安装 第一步: 打开浏览器,在地址栏输入网址:https://ollama.com/ ,进入Ollama官网 第二步: 点击上图中的“Download”按钮, ...
DeepSeek R1出来后业界都在争相复现R1的效果,这一章我们介绍两个复现项目SimpleRL和LogicRL,还有研究模型推理能力的Cognitive Behaviour,项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论和消融实验,包括 ...
0 前言 LLM凭借其生成连贯文本、翻译语言甚至进行对话的能力,彻底改变人工智能领域。然而,尽管这些模型表现出色,它们在推理和理解复杂上下文方面仍然面临重大挑战。 这些模型擅长识别并模仿训练数据中的模式,但当任务需要真正的理解和逻辑推理时,它们往往遇困。可能导致: 长对话中的不一致 难以关联分散的信 ...
0 前言 自从 OpenAI 在 2023 年推出函数调用(Function Calling),我一直思考,咋能真正解锁 AI Agent与工具的生态系统。随基础模型越来越智能,AI Agent与外部工具、数据和 API 的交互方式却变得越来越碎片化——开发者需针对每一个系统单独编写业务逻辑,让Ag ...
背景 产品经理绘制业务流程图,是梳理业务需求、明确业务逻辑、推动跨部门协作的核心工作之一。其核心是通过可视化方式,将复杂的业务场景拆解为清晰、有序的步骤,确保产品设计与实际业务目标对齐。以下是关键点解析:业务流程图的核心目的需求具象化:将抽象的业务需求转化为可落地的步骤(如“用户下单”需拆解为浏览商 ...
环境准备 硬件环境 CPU:intel四代至强及以上,AMD参考同时期产品 内存:800GB以上,内存性能越强越好,建议DDR5起步 显卡:Nvidia显卡,单卡显存至少24GB(用T4-16GB显卡实测会在加载模型过程中爆显存),nvidia compute capability至少8.0(CUD ...
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。 ...
DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏(Distillation) 本文重点进行DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏(Distillation),由于硬件资源有限,只能只用cpu进行模型蒸馏。 1. 蒸馏目标 1.1. 知 ...
1 啥是注意力? 人类观察事物,能快速判断一种事物,是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断,而非从头到尾一览无遗观察一遍才能有判断。基于这样的观察实践,产生了注意力机制(Attention Mechanism)。 想象你在人群中找一个穿红衣服的人。你不会一一检查每个人的鞋子、裤 ...
准备环境 miniconda 作用: 虚拟环境:为每个项目创建独立的Python环境(如Python 3.10),避免全局安装导致版本冲突。 依赖管理:通过conda或pip精准安装AI框架(如PyTorch、LangChain),解决库版本兼容性问题。 安装: 下载地址:miniconda下载 ...
背景STAR法则的应用 STAR法则常被用作面试官评估应聘者过去工作经历和能力的一种工具,能够帮助面试官系统地了解应聘者过去的工作经历,揭示他们面临挑战时的应对策略,以及所取得的工作成果。通过这一法则,面试官能够更全面地评估应聘者的专业能力和工作态度。应聘者也可以通过STAR法则来准备面试,提前梳理 ...
1 回译增强的核心机理 1.1 跨语言语义重构原理 目前文本数据增强方面效果较好的增强方法。回译数据增强(Back-translation Augmentation)是基于神经机器翻译的文本再生技术,其核心运作流程包含三个关键阶段: 语义编码阶段:源语言文本通过NMT模型编码为中间语义表示 跨语言迁 ...