刷新
常见的 AI 模型格式

博主头像 来源:博客链接 过去两年,开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布,并被用于实际应用中。然而,开发者在使用这些模型时面临的一个挑战是模型格式的多样性。 在本文中,我们将探讨当下常见的 AI 模型格式,包括: GGUF PyTorc ...

【调研】Vision Language Model Safety

博主头像 Adversarial Attacks White-box Attacks Task-specific Attacks 的目标是针对某个具体的任务(如图像描述生成、指代表达理解等),通过精心设计的对抗样本,使得模型在该任务上产生错误的输出。例如,攻击者可能希望模型生成错误的图像描述,或者在对图像进行 ...

知识蒸馏实战

博主头像 蒸馏实战小实验 本实验相关代码已开源至github 失败经历 爱爱医数据蒸馏Qwen2.5-7B 1.用爬虫在爱爱医网站爬取1k条数据。(刚学一点爬虫,不会越过验证码,还是自己一次一次验证) 2.数据格式预处理,例如: { "instruction": "你需要基于我提供的患者病历,推理并生成完 ...

Windows系统上使用Ollama本地部署DeepSeek

博主头像 前排提醒: 1. 操作系统为Windows11 2. 受限于硬件资源,本地部署的DeepSeek为DeepSeek-R1 14B Ollama安装 第一步: 打开浏览器,在地址栏输入网址:https://ollama.com/ ,进入Ollama官网 第二步: 点击上图中的“Download”按钮, ...

大模型推理能力的局限性

博主头像 0 前言 LLM凭借其生成连贯文本、翻译语言甚至进行对话的能力,彻底改变人工智能领域。然而,尽管这些模型表现出色,它们在推理和理解复杂上下文方面仍然面临重大挑战。 这些模型擅长识别并模仿训练数据中的模式,但当任务需要真正的理解和逻辑推理时,它们往往遇困。可能导致: 长对话中的不一致 难以关联分散的信 ...

MCP:AI 时代的工具接口标准?

博主头像 0 前言 自从 OpenAI 在 2023 年推出函数调用(Function Calling),我一直思考,咋能真正解锁 AI Agent与工具的生态系统。随基础模型越来越智能,AI Agent与外部工具、数据和 API 的交互方式却变得越来越碎片化——开发者需针对每一个系统单独编写业务逻辑,让Ag ...

基于LLM的业务流程图评审

博主头像 背景 产品经理绘制业务流程图,是梳理业务需求、明确业务逻辑、推动跨部门协作的核心工作之一。其核心是通过可视化方式,将复杂的业务场景拆解为清晰、有序的步骤,确保产品设计与实际业务目标对齐。以下是关键点解析:业务流程图的核心目的需求具象化:将抽象的业务需求转化为可落地的步骤(如“用户下单”需拆解为浏览商 ...

注意力机制:GPT等大模型的基石

博主头像 1 啥是注意力? 人类观察事物,能快速判断一种事物,是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断,而非从头到尾一览无遗观察一遍才能有判断。基于这样的观察实践,产生了注意力机制(Attention Mechanism)。 想象你在人群中找一个穿红衣服的人。你不会一一检查每个人的鞋子、裤 ...

AI辅助招聘面试STAR法则生成面试题

博主头像 背景STAR法则的应用 STAR法则常被用作面试官评估应聘者过去工作经历和能力的一种工具,能够帮助面试官系统地了解应聘者过去的工作经历,揭示他们面临挑战时的应对策略,以及所取得的工作成果。通过这一法则,面试官能够更全面地评估应聘者的专业能力和工作态度。应聘者也可以通过STAR法则来准备面试,提前梳理 ...

<1···161718···30>