刷新
Midscene与Qwen-VL模式小试UI自动化

博主头像 背景Midscene.js是一款由字节跳动Web Infra团队开发的开源、基于AI技术的UI自动化工具,其应用场景广泛且多样:1. 自动化测试功能测试:Midscene.js能够模拟用户操作,如点击按钮、输入文本等,对Web应用进行功能测试,确保应用在不同情况下都能稳定运行。冒烟测试:对于简单的站 ...

AI开发系列一:概念扫盲

博主头像 大模型演变与概念 人工智能 人工智能是一个非常广泛的领域,涵盖了多种技术和方法,包括但不限于机器学习、自然语言处理、计算机视觉、专家系统、机器人学等。 人工智能旨在创建能够模拟人类智能行为的系统或软件。它包括感知、推理、学习、决策和语言理解等多种能力,目标是让计算机能够像人类一样思考和行动。 在人工 ...

常见的 AI 模型格式

博主头像 来源:博客链接 过去两年,开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布,并被用于实际应用中。然而,开发者在使用这些模型时面临的一个挑战是模型格式的多样性。 在本文中,我们将探讨当下常见的 AI 模型格式,包括: GGUF PyTorc ...

【调研】Vision Language Model Safety

博主头像 Adversarial Attacks White-box Attacks Task-specific Attacks 的目标是针对某个具体的任务(如图像描述生成、指代表达理解等),通过精心设计的对抗样本,使得模型在该任务上产生错误的输出。例如,攻击者可能希望模型生成错误的图像描述,或者在对图像进行 ...

知识蒸馏实战

博主头像 蒸馏实战小实验 本实验相关代码已开源至github 失败经历 爱爱医数据蒸馏Qwen2.5-7B 1.用爬虫在爱爱医网站爬取1k条数据。(刚学一点爬虫,不会越过验证码,还是自己一次一次验证) 2.数据格式预处理,例如: { "instruction": "你需要基于我提供的患者病历,推理并生成完 ...

Windows系统上使用Ollama本地部署DeepSeek

博主头像 前排提醒: 1. 操作系统为Windows11 2. 受限于硬件资源,本地部署的DeepSeek为DeepSeek-R1 14B Ollama安装 第一步: 打开浏览器,在地址栏输入网址:https://ollama.com/ ,进入Ollama官网 第二步: 点击上图中的“Download”按钮, ...

大模型推理能力的局限性

博主头像 0 前言 LLM凭借其生成连贯文本、翻译语言甚至进行对话的能力,彻底改变人工智能领域。然而,尽管这些模型表现出色,它们在推理和理解复杂上下文方面仍然面临重大挑战。 这些模型擅长识别并模仿训练数据中的模式,但当任务需要真正的理解和逻辑推理时,它们往往遇困。可能导致: 长对话中的不一致 难以关联分散的信 ...

MCP:AI 时代的工具接口标准?

博主头像 0 前言 自从 OpenAI 在 2023 年推出函数调用(Function Calling),我一直思考,咋能真正解锁 AI Agent与工具的生态系统。随基础模型越来越智能,AI Agent与外部工具、数据和 API 的交互方式却变得越来越碎片化——开发者需针对每一个系统单独编写业务逻辑,让Ag ...

基于LLM的业务流程图评审

博主头像 背景 产品经理绘制业务流程图,是梳理业务需求、明确业务逻辑、推动跨部门协作的核心工作之一。其核心是通过可视化方式,将复杂的业务场景拆解为清晰、有序的步骤,确保产品设计与实际业务目标对齐。以下是关键点解析:业务流程图的核心目的需求具象化:将抽象的业务需求转化为可落地的步骤(如“用户下单”需拆解为浏览商 ...

注意力机制:GPT等大模型的基石

博主头像 1 啥是注意力? 人类观察事物,能快速判断一种事物,是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断,而非从头到尾一览无遗观察一遍才能有判断。基于这样的观察实践,产生了注意力机制(Attention Mechanism)。 想象你在人群中找一个穿红衣服的人。你不会一一检查每个人的鞋子、裤 ...

<1···202122···29>