AI 概念补充:多模态 / 多模型 / New API


一、多模态(Multimodal)

以前 vs 现在

以前你用的 AI 只能聊文字,比如你问"明天北京天气怎么样",它回你一段文字。

现在的 AI 能同时处理文字、图片、音频、视频,这就叫多模态。

你肯定见过的例子

豆包 App

  • 你拍一张植物照片发给它,它告诉你这是什么花、怎么养
  • 你发一段录音,它帮你转成文字并总结
  • 你拍一张菜单,它帮你翻译成中文
  • 你发一张 Excel 截图,它帮你分析数据

ChatGPT / Claude

  • 上传一张代码报错截图,它帮你找 bug
  • 上传 PDF 合同,它帮你划重点
  • 发一张白板手绘图,它帮你生成前端代码

多模态的几种类型

模态 你能做什么 例子
文字 + 图片 AI 看图并理解 拍个菜品问"这是啥菜"
文字 + 音频 AI 听声音 发段语音"帮我写个邮件"
文字 + 视频 AI 看视频画面 发段会议录像"帮我做纪要"
文字 + 文件 AI 读文档 上传 PDF"总结这份合同"

一句话

多模态就是让 AI 从"只看得懂字"变成"看得懂图、听得懂话、读得了文件"。


二、多模型(Multi-Model)

什么是多模型

不同的 AI 模型有不同的特长。多模型的意思就是:同一个场景下,你可以按需选不同的模型来用。

主流模型各有所长

模型 擅长 适合场景
GPT-4o 综合能力强,生态好 通用对话、代码、翻译
Claude 写代码、长文理解 编程辅助、分析长篇文档
豆包 中文理解好,免费 国内用户、中文场景
文心一言 中文场景,合规 企业级应用、国内合规
通义千问 阿里生态集成 阿里云用户
DeepSeek 推理能力强,性价比高 数学、逻辑推理、复杂分析
本地小模型(Llama、Qwen) 离线、隐私、省钱 内部系统、敏感数据

为什么需要多模型

  • 省钱: 简单对话用便宜的小模型,复杂任务才调 GPT-4
  • 备份: 一个模型挂了,自动切到另一个
  • 合规: 国内业务必须用国内模型
  • 效果: 写代码用 Claude,中文用豆包,各取所长

举几个日常场景

场景 1:你写代码
你用 Cursor(代码编辑器),里面可以选底层模型。写复杂逻辑时切到 Claude,简单补全时用 GPT-4o Mini(更快更便宜)。

场景 2:公司内部系统
敏感数据不能出公司,你就接本地模型(Llama)。普通员工问答接豆包(免费)。复杂分析用 GPT-4。

场景 3:App 开发
你的 App 接 AI 功能,白天用 GPT-4 保证质量,晚上或高峰期切到 DeepSeek 省钱。

一句话

多模型就是家里备了好几个工具箱,拧螺丝用螺丝刀、钉钉子用锤子,各有各的用处。


三、New API

一句话解释

New API 就是一个"AI 模型的中转站"。

你把所有模型的 Key 和地址配在 New API 上,然后你的代码只需要调 New API 这一个地方,它自动帮你转发给真正的 AI 模型。

没有 New API 的时候是什么样

假如你的项目要同时用 GPT、Claude、豆包三个模型,你的代码里得写:

调 GPT    → 请求发到 api.openai.com          → 用 Key A
调 Claude → 请求发到 api.anthropic.com       → 用 Key B
调 豆包   → 请求发到 ark.cn-beijing.volces.com → 用 Key C

三个地址、三个 Key、三个不同的 SDK 或调用方式。哪天想换模型,得改代码重新部署。

有了 New API 之后是什么样

你的代码只调这一个地址和 Key:
  → 请求发到 http://localhost:3000  → 用统一 Key

New API 自动帮你转发:
  ├─ 你指定用 GPT  → 它帮你转给 api.openai.com
  ├─ 你指定用 Claude → 它帮你转给 api.anthropic.com
  ├─ 你指定用 豆包  → 它帮你转给 volces.com
  └─ 你指定用 DeepSeek → 它帮你转给 deepseek.com

你的代码里只有一个 baseUrl、一个 Key。换模型只需要改请求里模型名就行。

更直白的例子

例子 1:团队管理 Key

你们团队 10 个人都用 AI 写代码,每个人都配自己的 Key。一个人 Key 用完了,代码就跑不动了。

用 New API:团队共用一个统一 Key,你在 New API 后台配好额度,谁用了多少一目了然。

例子 2:模型 A 挂了自动切到模型 B

你的系统每天生成大量报告,用的是 GPT-4。突然有一天 OpenAI 的接口不稳定了。

没有 New API:你得改代码、重部署、改成调 Claude。

有 New API:你在后台配好"GPT-4 失败时自动用 Claude",什么都不用改,它自己就切过去了。

例子 3:一个接口试遍所有模型

你写了一个功能,想知道 GPT、Claude、DeepSeek 哪个效果更好。

没有 New API:你得写三套代码分别调。

有 New API:你只需要改请求里的 model 名字,其他代码一个字都不用改。

New API 还有什么好处

  • 统计用量: 谁调了多少、花了多少钱,后台一目了然
  • 限制频率: 防止某个调用方刷接口
  • 统一鉴权: 所有模型共用一套 Key 管理
  • 模型映射: 比如你代码里写死用 GPT-4,New API 可以偷偷给你换成 DeepSeek(省钱)

一句话

New API = 一个地址调所有模型,不用挨个配 Key,不用为换模型改代码。


四、三者的关系

  • 多模态 决定了 AI 能处理什么类型的数据(文字、图片、音频、文件)
  • 多模型 决定了你能用哪个 AI 引擎(GPT、Claude、豆包、DeepSeek)
  • New API 解决了管理多个 AI 模型地址和 Key 的麻烦

三个概念互相独立,你可以在一个项目里单独用其中一个,也可以一起用。