Ollama的进一步了解;SAM3的API调用;流式输出理解;postman使用(接口测试);Supervisor进程管理工具部署SAM3至内网;ollama部署后API调用

1.Ollama与vLLM
Ollama主要应用场景是LLM大模型的部署,不包含图像处理模型,专注于本地化、轻量化部署 ,通过Docker容器技术简化模型运行流程,用户无需复杂配置即可快速启动模型。其设计目标是降低本地使用LLM的门槛,适合个人开发者或资源有限的环境。
vLLM : 侧重于高性能推理加速与服务端扩展 ,支持多机多卡分布式部署,通过优化GPU资源利用率和内存管理技术(如PagedAttention)提升高并发场景下的吞吐量。

项目 Ollama Dify
本质 本地模型推理框架 大模型应用构建平台
作用 在本机/服务器加载并运行LLM模型 快速构建聊天助手、RAG、Agent、工作流等应用
需不需要 GPU 推荐有 不强制(可接第三方 LLM)
模型来源 本地模型文件 本地+云端模型,多供应商
开发友好度 偏底层(需要自己写业务逻辑) 偏上层(无代码/低代码开发)
API 提供本地推理 API 提供应用 API 和工作流 API

2.Ollama工作职责
GPU服务器

⚙ Ollama(负责模型推理)

🔗 REST / OpenAI API

🚀 Dify(负责构建应用)

👨‍💼用户(网页、App、企业系统)

3.SAM3的部署概况
Ollama由于的局限性,只能部署LLM模型架构。目前的需求是在线推理服务,于是采用python的FastAPI调用SAM3。
流式 = 数据一边生成、一边传输、一边展示,而不是等全部生成完成后一次性返回。
也可以理解为实时输出 / 边算边给结果。(如GPT)

4.postman使用
VS Code中远程插件十分方便,能够转发内网端口,如下图,内网中8000端口被转发到本机的8000端口,方便调试。
image
postman初次尝试。
参数一般放在请求体中。
image

5.Supervisor部署SAM3至内网
为什么使用Supervisor、docker部署SAM3?
因为SAM3大模型没有被ollama管理部署,自行写了一个FastAPI调用大模型,如果直接在终端启动
终端关闭或服务器重启 → API 停掉
崩溃或异常退出 → 没有人自动重启

由于docker使用暂时还不熟练,暂时使用Supervisor。
Supervisor能够守护进程 supervisord 在后台运行、自动启动、自动重启、管理日志到指定文件、开发调试和生产运行互不干扰。
Supervisor主配置 [include] 决定子配置目录;目前GPU服务器目前指向/etc/supervisord.d/*.ini
配置文件sam3_api.ini示例

[program:sam3_api]
command=/home/user/miniconda3/envs/myenv/bin/python -m uvicorn only_text:app --host 0.0.0.0 --port 8000
directory=/home/user/my_model_project
autostart=true
autorestart=true
stderr_logfile=/var/log/sam3_api_err.log
stdout_logfile=/var/log/sam3_api_out.log

配置的加载、升级以及状态查询

sudo supervisorctl reread
sudo supervisorctl update
sudo supervisorctl status

更新了API代码或模型代码后,Supervisor不会自动重启服务,需要你手动执行操作才能让新代码生效。

sudo supervisorctl restart sam3_api

6.ollama部署后API调用
使用ollama,/api/generate
参考官方文档
https://docs.ollama.com/api/generate

posted @ 2026-01-23 12:01  asphyxiasea  阅读(4)  评论(0)    收藏  举报