【GitHub每日速递 20260116】一键实现实时换脸！Deep - Live - Cam让你在视频中秒变任何人

原文: https://mp.weixin.qq.com/s/UPuP5R6E9-sHK2yCdJxnIg

一键实现实时换脸！Deep - Live - Cam让你在视频中秒变任何人

Deep-Live-Cam 是一个实现实时换脸和单张图片一键生成视频深度伪造的工具。简单讲，它能让你用一张照片快速替换视频中的人脸并实时播放。适用人群：AI技术爱好者、数字内容创作者及研究人员。

项目地址：https://github.com/hacksider/Deep-Live-Cam

主要语言：Python

stars: 77.4k

项目简介

Deep-Live-Cam 2.0.1c 是一款开源的实时换脸和视频深度伪造软件，只需一张图片，点击几下即可实现实时换脸效果。该软件旨在成为 AI 生成媒体行业的高效工具，可辅助艺术家进行角色动画制作、内容创作，甚至用于服装设计。

核心功能

实时换脸：通过简单的三步操作（选择面部、选择相机、点击“Live”）即可实现实时换脸。
多种特色功能
- Mouth Mask：保留原始嘴巴以实现更准确的动作。
- Face Mapping：可同时在多个对象上使用不同的面部进行换脸。
- Your Movie, Your Face：能让用户在观看电影时实时替换影片中人物的面部。
- Live Show：支持进行实时表演和直播。
- Memes：帮助用户创建热门的表情包。
- Omegle：可在 Omegle 等平台上给他人带来惊喜。

安装方式

快速启动版（Pre-built）

适用于拥有离散 NVIDIA 或 AMD GPU 或 Mac Silicon 的用户，可从这里下载。此版本专为非技术用户或没时间手动安装所有依赖项的用户设计，还能获得优先支持。

手动安装

手动安装需要一定的技术技能，不适合初学者。具体步骤如下：

平台设置：安装 Python（推荐 3.11 版本）、pip、git、ffmpeg 以及 Windows 系统下的 Visual Studio 2022 Runtimes。
克隆仓库：使用 git clone https://github.com/hacksider/Deep-Live-Cam.git 克隆仓库并进入目录。
下载模型：从指定链接下载 GFPGANv1.4 和 inswapper_128_fp16.onnx 模型文件，并放置在“models”文件夹中。
安装依赖：使用虚拟环境（venv）安装依赖，不同操作系统的安装命令有所不同。
GPU 加速（可选）：根据不同的 GPU 类型（NVIDIA、Apple Silicon 等），安装相应的 CUDA 或 CoreML 等执行提供程序以加速运行。

使用方法

图像/视频模式

执行 python run.py。
选择源面部图像和目标图像/视频。
点击“Start”，输出结果将保存在以目标视频命名的目录中。

网络摄像头模式

执行 python run.py。
选择源面部图像。
点击“Live”，等待 10 - 30 秒预览出现。
可使用 OBS 等屏幕捕获工具进行直播。若要更换面部，选择新的源图像即可。

命令行参数

虽然部分命令行参数已不再维护，但仍可使用一些参数进行更细致的设置，如选择源图像、目标图像/视频、输出路径等。使用 -s/--source 参数可使程序以 CLI 模式运行。

项目优势

操作简单：只需一张图片和简单的点击操作，即可实现实时换脸。
功能丰富：提供多种特色功能，满足不同用户的需求。
跨平台支持：支持 Windows、Linux 和 macOS 等多种操作系统，部分版本还支持不同的 GPU 加速。

应用场景

创意内容创作：艺术家可利用该软件制作动画、视频、表情包等创意内容。
直播和表演：主播可在直播中实时更换面部，增加直播的趣味性和互动性。
娱乐社交：在社交平台上分享有趣的换脸视频，给朋友带来惊喜。

炸裂！多模态AI Agent TARS登场，解锁人机任务新范式

UI-TARS-desktop 是一个支持多模态AI模型与智能体基础设施集成的开源桌面应用。简单讲，它是一个能让AI助手看懂图像、理解指令并执行任务的本地化智能代理平台。适用人群：AI开发者、智能体应用研究者及多模态技术爱好者。

项目地址：https://github.com/bytedance/UI-TARS-desktop

主要语言：TypeScript

stars: 23.1k

TARS是一个多模态AI Agent栈，目前包含两个项目：Agent TARS和UI-TARS Desktop。

Agent TARS

核心功能
- 一键即用的CLI：支持有界面的Web UI和无界面的服务器执行方式。
- 混合浏览器代理：可通过GUI Agent、DOM或混合策略控制浏览器。
- 事件流：由协议驱动的事件流推动上下文工程和代理UI的发展。
- MCP集成：内核基于MCP构建，支持挂载MCP服务器以连接现实世界的工具。
快速开始
- 使用npx启动：npx @agent-tars/cli@latest
- 全局安装（需要Node.js >= 22）：npm install @agent-tars/cli@latest -g
- 使用偏好的模型提供商运行：
  - agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
  - agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
文档资源
- 中央枢纽：官网，是进入Agent TARS生态系统的门户。
- 快速开始：指南，助你在5分钟内入门。
- 最新动态：博客，了解前沿特性和愿景。
- 开发者专区：文档，掌握每个命令和特性。
- 展示案例：示例，查看官方和社区构建的用例。
- 参考资料：API参考，完整的技术参考。

UI-TARS Desktop

核心功能
- 自然语言控制：由视觉语言模型提供支持，可通过自然语言控制。
- 截图和视觉识别：支持截图和视觉识别功能。
- 精确的鼠标和键盘控制：能实现精确的鼠标和键盘操作。
- 跨平台支持：支持Windows、MacOS和浏览器。
- 实时反馈和状态显示：可实时显示反馈和状态信息。
- 隐私安全：完全本地处理，保障隐私安全。
快速开始：可参考快速开始指南。

项目优势

多模态能力：将GUI代理和视觉能力引入终端、计算机、浏览器和产品，通过先进的多模态大语言模型和与现实世界工具的无缝集成，提供更接近人类的任务完成工作流程。
丰富的工具支持：Agent TARS支持多种模型提供商，UI-TARS Desktop提供本地和远程计算机以及浏览器操作功能。
持续更新：从更新日志可以看出，项目不断推出新功能和版本更新，如Agent TARS CLI v0.3.0带来了多工具流支持、运行时设置等功能，UI-TARS Desktop v0.2.0引入了远程计算机和浏览器操作功能。

应用场景

日常任务自动化：如预订机票、酒店，查询信息等。
开发工作辅助：在开发过程中，可用于自动化一些重复性的操作，如打开开发工具的特定功能、检查项目的问题等。
数据处理和分析：结合MCP工具，可进行数据处理和分析，如生成图表等。

posted @ 2026-01-16 08:29 piggy侠阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

piggy侠的技术博客

公#众~号: AI Tech研习社

【GitHub每日速递 20260116】一键实现实时换脸！Deep - Live - Cam让你在视频中秒变任何人

一键实现实时换脸！Deep - Live - Cam让你在视频中秒变任何人

项目简介

核心功能

安装方式

快速启动版（Pre-built）

手动安装

使用方法

图像/视频模式

网络摄像头模式

命令行参数

项目优势

应用场景

炸裂！多模态AI Agent TARS登场，解锁人机任务新范式

Agent TARS

UI-TARS Desktop

项目优势

应用场景

公告