【GitHub每日速递 20260116】一键实现实时换脸!Deep - Live - Cam让你在视频中秒变任何人

原文: https://mp.weixin.qq.com/s/UPuP5R6E9-sHK2yCdJxnIg
一键实现实时换脸!Deep - Live - Cam让你在视频中秒变任何人
Deep-Live-Cam 是一个实现实时换脸和单张图片一键生成视频深度伪造的工具。简单讲,它能让你用一张照片快速替换视频中的人脸并实时播放。适用人群:AI技术爱好者、数字内容创作者及研究人员。
项目地址:https://github.com/hacksider/Deep-Live-Cam
主要语言:Python
stars: 77.4k

项目简介
Deep-Live-Cam 2.0.1c 是一款开源的实时换脸和视频深度伪造软件,只需一张图片,点击几下即可实现实时换脸效果。该软件旨在成为 AI 生成媒体行业的高效工具,可辅助艺术家进行角色动画制作、内容创作,甚至用于服装设计。
核心功能
- 实时换脸:通过简单的三步操作(选择面部、选择相机、点击“Live”)即可实现实时换脸。
- 多种特色功能
- Mouth Mask:保留原始嘴巴以实现更准确的动作。
- Face Mapping:可同时在多个对象上使用不同的面部进行换脸。
- Your Movie, Your Face:能让用户在观看电影时实时替换影片中人物的面部。
- Live Show:支持进行实时表演和直播。
- Memes:帮助用户创建热门的表情包。
- Omegle:可在 Omegle 等平台上给他人带来惊喜。
安装方式
快速启动版(Pre-built)
适用于拥有离散 NVIDIA 或 AMD GPU 或 Mac Silicon 的用户,可从 这里 下载。此版本专为非技术用户或没时间手动安装所有依赖项的用户设计,还能获得优先支持。
手动安装
手动安装需要一定的技术技能,不适合初学者。具体步骤如下:
- 平台设置:安装 Python(推荐 3.11 版本)、pip、git、ffmpeg 以及 Windows 系统下的 Visual Studio 2022 Runtimes。
- 克隆仓库:使用
git clone https://github.com/hacksider/Deep-Live-Cam.git克隆仓库并进入目录。 - 下载模型:从指定链接下载 GFPGANv1.4 和 inswapper_128_fp16.onnx 模型文件,并放置在“models”文件夹中。
- 安装依赖:使用虚拟环境(venv)安装依赖,不同操作系统的安装命令有所不同。
- GPU 加速(可选):根据不同的 GPU 类型(NVIDIA、Apple Silicon 等),安装相应的 CUDA 或 CoreML 等执行提供程序以加速运行。
使用方法
图像/视频模式
- 执行
python run.py。 - 选择源面部图像和目标图像/视频。
- 点击“Start”,输出结果将保存在以目标视频命名的目录中。
网络摄像头模式
- 执行
python run.py。 - 选择源面部图像。
- 点击“Live”,等待 10 - 30 秒预览出现。
- 可使用 OBS 等屏幕捕获工具进行直播。若要更换面部,选择新的源图像即可。
命令行参数
虽然部分命令行参数已不再维护,但仍可使用一些参数进行更细致的设置,如选择源图像、目标图像/视频、输出路径等。使用 -s/--source 参数可使程序以 CLI 模式运行。
项目优势
- 操作简单:只需一张图片和简单的点击操作,即可实现实时换脸。
- 功能丰富:提供多种特色功能,满足不同用户的需求。
- 跨平台支持:支持 Windows、Linux 和 macOS 等多种操作系统,部分版本还支持不同的 GPU 加速。
应用场景
- 创意内容创作:艺术家可利用该软件制作动画、视频、表情包等创意内容。
- 直播和表演:主播可在直播中实时更换面部,增加直播的趣味性和互动性。
- 娱乐社交:在社交平台上分享有趣的换脸视频,给朋友带来惊喜。
炸裂!多模态AI Agent TARS登场,解锁人机任务新范式
UI-TARS-desktop 是一个支持多模态AI模型与智能体基础设施集成的开源桌面应用。简单讲,它是一个能让AI助手看懂图像、理解指令并执行任务的本地化智能代理平台。适用人群:AI开发者、智能体应用研究者及多模态技术爱好者。
项目地址:https://github.com/bytedance/UI-TARS-desktop
主要语言:TypeScript
stars: 23.1k

TARS是一个多模态AI Agent栈,目前包含两个项目:Agent TARS和UI-TARS Desktop。
Agent TARS
- 核心功能
- 一键即用的CLI:支持有界面的Web UI和无界面的服务器执行方式。
- 混合浏览器代理:可通过GUI Agent、DOM或混合策略控制浏览器。
- 事件流:由协议驱动的事件流推动上下文工程和代理UI的发展。
- MCP集成:内核基于MCP构建,支持挂载MCP服务器以连接现实世界的工具。
- 快速开始
- 使用
npx启动:npx @agent-tars/cli@latest - 全局安装(需要Node.js >= 22):
npm install @agent-tars/cli@latest -g - 使用偏好的模型提供商运行:
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-keyagent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
- 使用
- 文档资源
UI-TARS Desktop
- 核心功能
- 自然语言控制:由视觉语言模型提供支持,可通过自然语言控制。
- 截图和视觉识别:支持截图和视觉识别功能。
- 精确的鼠标和键盘控制:能实现精确的鼠标和键盘操作。
- 跨平台支持:支持Windows、MacOS和浏览器。
- 实时反馈和状态显示:可实时显示反馈和状态信息。
- 隐私安全:完全本地处理,保障隐私安全。
- 快速开始:可参考快速开始指南。
项目优势
- 多模态能力:将GUI代理和视觉能力引入终端、计算机、浏览器和产品,通过先进的多模态大语言模型和与现实世界工具的无缝集成,提供更接近人类的任务完成工作流程。
- 丰富的工具支持:Agent TARS支持多种模型提供商,UI-TARS Desktop提供本地和远程计算机以及浏览器操作功能。
- 持续更新:从更新日志可以看出,项目不断推出新功能和版本更新,如Agent TARS CLI v0.3.0带来了多工具流支持、运行时设置等功能,UI-TARS Desktop v0.2.0引入了远程计算机和浏览器操作功能。
应用场景
- 日常任务自动化:如预订机票、酒店,查询信息等。
- 开发工作辅助:在开发过程中,可用于自动化一些重复性的操作,如打开开发工具的特定功能、检查项目的问题等。
- 数据处理和分析:结合MCP工具,可进行数据处理和分析,如生成图表等。

浙公网安备 33010602011771号