【GitHub每日速递 20260116】一键实现实时换脸!Deep - Live - Cam让你在视频中秒变任何人

image

原文: https://mp.weixin.qq.com/s/UPuP5R6E9-sHK2yCdJxnIg

一键实现实时换脸!Deep - Live - Cam让你在视频中秒变任何人

Deep-Live-Cam 是一个实现实时换脸和单张图片一键生成视频深度伪造的工具。简单讲,它能让你用一张照片快速替换视频中的人脸并实时播放。适用人群:AI技术爱好者、数字内容创作者及研究人员。

项目地址:https://github.com/hacksider/Deep-Live-Cam

主要语言:Python

stars: 77.4k

image

项目简介

Deep-Live-Cam 2.0.1c 是一款开源的实时换脸和视频深度伪造软件,只需一张图片,点击几下即可实现实时换脸效果。该软件旨在成为 AI 生成媒体行业的高效工具,可辅助艺术家进行角色动画制作、内容创作,甚至用于服装设计。

核心功能

  • 实时换脸:通过简单的三步操作(选择面部、选择相机、点击“Live”)即可实现实时换脸。
  • 多种特色功能
    • Mouth Mask:保留原始嘴巴以实现更准确的动作。
    • Face Mapping:可同时在多个对象上使用不同的面部进行换脸。
    • Your Movie, Your Face:能让用户在观看电影时实时替换影片中人物的面部。
    • Live Show:支持进行实时表演和直播。
    • Memes:帮助用户创建热门的表情包。
    • Omegle:可在 Omegle 等平台上给他人带来惊喜。

安装方式

快速启动版(Pre-built)

适用于拥有离散 NVIDIA 或 AMD GPU 或 Mac Silicon 的用户,可从 这里 下载。此版本专为非技术用户或没时间手动安装所有依赖项的用户设计,还能获得优先支持。

手动安装

手动安装需要一定的技术技能,不适合初学者。具体步骤如下:

  1. 平台设置:安装 Python(推荐 3.11 版本)、pip、git、ffmpeg 以及 Windows 系统下的 Visual Studio 2022 Runtimes。
  2. 克隆仓库:使用 git clone https://github.com/hacksider/Deep-Live-Cam.git 克隆仓库并进入目录。
  3. 下载模型:从指定链接下载 GFPGANv1.4 和 inswapper_128_fp16.onnx 模型文件,并放置在“models”文件夹中。
  4. 安装依赖:使用虚拟环境(venv)安装依赖,不同操作系统的安装命令有所不同。
  5. GPU 加速(可选):根据不同的 GPU 类型(NVIDIA、Apple Silicon 等),安装相应的 CUDA 或 CoreML 等执行提供程序以加速运行。

使用方法

图像/视频模式

  • 执行 python run.py
  • 选择源面部图像和目标图像/视频。
  • 点击“Start”,输出结果将保存在以目标视频命名的目录中。

网络摄像头模式

  • 执行 python run.py
  • 选择源面部图像。
  • 点击“Live”,等待 10 - 30 秒预览出现。
  • 可使用 OBS 等屏幕捕获工具进行直播。若要更换面部,选择新的源图像即可。

命令行参数

虽然部分命令行参数已不再维护,但仍可使用一些参数进行更细致的设置,如选择源图像、目标图像/视频、输出路径等。使用 -s/--source 参数可使程序以 CLI 模式运行。

项目优势

  • 操作简单:只需一张图片和简单的点击操作,即可实现实时换脸。
  • 功能丰富:提供多种特色功能,满足不同用户的需求。
  • 跨平台支持:支持 Windows、Linux 和 macOS 等多种操作系统,部分版本还支持不同的 GPU 加速。

应用场景

  • 创意内容创作:艺术家可利用该软件制作动画、视频、表情包等创意内容。
  • 直播和表演:主播可在直播中实时更换面部,增加直播的趣味性和互动性。
  • 娱乐社交:在社交平台上分享有趣的换脸视频,给朋友带来惊喜。

炸裂!多模态AI Agent TARS登场,解锁人机任务新范式

UI-TARS-desktop 是一个支持多模态AI模型与智能体基础设施集成的开源桌面应用。简单讲,它是一个能让AI助手看懂图像、理解指令并执行任务的本地化智能代理平台。适用人群:AI开发者、智能体应用研究者及多模态技术爱好者。

项目地址:https://github.com/bytedance/UI-TARS-desktop

主要语言:TypeScript

stars: 23.1k

image

TARS是一个多模态AI Agent栈,目前包含两个项目:Agent TARS和UI-TARS Desktop。

Agent TARS

  • 核心功能
    • 一键即用的CLI:支持有界面的Web UI和无界面的服务器执行方式。
    • 混合浏览器代理:可通过GUI Agent、DOM或混合策略控制浏览器。
    • 事件流:由协议驱动的事件流推动上下文工程和代理UI的发展。
    • MCP集成:内核基于MCP构建,支持挂载MCP服务器以连接现实世界的工具。
  • 快速开始
    • 使用npx启动:npx @agent-tars/cli@latest
    • 全局安装(需要Node.js >= 22):npm install @agent-tars/cli@latest -g
    • 使用偏好的模型提供商运行:
      • agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
      • agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
  • 文档资源
    • 中央枢纽官网,是进入Agent TARS生态系统的门户。
    • 快速开始指南,助你在5分钟内入门。
    • 最新动态博客,了解前沿特性和愿景。
    • 开发者专区文档,掌握每个命令和特性。
    • 展示案例示例,查看官方和社区构建的用例。
    • 参考资料API参考,完整的技术参考。

UI-TARS Desktop

  • 核心功能
    • 自然语言控制:由视觉语言模型提供支持,可通过自然语言控制。
    • 截图和视觉识别:支持截图和视觉识别功能。
    • 精确的鼠标和键盘控制:能实现精确的鼠标和键盘操作。
    • 跨平台支持:支持Windows、MacOS和浏览器。
    • 实时反馈和状态显示:可实时显示反馈和状态信息。
    • 隐私安全:完全本地处理,保障隐私安全。
  • 快速开始:可参考快速开始指南。

项目优势

  • 多模态能力:将GUI代理和视觉能力引入终端、计算机、浏览器和产品,通过先进的多模态大语言模型和与现实世界工具的无缝集成,提供更接近人类的任务完成工作流程。
  • 丰富的工具支持:Agent TARS支持多种模型提供商,UI-TARS Desktop提供本地和远程计算机以及浏览器操作功能。
  • 持续更新:从更新日志可以看出,项目不断推出新功能和版本更新,如Agent TARS CLI v0.3.0带来了多工具流支持、运行时设置等功能,UI-TARS Desktop v0.2.0引入了远程计算机和浏览器操作功能。

应用场景

  • 日常任务自动化:如预订机票、酒店,查询信息等。
  • 开发工作辅助:在开发过程中,可用于自动化一些重复性的操作,如打开开发工具的特定功能、检查项目的问题等。
  • 数据处理和分析:结合MCP工具,可进行数据处理和分析,如生成图表等。
posted @ 2026-01-16 08:29  piggy侠  阅读(0)  评论(0)    收藏  举报