详细介绍:破解语音转文字的难题,尽在Handy!

Handy: 一款免费的开源离线语音转文本应用

Handy是一款跨平台的桌面应用,专为隐私设计的简单语音转录工具,完全承受离线操作。您只需按下快捷键,开始讲话,您的话就会出现在任何文本框中,所有处理都在您的计算机内部搞定,无需将语音发送至云端,完美解决了隐私困难。

为什么选择Handy?

填补市面上缺乏真正开源、可扩展语音转文本设备的空白,具体优势包括:就是Handy的目标

  • 免费:无论贫富,每个人都应该能够采用辅助工具,而非被高昂的付费墙所限制。
  • 开源:与大家一起发展,您可以为自己扩展Handy,并为更大的社区做贡献。
  • 私密:您的声音保持在您的计算机上,笔记转录过程无需将音频上传至云端。
  • 简单:一款应用专注于一项任务,转录您所说的并直接放入文本框中。

Handy并不打算成为最佳的语音转文本应用,而是希望成为最易于扩展的工具。

使用方法

操作流程
  1. 按下可配置的快捷键以开始/停止录音(或应用语音按键模式)。
  2. 说出您的话,直到快捷键松开。
  3. 放开快捷键,Handy会使用Whisper处理您的语音。
  4. 获取转录的文本,直接粘贴到您使用的任何应用中。

所有过程均在本地完毕:

  • 使用VAD(语音活动检测)来过滤静音。
  • 使用您选择的模型进行转录:
    • Whisper模型(小型/中型/涡轮/大型),如可用则启用GPU加速。
    • Parakeet V3- CPU优化模型,性能优越,自动检测语言。
  • 支持Windows、macOS和Linux系统。

快速开始

安装步骤
  1. 发布页面官方网站下载最新版本。
  2. 按照特定平台的说明安装应用程序。
  3. 启动Handy并授予必要的系统权限(麦克风、辅助功能)。
  4. 在设置中配置您喜欢的快捷键。
  5. 开始转录!

开发设置

有关详细的构建说明,包括平台特定需求,请查看BUILD.md

体系结构

Handy作为Tauri应用程序构建,结合了:

  • 前端:使用React + TypeScript和Tailwind CSS用于设置UI。
  • 后端:Rust用于系统集成、音频处理和机器学习推理。
  • 核心库
    • whisper-rs:使用Whisper模型进行本地语音识别。
    • transcription-rs:使用Parakeet模型的CPU优化语音识别。
    • cpal:跨平台音频输入输出。
    • vad-rs:语音活动检测。
    • rdev:全局快捷键和系统事件。
    • rubato:音频重采样。

调试模式

Handy包含高级调试模式,用于研发和故障排除。通过以下方式访问:

  • macOSCmd+Shift+D
  • Windows/LinuxCtrl+Shift+D

已知问题与当前限制

该工程仍在积极开发中,并存在一些已知问题。我们相信保持透明是极其重要的:

平台支持
  • macOS(Intel和Apple Silicon均承受)
  • x64 Windows
  • x64 Linux
系统要求/推荐配备

以下是运行Handy的推荐配置。如果您的计算机不符合系统要求,应用程序的性能可能会受到影响。我们正在努力改善各类计算机和硬件的性能。

Whisper模型:

  • macOS:M系列Mac,Intel Mac
  • Windows:Intel、AMD或NVIDIA GPU
  • Linux:Intel、AMD或NVIDIA GPU
    • Ubuntu 22.04、24.04

Parakeet V3模型:

  • 仅CPU运行- 适用于多种硬件。
  • 最低要求:Intel Skylake(第6代)或同等AMD处理器。
  • 性能:在中档硬件(如i5)上可实现~5倍实时速度。
  • 自动语言检测- 无需手动选择语言。

相关项目

总结

Handy是一款专注于本地语音转文本的优秀应用,兼具开源和可扩展性,旨在为用户献出一个高效而私密的工具。有助于满足各种离线语音识别需求,不仅适用于个人运用,也为开发者供应了极大的自定义空间。探索与Handy同类的优秀项目,例如Handy CLI,进一步扩展您的语音转文本体验。

posted @ 2025-11-26 12:00  yangykaifa  阅读(61)  评论(0)    收藏  举报