详细介绍:破解语音转文字的难题,尽在Handy!
Handy: 一款免费的开源离线语音转文本应用
Handy是一款跨平台的桌面应用,专为隐私设计的简单语音转录工具,完全承受离线操作。您只需按下快捷键,开始讲话,您的话就会出现在任何文本框中,所有处理都在您的计算机内部搞定,无需将语音发送至云端,完美解决了隐私困难。
为什么选择Handy?
填补市面上缺乏真正开源、可扩展语音转文本设备的空白,具体优势包括:就是Handy的目标
- 免费:无论贫富,每个人都应该能够采用辅助工具,而非被高昂的付费墙所限制。
- 开源:与大家一起发展,您可以为自己扩展Handy,并为更大的社区做贡献。
- 私密:您的声音保持在您的计算机上,笔记转录过程无需将音频上传至云端。
- 简单:一款应用专注于一项任务,转录您所说的并直接放入文本框中。
Handy并不打算成为最佳的语音转文本应用,而是希望成为最易于扩展的工具。
使用方法
操作流程
- 按下可配置的快捷键以开始/停止录音(或应用语音按键模式)。
- 说出您的话,直到快捷键松开。
- 放开快捷键,Handy会使用Whisper处理您的语音。
- 获取转录的文本,直接粘贴到您使用的任何应用中。
所有过程均在本地完毕:
- 使用VAD(语音活动检测)来过滤静音。
- 使用您选择的模型进行转录:
- Whisper模型(小型/中型/涡轮/大型),如可用则启用GPU加速。
- Parakeet V3- CPU优化模型,性能优越,自动检测语言。
- 支持Windows、macOS和Linux系统。
快速开始
安装步骤
开发设置
有关详细的构建说明,包括平台特定需求,请查看BUILD.md。
体系结构
Handy作为Tauri应用程序构建,结合了:
- 前端:使用React + TypeScript和Tailwind CSS用于设置UI。
- 后端:Rust用于系统集成、音频处理和机器学习推理。
- 核心库:
whisper-rs:使用Whisper模型进行本地语音识别。transcription-rs:使用Parakeet模型的CPU优化语音识别。cpal:跨平台音频输入输出。vad-rs:语音活动检测。rdev:全局快捷键和系统事件。rubato:音频重采样。
调试模式
Handy包含高级调试模式,用于研发和故障排除。通过以下方式访问:
- macOS:
Cmd+Shift+D - Windows/Linux:
Ctrl+Shift+D
已知问题与当前限制
该工程仍在积极开发中,并存在一些已知问题。我们相信保持透明是极其重要的:
平台支持
- macOS(Intel和Apple Silicon均承受)
- x64 Windows
- x64 Linux
系统要求/推荐配备
以下是运行Handy的推荐配置。如果您的计算机不符合系统要求,应用程序的性能可能会受到影响。我们正在努力改善各类计算机和硬件的性能。
Whisper模型:
- macOS:M系列Mac,Intel Mac
- Windows:Intel、AMD或NVIDIA GPU
- Linux:Intel、AMD或NVIDIA GPU
- Ubuntu 22.04、24.04
Parakeet V3模型:
- 仅CPU运行- 适用于多种硬件。
- 最低要求:Intel Skylake(第6代)或同等AMD处理器。
- 性能:在中档硬件(如i5)上可实现~5倍实时速度。
- 自动语言检测- 无需手动选择语言。
相关项目
- Handy CLI- 最初的Python命令行版本。
- handy.computer- 项目官网,给予演示和文档。
总结
Handy是一款专注于本地语音转文本的优秀应用,兼具开源和可扩展性,旨在为用户献出一个高效而私密的工具。有助于满足各种离线语音识别需求,不仅适用于个人运用,也为开发者供应了极大的自定义空间。探索与Handy同类的优秀项目,例如Handy CLI,进一步扩展您的语音转文本体验。

浙公网安备 33010602011771号