AI-Compass AI应用模块:编程助手、音频TTS、图像视频创作等完整生态体系技术架构与实现方案

AI-Compass AI应用模块:编程助手、音频TTS、图像视频创作等完整生态体系技术架构与实现方案

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

  • 🧠 基础知识模块:涵盖AI导航工具、Prompt工程、LLM测评、语言模型、多模态模型等核心理论基础
  • ⚙️ 技术框架模块:包含Embedding模型、训练框架、推理部署、评估框架、RLHF等技术栈
  • 🚀 应用实践模块:聚焦RAG+workflow、Agent、GraphRAG、MCP+A2A等前沿应用架构
  • 🛠️ 产品与工具模块:整合AI应用、AI产品、竞赛资源等实战内容
  • 🏢 企业开源模块:汇集华为、腾讯、阿里、百度飞桨、Datawhale等企业级开源资源
  • 🌐 社区与平台模块:提供学习平台、技术文章、社区论坛等生态资源

📚 适用人群:

  • AI初学者:提供系统化的学习路径和基础知识体系,快速建立AI技术认知框架
  • 技术开发者:深度技术资源和工程实践指南,提升AI项目开发和部署能力
  • 产品经理:AI产品设计方法论和市场案例分析,掌握AI产品化策略
  • 研究人员:前沿技术趋势和学术资源,拓展AI应用研究边界
  • 企业团队:完整的AI技术选型和落地方案,加速企业AI转型进程
  • 求职者:全面的面试准备资源和项目实战经验,提升AI领域竞争力

AI应用模块汇聚了50+个细分领域的创新应用实践,构建了从AI编程到多媒体创作的完整应用生态体系。该模块系统性地展示了AI编程助手(Cursor、Codeium、GitHub Copilot、通义灵码、豆包MarsCode等10+主流平台)、AI音频TTS转换(ChatTTS、GPT-SoVITS、FunASR、SenseVoice等15+专业工具)、图像创作(Midjourney、即梦AI、快手Poify、阿里Pic Copilot等20+创意平台)、视频创作(可灵AI、腾讯智影、海螺视频、剪映等15+制作工具)等核心应用方向。

内容深入解析了AI-ETL数据处理(MinerU、PDF-Extract-Kit、字节Dolphin等智能解析工具)、AI-PPT制作(Slidev等自动化演示工具)、AI爬虫(Firecrawl、ScrapeGraphAI等智能采集框架)、ChatPDF文档问答(DocsGPT、ChatFiles等知识交互系统)等专业化应用场景的技术架构和实现方案。

模块还详细介绍了语音识别字幕生成、AI写作助手、智能办公自动化等实用工具的核心功能和使用技巧,以及开源项目的部署指南、API集成方法、性能优化策略等工程实践。此外,还提供了不同应用场景的技术选型建议、成本效益分析、用户体验优化等实用指导,以及最新技术趋势、行业应用案例、创新发展方向等前瞻性内容,帮助开发者快速构建高质量的AI应用产品,实现从创意到落地的完整开发流程。

目录

  1. 4.AI应用
  2. 1.AI 编程/0.Trae 字节跳动
  3. 1.AI 编程
  4. 1.AI 编程/2.Void-开源IDE-对标cursor
  5. 1.AI 编程/5.0Code
  6. 1.AI 编程/5.Cody
  7. 1.AI 编程/5.Devstral-开源AI代码模型
  8. 1.AI 编程/5.Seed-Coder
  9. 1.AI 编程/5.aider
  10. 1.AI 编程/5.cline
  11. 1.AI 编程/5.continue
  12. 1.AI写作
  13. 1.AI写作/91写作
  14. 1.AI音频TTS转换
  15. 1.AI音频TTS转换/1.ClearerVoice-Studio-魔塔-阿里
  16. 1.AI音频TTS转换/1.FunASR-魔塔
  17. 1.AI音频TTS转换/1.MinMax-Audio
  18. 1.AI音频TTS转换/1.字节MegeTTS
  19. 1.AI音频TTS转换/AudioGPT
  20. 1.AI音频TTS转换/ChatTTS
  21. 1.AI音频TTS转换/GPT-SoVITS
  22. 1.AI音频TTS转换/Mozilla TTS
  23. 1.AI音频TTS转换/SenseVoice-阿里
  24. 1.AI音频TTS转换/VITA-Audio
  25. 1.AI音频TTS转换/parler-tts
  26. 1.AI音频TTS转换/stable-audio-tools
  27. 1.图像创作
  28. 1.视频创作
  29. 1.视频创作/PreenCut-AI剪辑
  30. 1.视频创作/快手-LivePortrait表情姿态迁移
  31. 1.语音识别-生成字幕
  32. 2.AI-ETL/0.MinerU
  33. 2.AI-ETL/0.airbyte 数据集成平台
  34. 2.AI-ETL/0.omniparse
  35. 2.AI-ETL/0.unstructured
  36. 2.AI-ETL/1.PDF-Extract-Kit
  37. 2.AI-ETL/1.marker
  38. 2.AI-ETL/1.字节Dolphin
  39. 2.AI-ETL
  40. 2.AI-ETL/2.gptpdf
  41. 2.AI-ETL/2.open-parse
  42. 2.AI-ETL/2.zerox
  43. 2.AI-ETL/3.多模态抽取
  44. 2.AI-ETL/3.多模态抽取/OWL达摩院多模态信息抽取
  45. 2.AI-ETL/MonkeyOCR金山文档解析模型
  46. 2.AI-ETL/chatIE信息抽取
  47. 2.AI-PPT
  48. 2.AI-PPT/Slidev 开源AI PPT制作工具
  49. 2.AI爬虫/0.RSShub
  50. 2.AI爬虫/0.ScrapeGraphAI
  51. 2.AI爬虫/1.Firecrawl
  52. 2.chatexcel
  53. 2.chatpdf-doc
  54. 2.chatpdf-doc/ChatFiles
  55. 2.chatpdf-doc/DocsGPT
  56. 2.chatpdf-doc/图表生成

4.AI应用


1.AI 编程

涵盖了WildCard、Cursor、Bolt.new等多个网站,涉及AI工具、代码辅助、开发平台等相关领域。


0.Trae 字节跳动

简介

Trae是一款由字节跳动开发的AI原生集成开发环境(IDE)和LLM驱动的智能代理工具,旨在通过人工智能协助开发者提高软件工程效率。它深度融合了AI大模型能力,能够理解代码上下文,提供智能辅助编码、项目管理、问题排查等一站式开发体验,从而实现更快速的软件交付。

Snipaste_2025-07-19_15-28-04.png

Snipaste_2025-07-19_15-28-13.png

核心功能

  • AI辅助编码: 支持中文自然语言指令,一键生成完整代码框架、代码片段,自动编写项目级和跨文件代码,并能进行代码解释、注释生成和错误修复。
  • IDE基础功能: 提供代码编写、项目管理、扩展管理、版本控制等全面的集成开发环境功能。
  • 开发上下文理解: 深入理解代码仓库、在线搜索结果和共享文档中的开发上下文,使AI辅助更精准。
  • 智能任务执行: 作为LLM驱动的代理,能够根据开发者指令执行通用软件工程任务,如修复bug、添加单元测试、代码重构等。
  • 实时预览与调试: 支持前端效果的实时预览以及自动记录详细执行轨迹用于调试和分析。
  • AI行为定制: 允许用户定制规则,以精确调整AI的行为模式,使其符合特定工作流程需求。

技术原理

Trae的核心技术原理在于其AI原生架构和LLM(大型语言模型)驱动的智能代理能力。它深度集成了如Doubao-1.5-pro和DeepSeek等先进的AI大模型,通过这些模型对自然语言进行理解,并将其转化为代码生成、代码分析、bug修复等具体操作。

  • LLM驱动代理: 利用大语言模型的强大理解和生成能力,将用户的自然语言描述转化为可执行的软件工程任务,并驱动工具完成这些任务。
  • 上下文感知系统: 通过分析IDE内的代码库、项目结构,并结合外部搜索结果和文档,构建全面的开发上下文,从而提高AI辅助的准确性和相关性。
  • 自动化执行轨迹记录: 自动记录每次任务执行的详细过程,便于用户进行调试、分析和优化AI行为。
  • 可配置AI行为: 引入配置机制,允许用户通过JSON文件等方式定制AI的运行参数和行为逻辑,实现个性化工作流。

应用场景

  • 软件开发与编码: 开发者可以通过自然语言描述需求,让Trae自动生成代码框架、功能模块,提高编码效率。
  • 代码审查与优化: 利用AI辅助理解代码、生成注释,并发现潜在的bug或性能瓶颈,辅助代码重构和优化。
  • 项目快速启动: 快速生成项目基础结构和样板代码,加速新项目的初始化过程。
  • 问题排查与调试: 智能诊断代码问题,提供修复建议,并记录执行轨迹以帮助开发者定位和解决bug。
  • 单元测试生成: 自动化生成代码的单元测试,确保代码质量和功能正确性。
  • 知识管理与学习: AI助理可以解释代码、文档内容,帮助开发者快速理解不熟悉的代码库或技术。

2.Void-开源IDE-对标cursor

简介

Void是一款开源的AI代码编辑器,是Cursor的替代方案。它基于VS Code开发,允许用户使用各种AI工具编写代码,可连接任意大语言模型,还能一键转移主题、快捷键和设置,让用户对数据拥有完全控制权。

核心功能

  • AI辅助编程:支持通过按“Tab”键进行自动补全,可对选中内容进行快速内联编辑,具备聊天功能,包含Agent模式、Gather模式和普通聊天。
  • 多模型支持:能直接连接各种大语言模型,包括开源模型和前沿模型,无需通过私有后端传输消息。
  • 实用功能特性:具有LLM更改检查点、lint错误检测、原生工具使用、快速应用等功能。
  • 特定模式:Agent模式可对文件和文件夹进行搜索、创建、编辑、删除操作,还具备终端访问权限;Gather模式为受限版本,仅能读取和搜索。

技术原理

Void是VS Code仓库的一个分支,继承了VS Code的核心架构和功能基础。在AI功能方面,它通过直接对接各种大语言模型的API,实现AI辅助编程功能。在代码处理上,利用自身的编辑引擎结合模型的反馈,为用户提供代码补全、错误检测等功能。

应用场景

  • 软件开发:开发者在编写代码过程中,可利用其AI辅助功能提高编程效率,借助多模型支持选择最适合的模型完成代码任务。

  • 代码学习:初学者可以通过使用其聊天和自动补全功能,学习代码编写规范和逻辑,还能利用Agent模式进行代码的搜索和修改练习。

  • voideditor/void

  • Void


5.0Code

简介

OCode 是由 Ollama 模型驱动的终端原生 AI 编码助手,能提供深入的代码库智能分析和自主任务执行功能,可无缝集成到本地 Ollama 模型,为开发工作流提供企业级 AI 辅助。

核心功能

  • 代码相关:支持代码生成、修改、分析、审查、测试等,如多文件重构、TDD 脚手架搭建、代码优化、文档生成等。
  • 项目理解:进行架构分析、依赖跟踪、跨文件推理。
  • 开发自动化:涵盖 Git 工作流、测试执行、构建与 CI 集成。
  • 数据处理:实现 JSON/YAML 解析和查询、数据验证、格式转换。
  • 系统操作:包括进程监控、环境管理、网络连接测试。
  • 交互操作:支持自然语言查询、上下文探索、调试辅助。

技术原理

OCode 基于 Ollama 模型,通过直接与本地或远程 Ollama 集成,流式获取补全内容。其采用 Model Context Protocol (MCP) 实现可扩展插件层,支持第三方集成。具备先进的对话解析和多动作检测功能,能根据查询类型智能选择工具,优化上下文。

应用场景


5.Cody

简介

Cody 是一款开源的 AI 编码助手,支持 VS Code、JetBrains、Visual Studio 及网页端使用。它借助先进搜索从本地和远程代码库提取上下文,结合最新大语言模型(如 Claude Sonnet 4、GPT - 4o 等),帮助开发者更快地理解、编写和修复代码。

核心功能

  • 聊天:通过语义搜索从代码库检索文件,利用文件上下文回答关于代码库的问题,支持 @ 提及文件和添加远程仓库作为上下文。
  • 自动补全:在开发者输入代码时提供单行和多行建议。
  • 内联编辑:可在文件任意位置修复或重构代码。
  • 预设提示:有常见操作的快速、可定制提示,如“为代码添加文档”“解释代码”等。
  • 调试代码:能识别并修复代码中的错误,加速调试过程。
  • 上下文过滤:可在聊天和自动补全结果中忽略选定仓库。

技术原理

Cody 运用 Sourcegraph 强大的高级搜索 API 从本地和远程代码库提取上下文信息,包括 API、符号和使用模式等。它结合最新的大语言模型(如 Claude Sonnet 4、GPT - 4o 等),利用这些上下文信息进行语义搜索,以理解代码库并为开发者提供准确的回答和代码建议。

应用场景


5.Devstral-开源AI代码模型

简介

Devstral是Mistral AI与All Hands AI合作推出的用于软件工程任务的大语言模型,在SWE - Bench Verified基准测试中大幅超越所有开源模型,以Apache 2.0许可发布,具有轻量级可本地部署、适用于企业隐私敏感代码库等特点。

核心功能

  • 解决实际GitHub问题,处理软件工程中的复杂问题。
  • 实现代码代理功能,在代码代理框架上运行,与本地代码库交互解决问题。
  • 可用于本地部署、企业隐私敏感代码库开发以及作为代码开发IDE、插件或环境的模型选择。

技术原理

Devstral基于特定的代码代理框架(如OpenHands、SWE - Agent)进行训练,这些框架定义了模型与测试用例的接口。模型通过学习解决实际GitHub问题来提升处理软件工程任务的能力。

应用场景

  • 本地部署与设备端使用,在单张RTX 4090或32GB RAM的Mac上运行,配合编码平台与本地代码库交互。

  • 企业隐私敏感代码库的开发,满足严格的安全和合规要求。

  • 作为代码开发IDE、插件或环境的模型选择,辅助开发工作。

  • mistralai/Devstral-Small-2505 · Hugging Face

  • Devstral | Mistral AI


5.Seed-Coder

简介

Seed - Coder(原Doubao - Coder)是一系列轻量级且强大的开源代码大语言模型,包含8B大小的基础、指令和推理模型。它能让大语言模型自行整理代码训练数据,大幅提升编码能力,在多种编码任务中表现出色,是迈向开源大语言模型生态系统的重要一步。

核心功能

  • 代码数据筛选:主要利用大语言模型而非手工规则进行代码数据筛选,减少预训练数据构建中的人工工作量。
  • 多任务处理:可处理代码生成、代码补全、代码编辑、代码推理和软件工程等多种编码任务。
  • 多模型支持:提供Seed - Coder - 8B - Base、Seed - Coder - 8B - Instruct、Seed - Coder - 8B - Reasoning等多种模型,满足不同需求。

技术原理

基于大语言模型技术,通过模型自行整理代码训练数据,减少人工干预。采用指令调优使模型与用户意图对齐,使用强化学习提升推理能力,支持多GPU分布式服务以提高服务吞吐量。

应用场景


5.aider

简介

Aider是一款可在终端实现AI结对编程的工具,能与多种大语言模型(LLM)协作,编辑本地git仓库中的代码。它支持多种安装方式,适用于多种流行编程语言,在SWE Bench等基准测试中表现出色。

核心功能

  • 代码编辑:可根据用户需求对指定文件进行编辑,如添加新功能、修复bug、重构代码等。
  • 自动提交:自动对代码更改进行git提交,并生成合理的提交信息。
  • 多模型支持:能连接几乎任何LLM,尤其与Claude 3.5 Sonnet、DeepSeek V3、o1和GPT - 4o配合效果最佳。
  • 多文件编辑:可同时编辑多个文件以处理复杂请求。
  • 多交互方式:支持添加图片、URL到聊天,还能通过语音进行代码交互。

应用场景


5.cline

简介

Cline是一款能使用CLI和编辑器的AI助手,借助Claude 3.7 Sonnet的代理编码能力,可处理复杂软件开发任务。它支持多种API和模型,通过提供安全的人机交互GUI,在经用户许可后执行文件更改和终端命令,还能利用模型上下文协议扩展自身能力。

核心功能

  1. 文件处理:创建和编辑文件,监控并修复文件中的错误。
  2. 终端操作:在终端执行命令,监控命令输出并应对开发服务器问题。
  3. 网页开发辅助:在无头浏览器中进行网页操作,捕获截图和日志,修复运行时和视觉错误。
  4. 工具扩展:使用模型上下文协议创建和安装自定义工具。
  5. 上下文管理:通过特定指令添加文件、文件夹、URL等信息。
  6. 检查点功能:在任务执行中对工作区进行快照,支持对比和恢复。

技术原理

Cline基于Claude 3.7 Sonnet的代理编码能力,利用模型上下文协议(MCP)扩展功能。它通过分析文件结构和源代码抽象语法树(AST)、运行正则搜索、读取相关文件来获取项目信息,在处理信息时会谨慎管理上下文,避免超出上下文窗口限制。

应用场景

  1. 软件开发:协助进行代码编写、调试、修复漏洞等工作。
  2. 网页开发:处理网页运行时错误和视觉错误。
  3. 项目管理:利用自定义工具管理项目资源,如Jira票务、AWS EC2实例等。
  4. 测试工作:执行端到端测试,验证应用程序功能。

5.continue

简介

Continue 是一个开源的 AI 代码助手,旨在帮助开发者创建、共享和使用自定义的 AI 代码助手。它提供 IDE 扩展,并作为一个模型、规则、提示、文档及其他构建块的中心,让开发者能够完全控制和定制他们的 AI 辅助开发体验。

核心功能

  • 自定义 AI 代码助手: 允许用户连接各种模型和上下文,创建高度定制化的 AI 助手。
  • 代码自动补全: 提供内联的代码建议,提升编码效率。
  • 代码对话: 在侧边栏中进行代码理解和迭代的交互式聊天。
  • 代码编辑: 无需离开当前文件即可修改代码。
  • 代理能力: 具备代理功能,能够执行更复杂的代码操作。
  • IDE 集成: 提供 VS Code 和 JetBrains 等主流 IDE 的扩展。

技术原理

Continue 的核心技术原理在于其开放性和可扩展性。它作为一个开源平台,允许开发者集成不同的 AI 模型,并利用自定义的规则、提示和文档来训练和引导 AI 助手的行为。通过其提供的 IDE 扩展,Continue 能够深度集成到开发环境中,实时获取代码上下文,并利用连接的 AI 模型进行代码分析、建议生成、自动补全以及基于自然语言的交互。其模块化的设计使得用户可以根据特定需求配置不同的 AI 能力,实现高度定制化的开发工作流。

应用场景

  • 软件开发: 开发者可以利用 Continue 加速日常编码,获取智能代码建议和自动补全。
  • 代码理解与重构: 通过聊天功能,帮助开发者理解复杂代码逻辑,并辅助进行代码迭代和重构。
  • 定制化开发环境: 企业或团队可以基于 Continue 构建符合自身规范和业务需求的私有 AI 代码助手。
  • 教育与学习: 作为学习工具,帮助编程初学者理解代码,并获得实时编程辅助。
  • 开源贡献: 开发者可以为 Continue 生态系统贡献新的模型、规则或构建块,共同丰富平台功能。

办公小浣熊-商汤

简介

网页主要介绍了小浣熊家族的两款工具,代码小浣熊可用于编程相关操作,办公小浣熊则专注于数据分析和处理。通过使用办公小浣熊对 10000 条应届生就业数据进行分析,解答了关于就业的疑问,并为表妹制定了求职规划,同时还能将分析内容整理成文档。

核心功能

  • 代码小浣熊:支持 Python、Go、Javascript 等语言,可进行写代码、编注释、做重构、修 bug 等操作。
  • 办公小浣熊
    • 数据分析:检查数据质量,智能处理数据,分析各因素对就业的影响,生成可视化图表。
    • 任务规划:根据用户需求生成求职规划,包括强化能力方案、作品集模板、招聘信息整理、话术模板等。
    • 文档生成:起草大纲,生成分析文档,支持插入生成的内容。

应用场景

  • 编程领域:代码小浣熊可帮助程序员快速编写和修改代码。
  • 数据分析领域:办公小浣熊可用于分析各种类型的数据,如就业数据、市场数据等。
  • 求职规划:为应届生提供就业分析和可落地的求职路径规划。
  • 文档整理:将分析内容整理成结构清晰的文档。

商汤-官网

gen-cli

简介

Gen CLI是基于开源Gemini - CLI,依托硅基流动SiliconCloud平台API开发的命令行AI编程工具,为国内开发者提供类似Gemini - CLI的高效编程能力,可连接工具、理解代码并加速工作流。

核心功能

  1. 代码库操作:查找代码库中与Prompt相关内容,分析代码仓库功能和结构。
  2. 自动化开发:创建测试文件,实现持续修改 - 运行 - Debug循环。
  3. 任务处理:一键创建应用,处理日常任务如分析发票金额组合。
  4. 交互扩展:提供交互式命令行界面,支持多命令参数,扩展性良好。
  5. 跨语境操作:能在Gemini 1M token上下文窗口内外查询和编辑大代码库。
  6. 多模态生成:利用Gemini多模态能力从PDF或草图生成新应用。
  7. 任务自动化:自动化操作任务,如查询拉取请求、处理复杂变基。
  8. 工具连接:连接工具和MCP服务器,新增媒体生成等能力。
  9. 搜索辅助:借助内置Google Search工具优化查询。

技术原理

基于Gemini - CLI架构,保留其命令行解析、Prompt处理、文件操作等基本架构和功能逻辑;通过硅基流动SiliconCloud平台的API调用DeepSeek模型,利用其语言理解和生成能力执行用户命令和Prompt。

应用场景

  1. 开发者编程:自动生成代码和测试文件,简化开发流程。
  2. 项目分析:快速掌握代码库结构和功能细节。
  3. 日常任务:自动化创建应用、处理文件任务,减少重复工作。
  4. 文件处理:从多种文件格式提取数据,支持批量处理。
  5. 交互式任务:通过命令行输入描述生成代码或执行任务,支持自定义扩展。

gen-cli


1.AI写作

AI写作平台:适用于需要本地化、注重隐私、且希望获得从创意到文本优化全流程辅助的个人创作者、作家、学生及专业人士。内容创作者,如小说作者、自媒体运营者、学生、职场人士等,用于快速生成各类文章、文学作品、营销文案及报告等,提升创作效率。

Snipaste_2025-07-19_15-28-55.png

Snipaste_2025-07-19_15-28-35.png


91写作

简介

91写作是基于 Vue 3 + Element Plus 的专业 AI 小说创作平台,集成多种先进 AI 模型,提供从构思到成文的完整创作工具链,涵盖智能创作、世界观构建、作品管理等功能,支持多类型小说创作,让每个人都能轻松创作精彩小说。

核心功能

  • 智能创作引擎:支持主流 AI 模型,具备上下文感知续写、多模型切换和多样化创作算法。
  • 完整创作工具链:全流程支持创作,有专业编辑器、智能大纲生成、章节管理和实时写作统计。
  • 世界观构建:模板化管理复杂世界观,AI 辅助设定生成和一致性检查。
  • 作品管理:安全存储作品,有导入导出、数据统计和备份恢复功能。
  • 智能提示词库:提供分类模板,支持定制和统计,提升创作效率。
  • 写作目标:可设定目标并实时跟踪进度,有成就激励系统。

技术原理

前端采用 Vue 3.3.8 框架、Element Plus 2.4.2 组件库、Vue Router 4.2.5 路由管理和 Pinia 2.1.7 状态管理。借助 Vite 4.5.0 构建工具、TypeScript 开发,用 ESLint + Prettier 保证代码质量。集成 OpenAI GPT 系列、Anthropic Claude、Google Gemini 等 AI 服务,通过专业编辑器和解析器实现文本处理。

应用场景


1.AI音频TTS转换

简介

开源音频基础模型Kimi - Audio,以及Fish Audio计费、Bibigpt、Unmute.sh、Vocloner、Elevenlabs等相关音频技术或服务。

核心功能

  • Kimi - Audio可进行音频理解、生成及对话,在多类音频任务中表现出色。
  • 其他相关平台或服务可能具备音频处理、语音交互、音频生成等功能。

技术原理

  • Kimi - Audio:采用混合音频输入(连续声学向量 + 离散语义令牌),通过音频分词器、音频语言模型、音频去分词器处理音频,基于Transformer架构,预训练于大量音频和文本数据。
  • 其他相关技术原理文档未详细提及。

应用场景


1.ClearerVoice-Studio-魔塔-阿里

简介

ClearerVoice - Studio 是人工智能语音处理工具包,含语音增强、分离等功能及预训练模型;KAN - TTS 是语音合成训练框架,支持多语言文本转语音模型训练;ModelScope 平台展示了众多文本转语音模型,涵盖多种语言和不同技术架构。

核心功能

  • ClearerVoice - Studio:语音降噪、分离、目标说话人提取,提供预训练模型,支持模型微调与训练,具备语音质量评估功能。
  • KAN - TTS:从零开始训练文本转语音模型,支持多种语言。
  • ModelScope 文本转语音模型:将文本转换为语音,支持多语言,部分模型可进行推理演示。

技术原理

  • ClearerVoice - Studio:采用 FRCRN、MossFormer 等预训练模型,基于大量数据集训练,结合先进算法处理语音任务。
  • KAN - TTS:暂时支持 sam - bert 和 hifi - GAN 模型,通过训练脚本对模型进行训练和优化。
  • ModelScope 文本转语音模型:运用 ONNX、PyTorch、Safetensors 等技术框架,不同模型采用如 dual_ar、Transformers 等架构。

应用场景


1.FunASR-魔塔

简介

FunASR是一个基础语音识别工具包,旨在搭建语音识别学术研究与工业应用间的桥梁。它支持训练和微调工业级语音识别模型,提供语音识别、语音活动检测等多种功能,还开源大量预训练模型,方便研究者和开发者开展相关工作。

核心功能

  • 语音处理:包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型应用、说话人验证、说话人分割和多说话人语音识别。
  • 模型支持:支持预训练模型的推理和微调,提供大量学术和工业预训练模型。
  • 服务部署:支持多种服务部署,如文件转录服务(中文、英文,CPU和GPU版本)、实时转录服务(中文CPU版)。

技术原理

FunASR涉及多种语音处理技术,如非自回归端到端语音识别模型Paraformer-large,利用模型结构优势实现高精度、高效率和便捷部署;SenseVoice等模型具备多语音理解能力,通过在大量工业数据上训练学习语音特征。同时,借助动态批处理、多线程并发等技术优化性能。

应用场景


1.MinMax-Audio

简介

MiniMax Audio是一个先进的AI音频生成平台,专注于提供高质量的文本转语音(Text-to-Speech, TTS)和声音克隆解决方案。它旨在将文本转化为逼真、富有表现力的语音,并支持多语言和多种音色选择,为内容创作者、企业和开发者提供强大的音频内容生成能力。

核心功能

  • 文本转语音 (TTS):将文字内容即时转换为自然、逼真的人类语音,提供300多种声音选择,覆盖32种语言。
  • 声音克隆:能够高保真地复制现有声音,生成个性化的语音模型。
  • 情感表达控制:支持语音中融入情感,使输出更具表现力和感染力。
  • 多语言支持:支持多种语言的语音合成,满足全球化内容创作需求。
  • 高保真音频输出:优化语音输出质量,适用于专业级应用场景,如配音和有声读物。
  • 噪音消除:集成噪音抑制技术,提高音频清晰度。
  • 音乐生成:部分功能提及可生成原创高质量音乐。

技术原理

MiniMax Audio基于先进的人工智能技术,特别是深度学习模型,实现文本到音频的转换。其核心技术可能包括:

  • Text-to-Audio (T2A) 模型:将文本信息转化为声学特征和波形数据。
  • 语音合成技术:利用神经网络(如循环神经网络或Transformer)学习人类语音的复杂模式,生成自然流畅的语音。
  • 声学建模:通过大量的语音数据训练模型,使其能够精确模拟人类发音的音高、语速、音色和情感。
  • 声音克隆算法:通过少量目标语音样本,提取关键声学特征,并利用迁移学习等技术合成出高度相似的新语音。
  • 情感识别与合成:分析文本情感,并将其映射到语音的韵律、音调和语速上,以实现情感表达。

应用场景

  • 内容创作:用于有声读物、播客、视频旁白、动漫配音、教育课程和多媒体内容的语音生成。
  • 企业服务:应用于客户服务(如IVR语音导航)、营销宣传、产品介绍、企业培训材料的语音化。
  • 智能助理与对话系统:为虚拟助手、智能客服和人机交互界面提供自然语音输出。
  • 无障碍辅助:将文本内容转换为语音,帮助视障人士获取信息。
  • 游戏与娱乐:为游戏角色配音,生成游戏内音效或旁白。
  • 开发者集成:通过API接口将MiniMax Audio功能集成到各类应用程序和平台中。

1.字节MegeTTS

简介

MegaTTS3 是由字节跳动与浙江大学合作推出的零样本文本到语音(TTS)合成系统。它是一款轻量、高效且开源的工具,旨在提供高质量的语音生成能力,尤其擅长语音克隆和多语言(中文、英文及中英混合)语音合成。

核心功能

  • 零样本语音合成: 无需特定目标语音数据即可生成高质量语音。
  • 多语言支持: 支持中文、英文以及中英混合语音的合成。
  • 超高音质语音克隆: 仅需几秒钟的音频样本即可模仿目标声音,实现高保真语音复刻。
  • 高效性能: 采用轻量级模型设计,参数量仅0.45B,实现高效的语音生成。

技术原理

MegaTTS3 采用先进的轻量级扩散模型作为核心生成架构。其关键技术包括:

  • 稀疏对齐增强的潜在扩散变压器(Sparse Alignment Enhanced Latent Diffusion Transformer): 用于零样本语音合成,能够有效处理语音的对齐问题。
  • WavVAE 架构: 主要基于 Wavtokenizer,这是一种高效的声学离散编解码器,用于音频语言建模。
  • 语音属性解耦建模: 系统将语音分解为内容(content)、音色(timbre)和韵律(prosody)等独立属性进行建模,从而实现对语音生成更精细的控制和组合,提升合成质量和灵活性。

应用场景

  • 个性化语音助手与客服系统: 创建具有独特音色或模仿用户声音的智能语音交互体验。
  • 有声读物与播客制作: 批量生成高质量、多语种的有声内容。
  • 虚拟形象与元宇宙: 为虚拟角色赋予逼真且可定制的语音。
  • 影视配音与本地化: 快速实现多语种的配音,并保持音色一致性。
  • 辅助无障碍交流: 为有发声障碍的人士提供个性化的合成语音。

AudioGPT

简介

AudioGPT项目开源了实现代码和预训练模型,具备理解和生成语音、音乐、声音及会说话头像的能力,支持多种音频处理任务,部分任务还在开发完善中。

核心功能

  • 语音处理:包括文本转语音、风格迁移、语音识别、增强、分离、翻译、单声道转立体声等。
  • 歌唱合成:支持文本转歌唱。
  • 音频生成与处理:可实现文本转音频、音频修复、图像转音频、声音检测、目标声音检测和声音提取等。
  • 会说话头像合成:进行会说话头像的合成。

技术原理

项目基于多种基础模型实现不同功能,如在语音处理上使用FastSpeech、SyntaSpeech等;歌唱合成采用DiffSinger、VISinger;音频生成与处理依靠Make - An - Audio等,通过这些模型的能力来完成相应任务。

应用场景


ChatTTS

简介

ChatTTS是用于日常对话的生成式语音模型,专为对话场景(如大语言模型助手)设计,支持中英文。Awesome - ChatTTS是官方推荐的ChatTTS资源汇总项目,包含快速体验、热门分支、入门教程等社区资源。

核心功能

  • 语音合成:将文本转换为自然、富有表现力的语音,支持多说话人。
  • 细粒度控制:可预测和控制笑声、停顿、感叹词等细粒度韵律特征。
  • 功能扩展:部分热门分支项目提供API接口、流式输出、人声增强、背景降噪、文件批量处理等功能。

技术原理

文档未详细提及技术原理,但提到借鉴了bark、XTTSv2和valle的自回归式系统,使用fish - speech的GVQ作为音频分词器,vocos作为预训练声码器。

应用场景


GPT-SoVITS

简介

GPT-SoVITS是一个创新的文本转语音(TTS)和语音克隆项目,旨在通过极少量(如1分钟)的语音数据训练出高质量的TTS模型,甚至支持零样本(Zero-Shot)和少样本(Few-Shot)语音克隆。它支持多语言推理,包括中文、英文、日文等,并提供友好的WebUI界面,简化了模型训练和推理过程。

核心功能

  • 少样本语音克隆与TTS: 仅需5秒语音样本即可实现高相似度的语音克隆,1分钟语音数据即可训练出接近真人的高质量TTS模型。
  • 多语言支持: 支持中文、英文、日文、韩文、粤语等多种语言的语音合成和克隆。
  • 集成WebUI工具: 提供语音伴奏分离、训练集自动切分、中文ASR(自动语音识别)和文本标注等辅助工具,便于用户制作训练数据集和进行模型推理。
  • 快速推理: 针对推理场景进行了优化,提供快速推理分支以提高效率。

技术原理

GPT-SoVITS结合了GPT模型和SoVITS模型。其核心技术原理包括:

  • GPT-based text-to-semantic modeling: 利用GPT模型进行文本到语义的建模,捕捉文本的语言学和语义信息,为语音合成提供高级特征。
  • SoVITS模型: 可能是基于VITS(Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Synthesis)的改进,用于将语义特征转化为高质量的声学特征,实现语音合成。
  • 少样本学习(Few-Shot Learning): 通过预训练模型和高效的适应机制,使其能够仅凭少量目标语音数据快速学习并生成具有目标音色特征的语音。
  • 跨语言推理: 通过多语言数据训练,使模型具备对不同语言进行语音合成和克隆的能力。

应用场景

  • 内容创作: 为播客、有声读物、视频旁白、动画配音等提供定制化或多样化的语音。
  • 个性化语音助手: 开发具有特定人物音色的智能语音助手或聊天机器人。
  • 虚拟数字人: 为虚拟主播、虚拟偶像等提供高度真实的语音交互能力。
  • 无障碍辅助: 为视障人士或有阅读障碍的用户提供自然流畅的文本朗读服务。
  • 游戏开发: 为游戏角色快速生成多种语音台词。
  • 语言学习: 提供不同发音人的语音材料,辅助语言学习者进行听力或发音练习。

Mozilla TTS

简介

mozilla/TTS 是一个用于高级文本到语音生成的库,基于最新研究构建,旨在在训练简易性、速度和质量之间取得最佳平衡。它具有高性能的深度学习模型,涵盖文本到频谱图、说话人编码器、声码器等多种模型,支持多语言,提供了训练、测试、推理等相关工具和资源。https://discourse.mozilla.org/c/tts 是关于TTS的讨论论坛,用于用户提问、交流使用经验、提出功能请求和进行一般讨论等。

核心功能

  • 提供多种文本到语音生成的深度学习模型,包括文本到频谱图模型、说话人编码器、声码器等。
  • 支持多语言,已在20多种语言中用于产品和研究项目。
  • 具备训练、测试、推理等功能,提供训练脚本、数据集分析工具、模型转换工具等。
  • 提供演示服务器用于模型测试,有Jupyter笔记本用于模型评估、参数选择和数据分析。
  • 拥有专门的论坛用于用户交流和问题讨论。

技术原理

  • 基于深度学习技术,采用多种先进的模型架构,如Tacotron、Tacotron2、Glow-TTS、SpeedySpeech等文本到频谱图模型,以及GE2E、Angular Loss等说话人编码器模型,还有MelGAN、MultiBandMelGAN、ParallelWaveGAN、GAN-TTS、WaveGrad、WaveRNN等声码器模型。
  • 通过高效的模型训练算法,实现快速且有效的模型训练,并在训练过程中记录详细日志用于分析和调优。
  • 利用模块化的代码结构,便于新想法的测试和实现。

应用场景


SenseVoice-阿里

简介

SenseVoice是一个具有多种语音理解能力的语音基础模型,涵盖自动语音识别、语言识别、语音情感识别和音频事件检测等功能。它在多语言语音识别、情感识别和事件检测方面表现出色,具有高效推理、方便微调等特点,并提供了服务部署管道。

核心功能

  • 支持多语言语音识别,准确率高,超过Whisper模型。
  • 具备优秀的语音情感识别能力。
  • 可进行音频事件检测,如检测多种常见人机交互事件。
  • 采用非自回归端到端框架,推理延迟极低。
  • 提供方便的微调脚本和策略。
  • 支持多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随等功能。

技术原理

SenseVoice模型的训练使用了大量数据,采用了先进的深度学习技术,如神经网络架构和优化算法,以实现高精度的语音识别、情感识别和事件检测。其非自回归端到端框架有助于降低推理延迟。

应用场景


VITA-Audio

简介

VITA-Audio是一个由VITA-MLLM团队开发的开源大型语音语言模型(Speech-Language Model)项目,专注于实现高效的音频生成和处理。它旨在提供一个端到端的语音模型,能够快速生成音频,显著提高推理速度,并致力于通过社区合作不断优化和更新。

核心功能

  • 端到端语音生成: 能够进行完整的语音生成过程。
  • 快速初始音频令牌生成: 大幅缩短首个音频令牌块的生成时间,从236毫秒减少到仅53毫秒。
  • 高效推理: 在7B参数规模下,实现3-5倍的推理速度提升。
  • 音频处理解决方案: 提供音频的录制、处理、分析和转换等功能。

技术原理

VITA-Audio的核心技术在于其提出的“快速交错跨模态令牌生成”(Fast Interleaved Cross-Modal Token Generation)机制。通过利用一组预填充(prefill)令牌(例如32个),VITA-Audio能够在初始前向传播(initial forward pass)过程中快速生成音频,从而显著减少了生成首个音频块的延迟。这种方法优化了大型语音语言模型的效率,通过并行处理或优化令牌生成顺序,实现了低延迟和高吞缩量的音频输出。

应用场景

  • 实时语音合成(TTS): 用于需要极低延迟的语音合成应用,如实时对话AI、虚拟助手。
  • 智能语音交互系统: 提升语音识别与合成系统的响应速度和用户体验。
  • 沉浸式媒体内容创作: 加速音频内容的生成,提高效率。
  • 辅助沟通工具: 为有语音障碍的用户提供更流畅、自然的语音输出。

parler-tts

简介

Parler-TTS 是 Hugging Face 开发的一款轻量级文本转语音(TTS)模型,能够生成高质量、自然听感,并具备特定说话者风格(如性别、音高、语调等)的语音。ComfyUI_ParlerTTS 则是基于 Parler-TTS 的一个 ComfyUI 定制节点,旨在简化 Parler-TTS 在 ComfyUI 平台上的部署和使用,提供便捷的图形化界面进行语音合成操作。

核心功能

  • 高质量语音合成: 能够生成高保真度、听感自然的语音。
  • 风格迁移与控制: 支持根据给定说话者的风格(性别、音高、语调等)生成语音,实现个性化语音输出。
  • 轻量级设计: 作为一款轻量级模型,方便部署和使用。
  • ComfyUI 集成: 通过 ComfyUI_ParlerTTS 节点,提供友好的图形界面操作,支持模型加载、文本输入和语音生成,并支持使用 Hugging Face Hub 或本地路径加载模型检查点。

技术原理

Parler-TTS 模型是基于 Dan Lyth 和 Simon King 提出的“Natural language guidance of high-fidelity text-to-speech with synthetic annotations”研究工作的复现。其核心技术原理在于利用自然语言指导高保真文本转语音,并结合合成标注(synthetic annotations)来训练模型。这使得模型能够理解并复现说话者的特定属性,如情感、语调和音色,从而生成高度个性化的语音。具体实现上,它是一个端到端的神经网络模型,通过训练学习文本到声学特征再到波形的映射。

应用场景

  • 个性化语音助手: 为智能助手提供具有特定音色和语调的个性化语音。
  • 有声读物与播客制作: 快速生成具有不同角色或风格的旁白和对话。
  • 多媒体内容创作: 用于视频配音、游戏角色语音、广告宣传等场景,实现定制化语音。
  • 无障碍辅助: 为视障人士提供更自然、易于理解的文本朗读服务。
  • ComfyUI 工作流集成: 作为 ComfyUI 平台的一部分,与其他节点结合,构建复杂的AI生成艺术或多媒体处理流程。

MOSS-TTSD

简介

MOSS-TTSD(Text to Spoken Dialogue)是一个开源的双语语音对话生成模型,由OpenMOSS团队开发,旨在将文本对话脚本转换为自然、富有表现力的对话语音。它支持中文和英文,能够生成高质量的会话语音,准确模拟对话中的韵律和语调特征。

核心功能

  • 双语对话语音合成: 支持中文和英文的文本到语音对话生成。
  • 零样本多说话人语音克隆: 能够在无需预先训练的情况下克隆多个说话人的声音。
  • 语音事件控制: 提供对语音事件(如停顿、语调)的控制能力。
  • 长篇语音生成: 支持单次会话生成长达960秒的语音内容。
  • 自然表现力: 生成的语音自然、富有表现力,准确捕捉对话的韵律和语调。

技术原理

MOSS-TTSD基于Qwen3-1.7B-base模型,采用离散语音序列建模方法。该模型通过大规模数据进行训练,其中包括约一百万小时的单说话人语音数据和四十万小时的对话语音数据。这种训练方法使其能够直接从多说话人对话文本输入生成高品质的对话语音,并精细地建模对话中的特征。

应用场景

  • AI播客制作: 生成自然流畅的对话式AI播客内容。
  • 智能客服与对话系统: 为客服机器人和智能助手提供更自然、富有表现力的语音交互体验。
  • 多媒体内容创作: 用于电影、动画、有声读物等需要多角色对话配音的场景。
  • 虚拟人与数字人: 赋予虚拟角色逼真的语音对话能力。
  • 教育与娱乐: 制作语言学习材料、游戏内角色语音等。

项目官网

github仓库

huggingface模型

huggingface在线体验

stable-audio-tools

核心功能

  • Stable Audio Tools代码库提供音频生成模型的训练和推理功能,包括基本的Gradio接口测试模型,支持多种模型类型训练、微调,以及模型权重处理等。
  • Stable Audio Open Small模型可用于设备端音频控制的实际部署。

技术原理

基于PyTorch 2.5或更高版本,利用Flash Attention和Flex Attention支持,采用JSON配置文件定义模型超参数、训练设置和数据集信息。通过PyTorch Lightning实现多GPU和多节点训练,训练过程中模型会被包装在“训练包装器”中,训练完成后可通过unwrap_model.py脚本解包模型。

应用场景


ThinkSound

简介

ThinkSound是一种利用思维链推理实现视频音频生成与编辑的框架,通过三个互补阶段生成和编辑音频,还引入了带结构化推理注释的数据集,在视频到音频生成任务中表现出色。

核心功能

  • 基于思维链推理进行逐步、交互式音频生成与编辑。
  • 分三个阶段:基础拟音生成、交互式以对象为中心的细化、自然语言指令引导的定向编辑。

技术原理

  • 利用多模态大语言模型生成上下文对齐的思维链推理,指导统一音频基础模型。
  • 文本编码策略上,思维链推理提高音频保真度,整合CLIP对比特征与T5上下文推理提升性能。
  • 多模态集成机制方面,视频和音频特征按元素相加及门控融合效果较好。

应用场景

  • 为视频生成模型提供配音。
  • 交互式逐步拟音创作,如专注于特定声音元素的提取、修复和编辑。

ThinkSound-github
ThinkSound-官网
ThinkSound-Hugging Face

1.图像创作

众多AI相关工具,包括虚拟试衣、产品图像生成、创意设计、电商辅助等多种类型的AI工具平台,展示了AI技术在时尚、设计、电商等领域的广泛应用。

简介

百度绘想(Huixiang)是一个由百度商业研发团队推出的AI视频创作平台,旨在通过人工智能技术简化视频制作流程,降低创作门槛。该平台与自研的视频生成模型MuseSteamer协同工作,使用户仅需上传一张图片即可生成专业级视频内容,极大地激发了内容创作的多样性和创意空间。

核心功能

  • 图像生成视频: 用户上传单张图片即可快速生成专业质量的视频内容。
  • AI工具套件: 提供一套AI工具,旨在全面优化和转换视频创作过程。
  • 简化制作流程: 显著减少传统视频制作所需的时间和复杂性。

技术原理

绘想平台的核心技术基于“生成式AI(Generative AI)”与“多模态技术(Multimodal Technology)”的融合。其中,自研的视频生成模型MuseSteamer是实现从单一图像到视频转换的关键。这意味着平台能够理解和处理不同形式的数据(如图像和潜在的文本描述),并生成连贯、高质量的视频输出。

应用场景

  • 内容创作者: 帮助视频内容创作者突破传统制作瓶颈,快速生成视频,提升创作效率和产出量。
  • 企业营销: 适用于企业快速制作产品介绍、广告宣传、社交媒体短视频等。
  • 个人用户: 便于普通用户轻松制作个人视频内容,如生活记录、社交分享等。
  • 多媒体制作行业: 满足对原生内容生产的强烈需求,推动行业内的AI应用。

1.视频创作

涵盖了众多与AI商业平台、视频、音乐等相关的网站,包括AI创作平台、视频编辑与创作工具网站、音乐平台等,涉及多种功能和领域。


PreenCut-AI剪辑

简介

PreenCut是一个基于AI的视频检索与剪辑工具,可对视频进行内容分析,支持添加自定义分析提示,能在分析表中查看结果,还提供了Restful api用于上传文件、创建任务和查询任务结果等操作,项目采用MIT许可。

核心功能

  • 对视频内容进行分析,支持自定义分析提示。
  • 可在分析表中查看视频的开始/结束时间戳、持续时间、内容摘要、AI生成的标签等结果。
  • 提供“Re - analyze”标签用于尝试不同提示,“Cut”标签用于选择视频片段并选择导出模式。
  • 具备Restful api,包含上传文件、创建任务、查询任务结果等接口。

技术原理

利用语音识别技术(如WhisperX等)将视频中的语音转换为文本,结合自然语言处理技术对文本进行分析处理,从而实现对视频内容的理解、提取关键信息、生成标签等功能。通过调整相关参数(如WHISPER_BATCH_SIZE)来优化处理性能,针对不同硬件环境(如CPU、GPU)选择合适的模型大小以提高处理效率。

应用场景


快手-LivePortrait表情姿态迁移

简介

  • 介绍了开源项目LivePortrait,它是一个可控人像视频生成框架,能将驱动视频的表情、姿态迁移到人像视频上。其对应的论文题目为《LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control》,一经开源便获广泛关注,在GitHub上收获大量Stars等。还阐述了其技术方法、训练阶段、实验对比及应用拓展等内容。

核心功能

  • 可准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

技术原理

  • 探索基于隐式关键点框架,采用视频 - 图片混合训练策略,升级网络结构,设计更好的动作建模和优化方式。将隐式关键点看成面部混合变形的隐式表示,提出贴合和重定向模块。模型训练分两阶段,第一阶段为基础模型训练,改进基于隐式点的框架,包括数据收集、混合训练、网络结构升级等;第二阶段为贴合和重定向模块训练,设计相关模块并计算损失函数进行优化。

应用场景


1.语音识别-生成字幕

简介

涉及语音识别、视频字幕处理等多个领域。包括OpenAI的Whisper语音识别模型及其相关变体,还有基于大语言模型的视频字幕处理工具VideoCaptioner等,展示了语音技术在不同场景下的应用与发展。

核心功能

  • 语音识别:如OpenAI的Whisper是通用语音识别模型,支持多语言、多任务,有不同模型尺寸可选;还有基于Whisper的Const-me/Whisper实现高性能GPGPU推理,xenova/whisper-web能在浏览器中运行实现ML-powered语音识别,以及阿里云的智能语音交互提供语音识别服务,支持多语种、多产品形态。
  • 视频字幕处理:VideoCaptioner是基于大语言模型的视频字幕处理助手,支持语音识别、字幕断句、优化、翻译全流程处理;WhisperX提供快速自动语音识别,带有word-level时间戳和说话人识别功能。

技术原理

  • 语音识别:以Whisper为例,它是基于Transformer架构的序列到序列模型,在多种语音处理任务上进行训练,将不同任务表示为序列的token由解码器预测,通过特殊token实现多任务训练。
  • 视频字幕处理:VideoCaptioner利用大语言模型在理解上下文方面的优势,对语音识别生成的字幕进一步处理,修正错别字、统一专业术语等;WhisperX通过wav2vec2进行强制对齐来实现准确的word-level时间戳,利用pyannote-audio进行说话人识别。

应用场景


2.AI-ETL


0.MinerU

简介

MinerU是一个一站式、开源、高质量的数据提取工具,支持PDF、网页、多格式电子书提取。它具有多种功能,可处理多种文档格式,在不同平台上运行,并不断更新改进。

核心功能

  • 文档格式转换:能将PDF、网页、多格式电子书等转换为Markdown格式。
  • 内容提取:可去除页眉、页脚、脚注、页码等元素,提取图像、表格、公式等内容,并自动识别转换公式为LaTeX格式、表格为HTML格式。
  • 多语言支持:支持84种语言的检测与识别。
  • 多种运行模式:支持纯CPU环境运行,也支持GPU(CUDA)/NPU(CANN)/MPS加速,有命令行和API调用方式。

技术原理

  • 基于多种技术:运用PDF-Extract-Kit等工具包,集成如DocLayout-YOLO、UniMERNet等模型,实现文档内容的精准提取与格式转换。
  • 模型自动管理:具备模型自动下载与更新机制,方便用户使用最新模型。

应用场景


0.airbyte 数据集成平台

简介

Airbyte是一个数据集成平台,用于构建ETL/ELT数据管道,可将数据从各种来源传输到不同目的地,有开源和云托管两种模式,提供300多个连接器,还介绍了其入门指南、社区参与方式、贡献途径及安全相关信息。

核心功能

  • 提供大量连接器,涵盖多种数据来源与目的地,实现数据集成。
  • 支持通过无代码连接器构建器或低代码CDK快速创建连接器。
  • 可与多种工具(如Airflow、Prefect等)协同编排数据同步。

技术原理

利用自身开发的框架及相关技术,结合不同编程语言(如Python、Kotlin、Java等)编写连接器代码,实现对各种数据源和目的地的适配与数据传输逻辑。通过构建数据管道,依据配置对数据进行抽取、转换和加载操作。

应用场景


0.omniparse

简介

OmniParse是一个将任何非结构化数据摄入并解析为结构化、可操作数据的平台,适用于GenAI(LLM)应用。它支持约20种文件类型,具有完全本地化、可轻松部署等特点。

核心功能

  • 支持多种文件类型的解析,包括文档、多媒体和网页等。
  • 可将各类数据转换为高质量结构化markdown。
  • 具备表格提取、图像提取/字幕、音频/视频转录、网页爬取等功能。

技术原理

通过深度学习模型,如Surya OCR系列模型、Florence-2、Whisper Small等,对不同类型的数据进行处理和解析。利用这些模型的能力来实现各种数据处理任务,如文档内容提取、多媒体信息转换等。

应用场景


0.unstructured

简介

unstructured库提供用于摄取和预处理图像及文本文档的开源组件,围绕简化和优化LLMs数据处理工作流程,其模块化功能和连接器形成连贯系统,简化数据摄取和预处理。还介绍了安装方式、使用示例、文档及相关注意事项等内容。

核心功能

提供开源组件处理非结构化数据,包括图像和多种文本文档,可简化LLMs数据处理工作流程,具备模块化功能和连接器以适应不同平台并高效转化非结构化数据为结构化输出,提供多种使用方式如容器运行、安装库等。

技术原理

利用多种开源技术,如针对不同文档类型的处理依赖相应的工具包(如处理PDF需poppler-utils等),通过检测文件类型并路由到特定的文件分区函数来实现数据处理,如使用partition函数根据文件类型调用对应处理逻辑。

应用场景

适用于各种涉及非结构化数据处理的场景,如LLMs数据预处理、文档分析(包括PDF、HTML、Word等文档)、图像分析等领域的数据摄取与预处理工作。


1.PDF-Extract-Kit

简介

PDF-Extract-Kit是用于从复杂多样的PDF文档中高效提取高质量内容的开源工具包,集成多种文档解析模型,具有模块化设计等特点,还提供了评估基准,介绍了模型、使用方法及待办事项等内容。

核心功能

能从PDF文档中进行布局检测、公式检测、公式识别、OCR、表格识别等,还可通过运行演示代码实现各模型的具体功能。

技术原理

集成了如DocLayout-YOLO_ft、YOLO-v10_ft等多种先进模型用于不同任务,通过对多样文档注释数据进行微调,使其能在各种复杂文档类型上表现良好。

应用场景

适用于需要对PDF文档进行内容提取的场景,如开发者构建文档翻译、问答、辅助等应用,也可用于学术研究中对PDF文档内容的处理分析。


1.marker

简介

Marker是一个能将文档快速准确地转换为markdown、JSON、块和HTML的工具,支持多种文件格式,可处理表格、公式等,还能进行图像提取、去除页眉页脚等操作,有多种输出格式和配置选项,在速度和准确性上有优势,且可通过API使用。

核心功能

  • 支持PDF、图像、PPTX、DOCX等多种文件格式转换。
  • 能格式化表格、公式、内联数学、链接等。
  • 可提取和保存图像,去除页眉页脚等。
  • 支持通过JSON模式进行结构化提取。
  • 可借助LLMs提升准确性。
  • 提供交互式应用和命令行工具进行文件转换。

技术原理

  • 利用深度学习模型组成管道,包括文本提取(必要时OCR)、页面布局检测、块清理与格式化,可选择使用LLM提升质量,最后合并块并对完整文本后处理。
  • 各环节按需使用模型,提高速度和准确性。

应用场景


1.字节Dolphin

简介

Dolphin是一种通过异构锚点提示进行文档图像解析的模型,它采用分析然后解析的范式,先进行页面级布局分析,再进行元素级内容解析,在多个基准测试中取得了领先性能。

核心功能

  • 页面级布局分析:通过Swin Transformer对页面图像编码,利用mBart解码器和布局分析提示生成布局元素序列。
  • 元素级内容解析:以布局元素为锚点,并行裁剪并编码元素图像,利用特定类型提示并行解析不同元素的内容。

技术原理

  1. 页面级布局分析:利用Swin Transformer作为视觉编码器,对页面图像进行编码,输出视觉嵌入序列;通过mBart解码器和布局分析提示,生成结构化布局序列。
  2. 元素级内容解析:对布局元素对应的图像区域进行裁剪和编码,生成元素特定的视觉特征;利用特定类型提示,并行解析不同元素的内容。

应用场景


2.gptpdf

简介

  • gptpdf 仓库利用GPT将PDF解析为markdown,方法简单且能较好解析多种内容,还介绍了处理流程、安装使用方式及相关API等。

核心功能

  • 运用视觉大语言模型(如GPT - 4o)把PDF文件解析成markdown文件,并返回解析后的markdown内容与所有图片路径列表。

技术原理

  • 借助PyMuPDF库解析PDF找出非文本区域并标记,再通过大型视觉模型(如GPT - 4o)进行解析得到markdown文件。

应用场景


2.open-parse

简介

Open Parse是一个用于文档解析的项目,旨在为LLM提供更好的文件解析功能。它能通过视觉识别文档布局并有效分块,与其他解析器不同,具有文本分割、支持Markdown、高精度表格支持等特点,还提供了示例代码和安装说明。

核心功能

  • 提供灵活易用的库,能视觉识别文档布局并有效分块。
  • 支持文本分割、Markdown解析、高精度表格提取。
  • 可轻松实现自定义后处理步骤。

技术原理

利用先进的视觉分析技术识别文档布局,通过文本分割、语义嵌入等方式对文档进行处理。使用pdfminer.six处理PDF,PyMuPDF进行表格检测等,还可借助深度学习模型如unitable进行表格解析。

应用场景


2.zerox

简介

zeroX是一个用于OCR(光学字符识别)和文档提取的项目,它提供了一种简单的方法来将文档转换为AI可处理的格式。其核心功能是通过调用视觉模型,将各种格式的文件(如PDF、DOCX、图像等)转换为Markdown格式的文本。该项目具有跨平台、多模型支持的特点,在文档处理和AI数据准备方面具有重要应用价值。

核心功能

  • 支持多种文件格式,包括PDF、DOCX、图像等。
  • 能够将文件转换为一系列图像,并对每个图像进行OCR处理。
  • 调用GPT等模型,将图像转换为Markdown格式的文本。
  • 支持数据提取,可根据特定模式从文档中提取结构化数据。

技术原理

  • 采用graphicsmagickghostscript(Node端)或poppler(Python端)将PDF文件转换为图像。
  • 利用OCR技术识别图像中的文字。
  • 调用GPT等模型,根据图像内容生成Markdown文本。
  • 支持通过配置文件或参数设置来调整转换过程中的各种参数,如模型选择、页面处理选项等。

应用场景

  • 文档处理:将扫描文档、电子文档转换为可编辑的文本格式,便于后续的文本分析和处理。

  • 数据提取:从文档中提取特定的信息,如表格数据、发票信息等,用于数据整理和分析。

  • AI数据准备:为AI模型提供经过处理的文本数据,用于训练和优化模型。

  • getomni-ai/zerox: Zero shot pdf OCR with gpt-4o-mini


3.多模态抽取

简介

GOT-OCR2.0是一个开源项目,旨在通过统一的端到端模型实现OCR 2.0。它提供了代码、权重和基准测试,并支持多种功能,如训练、微调、评估和演示。

核心功能

  • 提供多种OCR功能,包括普通文本OCR、格式文本OCR、细粒度OCR和多裁剪OCR。
  • 支持模型训练和微调,可使用不同的数据集和策略。
  • 提供评估工具,用于评估模型在特定基准上的性能。
  • 具备演示功能,可展示OCR结果的渲染。

技术原理

该项目基于深度学习技术,使用统一的端到端模型来处理OCR任务。具体实现细节可能涉及到模型架构、损失函数、优化算法等方面的选择和调整。

应用场景

  • 文档处理:对各种文档中的文字进行识别和提取。

  • 图像识别:从图像中识别文字信息。

  • 信息检索:帮助快速定位和提取图像中的文字信息,用于信息检索系统。

  • 自动化流程:在自动化办公流程中,实现文字的自动识别和处理。

  • GOT-OCR-2.0


OWL达摩院多模态信息抽取

简介

mPLUG-Owl系列和mPLUG-DocOwl是X-PLUG团队开发的两个强大的多模态大型语言模型系列。mPLUG-Owl旨在赋予大型语言模型多模态能力,尤其擅长处理长图像序列理解,是一个通用的多模态大模型家族。mPLUG-DocOwl则专注于文档理解领域,是一个模块化的多模态大型语言模型,特别强调无OCR的文档理解能力。

核心功能

  • mPLUG-Owl: 模块化赋能LLM多模态能力,实现对单一图像、多图像及视频的理解,并突破性地解决了长视觉序列的理解难题,能处理更长的视觉输入。
  • mPLUG-DocOwl: 专注于文档理解,提供无OCR的文档视觉问答、信息视觉问答、图表问答和文本视觉问答等功能,能够统一学习文档结构,高效地从各类文档中提取和理解信息。

技术原理

  • mPLUG-Owl: 采用模块化设计,将多模态能力注入大型语言模型。mPLUG-Owl3引入了“Hyper Attention”机制,显著提升了长视觉序列理解的速度和处理长度,并利用闪存注意力(flash attention)提高训练效率。
  • mPLUG-DocOwl: 基于模块化多模态大型语言模型架构,核心技术在于其“统一结构学习”(Unified Structure Learning)方法,实现了无需传统OCR即可进行高效的文档理解。通过大规模文档数据集(如DocStruct4M、DocDownstream-1.0、DocReason25K)进行训练。

应用场景

  • mPLUG-Owl: 广泛应用于通用多模态人工智能领域,包括图像理解、视频内容分析、视觉问答、多图像场景推理等,特别适用于需要理解复杂视觉上下文或长视频序列的场景。
  • mPLUG-DocOwl: 主要应用于各类文档处理场景,如智能文档审查、合同分析、发票识别、报告解读、表格数据提取、图表信息问答等,尤其适用于需要精确理解文档内容而不需要依赖传统OCR技术的场景。

MonkeyOCR金山文档解析模型

简介

MonkeyOCR是一个文档解析项目,采用结构-识别-关系(SRR)三元组范式,简化了模块化方法的多工具管道,避免了使用大型多模态模型进行全页文档处理的低效率。该项目介绍了其方法、性能、使用方法等内容,还展示了在文档解析任务上的优势,如在中英文文档处理上优于其他模型,多页文档解析速度快等。

核心功能

  • 采用SRR三元组范式进行文档解析。
  • 支持中英文文档解析。
  • 提供多种运行方式,如命令行、Gradio演示、FastAPI服务等。
  • 可输出处理后的Markdown文件、布局结果文件和中间块结果文件。

技术原理

MonkeyOCR采用结构-识别-关系(SRR)三元组范式,通过简化多工具管道并避免使用大型多模态模型进行全页文档处理的低效率,实现高效的文档解析。该范式可能涉及对文档结构的分析、内容的识别以及各部分之间关系的预测,从而完成文档的解析任务。

应用场景


chatIE信息抽取

简介

ChatIE是一个通过与ChatGPT聊天实现零样本信息抽取的开源工具,可自动从原始句子中提取结构化信息并进行深入分析,支持实体关系联合抽取、命名实体识别、事件抽取等功能。

核心功能

  • 支持RE(实体关系联合抽取)、NER(命名实体识别)、EE(事件抽取)。
  • 能自动从原始句子中提取结构化信息并做深入分析。

技术原理

将零样本IE任务转变为两阶段框架的多轮问答问题,借助ChatGPT的强大功能,通过特定的提示方式来实现信息抽取。

应用场景

  • 从文本中提取如实体关系三元组、命名实体、事件等结构化信息。

  • 辅助企业利用有价值的结构化信息做出精准且能提升业务的决策。

  • ChatIE

  • ChatIE: 信息抽取


2.AI-PPT


Slidev 开源AI PPT制作工具

简介

Slidev是一款为开发者打造的演示文稿工具,具有多种特性和丰富功能,提供了在线体验、项目初始化等方式,并配有中英双语等多种语言的文档。

核心功能

  • 提供基于 Markdown 的演示文稿创作体验,具备代码高亮、实时编码、主题切换、互动元素嵌入、演示者模式、绘图、LaTeX 支持、图表创建、图标使用、集成编辑器、录制、多种格式导出等功能。

技术原理

  • 基于 Vite 实现快速加载,以 Vue 3 驱动 Markdown 内容,借助 UnoCSS 实现按需样式处理,运用 Shiki 和 Monaco Editor 提供代码片段支持与实时编码能力,通过 RecordRTC 实现录制和摄像头视图功能,集成了众多如 VueUse 家族、Iconify、Drauu、KaTeX、Mermaid 等工具来增强各方面特性。

应用场景

flashdocs-AI 文稿

简介

FlashDocs 是一款利用人工智能技术,旨在自动化和简化Microsoft PowerPoint和Google Slides演示文稿创建过程的工具。它通过AI赋能,将耗时数小时的幻灯片制作流程缩短至数秒,帮助用户快速生成专业、定制化的演示内容,从而提高工作效率。

核心功能

  • AI辅助幻灯片生成: 根据简单指令或内容,快速生成完整的演示文稿。
  • 多平台兼容: 无缝集成并支持Microsoft PowerPoint和Google Slides。
  • API接口: 提供易于使用的API,实现演示文稿的程序化生成和自动化。
  • 自定义品牌与样式: 允许用户保留现有品牌风格、布局和幻灯片主题。
  • 内容动态填充: 支持文本、图片、表格、图表等内容的动态填充,实现内容的自动化更新。
  • 工作流自动化: 自动化市场推广、销售演示、季度业务回顾等多种业务演示场景。

技术原理

FlashDocs 的核心技术原理在于将传统演示文稿(如PowerPoint或Google Slides)转化为程序化的“FlashDocs文档”。此文档内含可动态填充的占位符(placeholders),这些占位符涵盖了文本、图像、图表等各类内容元素。当需要创建新的演示文稿时,系统通过其AI引擎,根据用户提供的指令(如prompt、每页指令、Markdown或键值对映射),自动识别并填充这些占位符,生成带有新鲜、相关内容的幻灯片。其API接口使得这一过程可被外部系统调用,实现演示文稿的自动化和批量生成,同时确保原始品牌风格和设计布局的完整性。

应用场景

  • 销售与市场: 快速生成销售推介、市场活动演示、产品介绍等幻灯片,以适应市场变化和客户需求。
  • 企业内部沟通: 自动化制作季度业务回顾(QBRs)、内部培训材料、项目报告等。
  • 教育与培训: 教师和培训师快速制作课程材料、教学演示文稿。
  • 金融服务: 自动化生成财务报告、投资分析、客户演示等。
  • 技术与研发: 简化技术方案演示、研究成果汇报等。
  • 内容创作自动化: 为市场营销团队自动化生成受众特定的品牌传播和外联内容。

flashdocs

2.AI爬虫

0.RSShub

简介

DIYgod的RSSHub,包含其文档说明,还有关于知乎热榜的具体内容。同时展示了cooderl的wewe - rss项目,这是一种更优雅的微信公众号订阅方式,支持多种功能及部署方式。

核心功能

  • RSSHub可提供多种信息源的订阅功能,通过特定路由获取如知乎热榜等内容。wewe - rss能实现微信公众号的优雅订阅,支持获取历史文章、自动定时更新、生成多种格式的RSS,具备标题过滤、手动更新等高级功能,还支持私有化部署。

技术原理

  • RSSHub可能基于网络爬虫技术,通过解析网页结构和协议,按照设定的规则从各类网站提取信息并整理成RSS格式。wewe - rss基于微信读书接口获取公众号信息,利用相关编程语言如TypeScript进行开发,通过框架(如Nestjs等)构建后端服务,借助数据库(如MySQL、SQLite)存储数据,实现各项功能。

应用场景


0.ScrapeGraphAI

简介

ScrapeGraphAI是一个基于Python的网络爬虫库,它利用大语言模型(LLM)和直接图逻辑,为网站和本地文档(如XML、HTML、JSON、Markdown等)创建爬虫管道,可根据用户提示提取信息。

核心功能

  • 提供多种标准爬虫管道,如SmartScraperGraph可从单页提取信息,还有适用于多页、生成Python脚本或音频文件的管道。
  • 支持与多种流行框架和工具无缝集成,涵盖Python、Node.js、LLM框架、无代码平台等。
  • 可使用不同的LLM,包括通过API调用OpenAI、Groq、Azure和Gemini等,也可使用本地模型Ollama。

技术原理

利用LLM和直接图逻辑,通过配置不同的参数,如选择不同的LLM模型及其相关参数,结合特定的图结构来创建爬虫管道,以实现对网页或本地文档信息的提取。

应用场景


1.Firecrawl

简介

Firecrawl是一款可将网站内容转换为LLM就绪格式数据的API服务,具有多种强大功能,支持多语言SDK,提供免费和付费计划,有开源和托管版本。

核心功能

  • 从网站抓取数据并转化为LLM可用格式,如markdown、结构化数据、截图、HTML等。
  • 具备爬取、映射、搜索、提取等功能,可处理动态内容。
  • 支持多语言SDK,方便集成到不同项目。

技术原理

利用先进的网络爬虫技术,结合动态内容处理、代理管理、反bot机制等,实现高效稳定的数据抓取。通过与多种工具和框架集成,方便用户调用和定制。

应用场景


1.## 1.fireplexity-AI爬虫+问答

简介

  • 主要围绕Fireplexity展开,涉及GitHub项目仓库、工具网站及相关博客文章。介绍了Fireplexity是由Firecrawl网络抓取API驱动的快速AI搜索引擎,具备实时网络搜索、AI响应、来源引用、实时股票数据、智能跟进等功能,还说明了其技术栈、快速开始步骤、部署方式及相关资源等。

核心功能

  • Fireplexity是一个由Firecrawl网络抓取API驱动的AI搜索引擎,可提供智能答案,具有实时网络搜索、AI响应、来源引用、实时股票数据、智能跟进等功能。

技术原理

  • 基于Firecrawl的网络抓取API实现实时网络搜索,利用OpenAI的GPT-4o-mini生成AI响应,借助Vercel AI SDK进行流处理,通过TradingView获取股票图表数据等,共同构建了Fireplexity的功能体系。

应用场景

  • 可用于获取各种实时信息和智能答案,如实时网络资讯、股票数据等场景,为用户提供快速准确的信息检索与分析服务。

  • fireplexity-github

  • demo

  • 官网

易采集/EasySpider

简介

EasySpider(易采集)是一款可视化、无代码/低代码的网络爬虫及浏览器自动化测试软件。它旨在帮助用户无需编写代码,通过图形化界面即可设计和执行网页数据采集和浏览器自动化任务。该软件完全免费,支持个人及商业使用,并允许二次开发,其相关技术已被Web Conference (WWW) 2023接受并发表论文。

核心功能

  • 可视化任务设计: 用户通过直观的图形界面,在网页上直接选择目标内容并根据提示进行操作,即可完成爬虫任务的设计。
  • 无代码数据采集: 实现零代码或少量代码进行网页数据抓取,支持复杂网页结构的解析和数据提取。
  • 浏览器自动化测试: 提供浏览器自动化功能,可用于模拟用户行为进行测试,如点击、输入、页面导航等。
  • 跨平台兼容性: 具备跨平台特性,能够适应不同的Web资源和操作系统环境。
  • 高级配置与扩展: 支持高级配置以处理复杂任务,并提供扩展能力。

技术原理

EasySpider的核心技术原理在于构建了一个无代码的可视化系统来实现网页抓取和浏览器自动化。它通过以下方式实现:

  • 图形化用户界面 (GUI) 驱动: 抽象了底层的网页操作和数据解析逻辑,用户通过拖拽、点击等图形化操作来定义工作流程和数据提取规则。
  • 基于浏览器自动化框架: 推测其内部可能集成了如Selenium、Puppeteer等浏览器自动化工具,通过模拟真实浏览器行为(如加载页面、点击元素、填写表单等)来绕过常见的反爬机制,并获取动态加载的内容。
  • DOM解析与XPath/CSS选择器: 在用户选择目标元素时,系统自动或辅助生成对应的XPath或CSS选择器,用于精准定位和提取网页结构化数据。
  • 任务编排与流程控制: 提供流程图式的任务编排功能,支持循环、条件判断、异常处理等逻辑,实现复杂的数据采集工作流。

应用场景

  • 市场调研与竞品分析: 自动收集电商平台、新闻网站等的数据,用于价格监测、产品趋势分析等。
  • 科研数据收集: 从学术网站、专利数据库等批量获取文献信息、研究数据。
  • 内容聚合与个性化推荐: 定期抓取特定主题内容,构建个人内容库或为推荐系统提供数据源。
  • 自动化测试与质量保障: 用于对Web应用进行功能测试、回归测试,模拟用户行为验证系统稳定性。
  • 企业数据化运营: 辅助企业进行内部系统数据迁移、报告自动化生成等。
  • 教学与入门: 作为学习网络爬虫和浏览器自动化的低门槛工具,帮助初学者快速上手。

2.chatexcel

简介

ChatExcel,可通过聊天AI处理Excel和数据分析,提供多种功能;向表答AI,能实现数据采集、分析及可视化等自动化处理。

核心功能

  • ChatExcel:支持聊天处理Excel与数据分析,含格式转换、函数替代、数据可视化等。
  • 表答AI:通过自然语言驱动网页采集和表格数据分析,可用于电商选品、民宿运营等。

技术原理

  • ChatExcel:利用先进的自然语言处理技术理解用户需求,结合专业的表格处理算法实现各项功能。
  • 表答AI:借助自然语言处理、机器学习算法等,自动解析目标并生成可视化图表与洞见。

应用场景

shortcut

简介

Shortcut 是一款超人级别的AI Excel代理工具,旨在通过人工智能技术提升用户在Microsoft Excel中的数据处理、分析和操作效率。

核心功能

  • 智能数据处理与分析:利用AI能力,实现Excel数据的自动化清洗、整理、转换和分析。
  • 复杂公式生成与优化:根据用户自然语言指令,智能生成或优化Excel中的复杂函数和公式。
  • 任务自动化:自动化执行重复性高、耗时的Excel操作,提高工作效率。
  • 洞察提取:从大量数据中快速识别模式、趋势和关键信息,辅助决策。

技术原理

Shortcut 的核心技术原理可能基于大语言模型(LLM)机器学习(ML)算法。LLM用于理解用户的自然语言指令,将其转化为Excel可执行的操作或公式;机器学习技术则可能用于数据模式识别、预测分析和智能推荐。此外,它应通过API集成宏编程等方式与Microsoft Excel深度交互,实现对工作簿、工作表、单元格数据的读取、写入和操作。

应用场景

  • 财务分析与建模:快速构建财务报表、预算模型、进行成本效益分析等。
  • 市场数据分析:处理销售数据、客户信息、市场趋势等,生成报告和洞察。
  • 商业智能与报告:辅助企业用户从Excel数据中提取商业价值,生成各类业务报告。
  • 学术研究与数据整理:帮助研究人员高效处理实验数据,进行统计分析。
  • 个人效率提升:适用于任何需要频繁处理Excel数据,寻求提高效率的个人或团队。

2.chatpdf-doc


ChatFiles

简介

ChatFiles是一个基于LangchainJS构建的项目,与Chatbot-ui相关。它允许用户上传文件并与之进行对话,具备与GPT-3.5聊天以及通过Supabase向量数据库与文件聊天的功能。

核心功能

  • 支持用户上传文件并进行对话。
  • 可与GPT-3.5进行聊天交互。
  • 借助Supabase向量数据库实现与文件的聊天功能。

技术原理

基于LangchainJS构建,利用Supabase向量数据库来处理与文件相关的交互,实现对上传文件的理解和基于文件内容的对话。

应用场景


DocsGPT

简介

DocsGPT是一个开源的生成式人工智能工具,能帮助用户从任何知识源获取可靠答案,避免幻觉,具备多种强大功能特性及明确的路线图,还为公司提供生产支持,介绍了快速启动方式、贡献方式及项目架构等内容。

核心功能

  • 支持多种格式文件读取,可从多种来源整合数据。
  • 提供可靠无幻觉答案并显示来源引用。
  • 简化API密钥管理,具备可操作工具及预建集成。
  • 能与多种大语言模型及本地模型灵活部署,运行安全可扩展。

技术原理

暂未提及明确技术原理相关内容。

应用场景


图表生成

简介

  • VChart:VisActor可视化体系中的图表组件库,基于VGrammar和VRender封装,具有一码多端、面向叙事、场景沉淀等核心能力,仓库包含多个相关包及文档示例代码。
  • VMind:基于大模型的图表智能组件,具备对话式图表智能生成与编辑能力,特点是易于使用、性能极致、表现力强、安全合规,还给出了开发指南、使用说明等内容。

核心功能

  • VChart:提供多端适配的图表展示功能,支持多种图表类型,可通过简单配置生成图表,并具备增强的叙事可视化创作能力。
  • VMind:通过自然语言交互创建和编辑图表叙事作品,支持多种大模型,具备图表智能生成、数据聚合、智能洞察等功能。

技术原理

  • VChart:基于可视化语法库VGrammar进行图表逻辑封装,基于可视化渲染引擎VRender进行组件封装,实现多端适配和丰富的图表功能。
  • VMind:利用大模型提供自然语言交互接口,通过对用户输入的理解和处理,调用相应的模型和算法实现图表智能生成、数据聚合及智能洞察等功能。

应用场景


🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

posted @ 2025-07-20 22:10  汀、人工智能  阅读(25)  评论(0)    收藏  举报