[置顶] 基于 A2A 协议的 LlamaIndex 文件聊天工作流

摘要: 基于 A2A 协议的 LlamaIndex 文件聊天工作流 使用 LlamaIndex Workflows 和 A2A 协议构建文件聊天代理的综合指南。包括文件上传和解析、多轮对话、实时流式传输、内联引用、LlamaParse 和 OpenRouter 集成以及 webhook 通知系统的详细实现。非常适合希望构建高级对话式 AI 代理服务的开发者。 阅读全文
posted @ 2025-06-03 08:54 sing1ee 阅读(383) 评论(0) 推荐(0)

14个顶级 Nano Banana Pro 提示词:创意AI图像生成示例(2025)

摘要: Nano Banana Pro 是一款强大的 AI 图像生成工具,可以根据文本提示词创建令人惊艳的视觉效果。在本文中,我们汇编了14个创意提示词,展示了 Nano Banana Pro 令人难以置信的功能,从家具可视化到照片修复等等。 阅读全文
posted @ 2025-12-14 21:13 sing1ee 阅读(41) 评论(0) 推荐(0)

GLM-TTS 完全指南 2025:基于强化学习的革命性零样本语音克隆

摘要: GLM-TTS(Generative Language Model - Text-to-Speech)是由智谱 AI 的 CogAudio Group 开发的尖端开源文本转语音合成系统。该系统于 2025 年 12 月发布,通过结合大语言模型和强化学习优化,代表了语音克隆技术的重大进步。 阅读全文
posted @ 2025-12-11 21:45 sing1ee 阅读(150) 评论(0) 推荐(0)

2025年重磅发布:DeepSeekMath-V2 如何实现自我验证的数学推理?完整技术解析

摘要: DeepSeekMath-V2 是由 DeepSeek AI 团队于 2025年11月27日 发布的新一代数学推理模型,专注于**定理证明**和**自我验证**能力。与传统的数学 AI 模型不同,它不仅追求答案的正确性,更注重推理过程的严谨性和完整性。 阅读全文
posted @ 2025-11-27 19:37 sing1ee 阅读(2034) 评论(0) 推荐(0)

2025年完整指南:如何用 HunyuanOCR 构建端到端 OCR 能力

摘要: HunyuanOCR 是腾讯混元团队推出的端到端 OCR 专用视觉语言模型(VLM),基于原生多模态架构,仅 1B 参数即可在文本检测、复杂文档解析、信息抽取、字幕提取、图像翻译等任务上获得行业领先结果。 阅读全文
posted @ 2025-11-25 18:12 sing1ee 阅读(721) 评论(0) 推荐(0)

2025完整指南:ERNIE-4.5-VL-28B-A3B-Thinking多模态AI模型深度解析

摘要: ERNIE-4.5-VL-28B-A3B-Thinking是百度最新一代多模态AI模型,基于强大的ERNIE-4.5-VL-28B-A3B架构构建。这是一个专门针对视觉-语言理解任务优化的大语言模型,通过大规模中期训练阶段吸收了海量高质量视觉-语言推理数据。 阅读全文
posted @ 2025-11-12 08:43 sing1ee 阅读(168) 评论(0) 推荐(0)

2025年完整指南:阿里通义UI-Ins模型如何革新GUI基础与自动化

摘要: 阿里通义实验室发布UI-Ins-7B和UI-Ins-32B,旨在通过创新的“指令即推理”范式,显著提升图形用户界面(GUI)基础(GUI Grounding)和自动化能力。 阅读全文
posted @ 2025-11-01 19:33 sing1ee 阅读(131) 评论(0) 推荐(0)

2025年ChronoEdit:基于时间推理的图像编辑与世界模拟完整指南

摘要: ChronoEdit: NVIDIA开发的新型图像编辑框架,将图像编辑视为视频生成任务,以确保物理一致性和时间连贯性。 阅读全文
posted @ 2025-11-01 13:45 sing1ee 阅读(196) 评论(0) 推荐(0)

2025年完整指南:DeepSeek OCR 如何通过“视觉压缩”将AI成本降低20倍?

摘要: DeepSeek OCR 并非传统的光学字符识别工具,而是一种探索“视觉-文本压缩”的前沿AI模型。它通过将长文本转换成图像进行处理,极大地降低了计算资源消耗。 阅读全文
posted @ 2025-10-22 20:14 sing1ee 阅读(345) 评论(0) 推荐(0)

2025年完整指南:PaddleOCR-VL-0.9B — 百度超轻量级文档解析利器

摘要: 🎯 核心要点(TL;DR) 突破性成就:仅0.9B参数的模型在全球OmniBenchDoc V1.5排行榜上排名第一(综合得分:90.67) 全面领先:超越GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL-72B等大型多模态模型 多语言支持:支持109种语言,涵盖中文、英文、日文、 阅读全文
posted @ 2025-10-17 09:40 sing1ee 阅读(8603) 评论(0) 推荐(0)

如何下载Sora视频 - 2025完整指南

摘要: 如何下载Sora视频 - 2025完整指南 学习如何使用我们的网站或Chrome扩展程序下载Sora AI视频。本综合指南提供了两种不同方法下载Sora视频的分步说明,为最佳用户体验进行了优化。 阅读全文
posted @ 2025-10-12 17:50 sing1ee 阅读(1270) 评论(0) 推荐(0)