2025 年 6月 28 日随笔档案 - deephub

2025年6月28日

摘要：在现实应用场景中，许多AI系统需要处理超过数十万token的长文本序列，例如密集文档分析、长对话理解以及检索增强生成(RAG)管道等。当前大多数语言模型仅在相对较短的文本片段上进行训练。这种训练与应用需求的不匹配，类似于要求模型仅通过阅读小说的一页内容就能完成整本书的总结任务。虽然模型可能捕获到文本阅读全文

posted @ 2025-06-28 11:27 deephub 阅读(30) 评论(0) 推荐(0)

deephub

overfit深度学习

公告