轻量级LLM实现文本到结构化数据转换

轻量级LLM实现文本到结构化数据转换

当前生成模型的重要特性是能够将非结构化、部分结构化或结构不良的输入转换为符合特定模式的结构化对象。大型语言模型(LLM)可通过提示工程实现此功能,但存在三大局限:处理海量数据时成本高昂、提示工程复杂度高,以及内置结构化输出模式对复杂模式的支持有限。

在EMNLP会议和ArXiv发表的最新研究中,提出了一种专用于特定模式的轻量级结构化对象语言模型(SoLM)。该模型采用自监督去噪训练方法,并通过置信感知子结构束搜索(CABS)解码机制降低幻觉风险。实验表明,SoLM在输出准确性上媲美或超越现有大型LLM,同时成本效率提升一个数量级。在产品属性生成任务中,CABS解码在精度固定90%时召回率较传统束搜索提升16.7%。

应用场景

该研究将多种AI/ML问题统一于结构化输出框架。当结构化对象存在多重关联 facet(如自然语言描述与类型约束的结构化事实)时,SoLM可确保对象内部一致性以及与真实知识的一致性。典型应用包括:

  • 输入非结构化数据生成对应结构化对象
  • 作为"自我再生机器"对已有结构化数据进行清洗、规范化、校正和补全
  • 处理混合输入(结构化记录+非结构化内容/不同模式记录)并生成目标模式的清洁记录

自我再生机制可同步解决多项任务:补全缺失事实、校正错误事实、规范化未归一化数据、补全描述文本、修正描述中的不准确信息。这些相互依赖的任务通过端到端再生实现自然解耦。

技术创新

自监督去噪训练:通过向现有数据库样本注入人工噪声(如完全破坏结构或随机打乱标记),训练模型恢复原始形式。激进噪声策略使模型不仅能增强现有对象质量,还能处理完全非结构化的输入。

CABS解码方法:以键值对(而非单个标记)作为束搜索的原子单位。通过LLM输出置信度或单独训练的置信度评分模型(输入LLM内部层中间表示)推断键值对概率。实践证明后者效果更优。

实验证明,70亿参数的SoLM模型在事实完整性、正确性以及描述内容质量等指标上,优于采用各种提示工程技术的大型基础模型。CABS解码通过消除解码过程中的幻觉事实,进一步提升了事实准确性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-25 12:41  CodeShare  阅读(31)  评论(0)    收藏  举报