TextIn ParseX重磅功能更新:支持切换公式输出形式、表格解析优化、新增电子档PDF去印章
💡 TextIn ParseX重要版本更新内容速读:
- 新增公式解析参数
formula_level,支持 LaTeX / Text 灵活切换;- 表格解析优化单元格内换行输出;
- 导出excel时,图片链接放在单元格内;
- 新增电子档pdf去印章功能。
近期,为深度适配教育、金融、医疗、企业办公等场景需求,TextIn ParseX发布一系列功能升级,提升文档处理效率与准确性。下文将对新功能及版本优化进行详细介绍。
1 新增公式解析参数
新增参数
formula_level,用户可以通过参数控制不同层级的输出,支持自由切换公式输出形式,实现对公式解析的差异化需求。| 参数值 | 输出 | 效果 | 图示 |
| formula_level=0 | 有行间公式+行内公式 (输出为latex) | $V>30m^{3}$ | |
| formula_level=2 | type输出为text,markdown中为纯文本 | Tx |
参数详解
A. formula_level=0:获取精确的Latex公式格式
|
核心作用
|
在解析学术论文、国标文件、试卷等文档时,精确识别并保留公式的完整结构(如上下标、积分符号、矩阵等),以便用于学术引用、智能判题使用。
|
|
示例场景
|
科研人员分析学术论文、研究报告中的复杂公式,进行理论推导和数据验证。
|
|
示例样本
|
|
|
效果展示
|
|
B. formula_level=2:将公式还原为纯文本
|
核心作用
|
|
|
示例场景
|
解析医疗报告中,去除公式符号,可减少 OCR 识别错误,提升数据录入效率(如医疗报告中 “白细胞计数 WBC₃” 转为 “WBC3”)。
|
|
示例样本
|
|
|
效果展示
|
|
2 表格功能优化升级
A. 单元格内换行优化
表格解析支持单元格内换行的处理。
- 在单元格中需要换行的地方,使用
<br>表示; - 不管
table_flavor参数是html还是md,都使用同样的换行符; -
输出结果中:
- markdown、detail->text、pages->structured->text,均添加
<br> - pages->content 仍按行表示,不做修改
- 导出的excel中,用
\n替换<br>表示
- markdown、detail->text、pages->structured->text,均添加
|
核心作用
|
准确识别并正确展示表格单元格内换行信息,保障数据完整性与易读性,提升处理效率,降低人工核对成本。
|
|
示例场景
|
国际物流运输中,运单信息包含发货人和收货人的详细地址,这些地址往往包含多行信息,如门牌号、街道、城市、国家等。优化后的单元格内换行功能,能够使地址信息按照实际情况正确换行显示。
|
|
示例样本
|
|
|
效果展示-html
|
|
|
效果展示-md
|
|
B. 导出excel时,图片链接放在单元格内
解析表格导出为 Excel 文件时,支持仅保留图片链接,去掉所有markdown或html的标签。
|
核心作用
|
|
|
示例场景
|
电商商品管理,借助 Excel 中单元格内的图片链接核对商品信息。
|
|
示例样本
|
|
|
效果展示
|
|
3 图像处理升级:新增电子档去印章
电子档pdf解析支持自动去除页面印章。
|
核心作用
|
避免印章对数据的干扰,确保电子文档中的数据准确识别与提取。
|
|
示例场景
|
电子档的银行流水、银行对账单、银行回单等材料,通常都有印章,如果不去除,会影响识别结果中的数字准确率,导致下游数据处理出错。
如下图所示,箭头处数字出错:
|
|
示例样本
|
|
|
效果展示
|
*因银行单据有大量隐私信息,故对样本进行模糊处理,此为去除印章后的效果,精准还原文字内容。
|
⭐欢迎后台私信小助手免费在线体验文档解析,领取更多福利、大模型应用技术学习材料。
新增功能有任何使用问题,欢迎来交流群与我们共同探讨技术发展与AI应用的可能性。
本文讨论了TextIn ParseX为适配多场景需求进行的功能更新与版本优化,介绍了新功能及优化内容,还给出使用途径和交流方式。
浙公网安备 33010602011771号