2025年作为AI应用爆发之年,各大厂商积极布局,推动AI赋能千行百业。其中,某头部通用大模型公司正加速拓展业务版图,从C端大模型问答服务延伸至B端企业服务领域,为专业场景下的行业用户提供基座大模型API,力求让企业大众普惠获取世界知识与专业服务。然而,在构建医疗行业垂直大模型问答产品时,该公司遭遇诸多挑战。

用户上传的百万页医疗文档,涵盖200多种变化版式,大模型识别错误率居高不下,传统OCR处理表格时逻辑混乱,CT报告关键数据识别错误,严重影响模型理解与推理,一个标点符号的解析错位都可能使AI诊断结论谬以千里。

面对困境,该大模型企业率先引入合合信息TextIn文档解析,将其应用于文档问答前置工作流,为提升模型训练效率与问答准确性带来转机。

在提升大模型理解能力方面,医疗大模型对输出结论严谨性要求极高,而用户上传的检测单、CT片、住院发票等医疗材料种类繁多,包含大量非结构化数据,传统方法难以处理。应用TextIn文档解析后,大模型产品可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,对有线无线表格、列表、公式、手写体等结构化输出识别准确率超95%,为大模型理解和推理提供有力支持。

在数据清洗环节,数据清洗作为大模型训练流程中的关键预处理步骤,能过滤水印、印章等非文本“噪声”,还原版面结构,同时合并重复内容与相似段落。过去,该企业处理繁杂医疗表格需人工标注清洗,耗时45分钟且存在错误风险。如今应用TextIn文档解析后,医疗单据解析平均耗时降至个位数分钟级别,输出的JSON格式与企业训练框架完美匹配,形成高效数据流通管道。

从人工标注入库到自动化处理,从模型幻觉到问答有迹可循,这家大模型厂商的实践为行业树立了标杆。文档解析作为文档处理的首要环节,不仅显著提升了企业自身效率,更为同行业及其他传统企业的智能化升级提供了可借鉴的宝贵样本,推动AI在医疗等领域的深度应用与发展。

0个人收藏 收藏

评论交流