当你拿到一份泰文政府表格或者银行对账单时,想要将里面的文字提取出来编辑,你会怎么办?如果你不懂泰语,这个任务就像在解密一样困难。传统的文字识别工具在处理英文时表现不错,但面对泰文这样复杂的文字系统时,往往会出现各种错误识别,让人头疼不已。
这项由SCB 10X的Typhoon团队开发的研究发表于2026年1月,论文编号为arXiv:2601.14722v1。研究团队推出了Typhoon OCR这样一个专门针对泰文文档识别的AI模型,就像为泰文量身定制的"超级扫描仪"。更令人惊喜的是,他们还推出了升级版Typhoon OCR V1.5,这个只有20亿参数的"小个子"模型,在很多任务上的表现甚至超过了那些参数量达到数百亿的大型商业模型。
泰文的书写系统就像一个复杂的积木游戏,字母可以上下叠放,元音可能出现在辅音的前后上下各个位置,而且单词之间没有空格分隔。这就好比你要拼一个立体拼图,不仅要识别每个小块的形状,还要理解它们如何组合成完整的结构。对于AI来说,这种复杂性带来了巨大挑战,因为它需要同时理解字符的形状、位置关系和语言的语法结构。
研究团队深入分析了泰文文档识别面临的困难。首先是文字本身的复杂性,泰文有着丰富的声调符号和元音标记,这些小符号的位置变化会完全改变单词的意思。其次是文档类型的多样性,从政府公文到银行报表,从手写表格到印刷书籍,每种文档都有自己独特的格式和布局特点。最后是训练数据的稀缺性,与英文和中文相比,高质量的泰文文档数据非常有限,这就像要教一个学生学习,但可供参考的教材很少。
针对这些挑战,研究团队设计了一个巧妙的解决方案。他们首先构建了一个多阶段的数据处理流水线,就像一个精密的工厂生产线。在第一阶段,他们使用传统的OCR工具和PDF文本提取技术来获取基础的文字内容,这就像先用粗糙的工具把大致轮廓描绘出来。第二阶段,他们让开源的视觉语言模型来重新整理这些文字,使其符合文档的逻辑结构,就像让一个有经验的编辑来润色和重新组织内容。第三阶段是自动质量控制,AI系统会检查内容是否一致、有无遗漏或重复,就像一个严格的质检员在检查产品质量。最后一个阶段是人工审核,专业标注员会对随机抽取的样本进行验证,确保最终的训练数据质量。
在模型设计上,研究团队采用了两种工作模式来适应不同类型的文档。默认模式适合处理结构相对简单的文档,比如收据、菜单或者便条,这种模式会保留基本的文字内容和简单的格式信息,就像用普通相机拍照一样,抓住主要内容即可。结构模式则专门针对复杂的正式文档,比如财务报告、政府表格或者学术论文,这种模式会详细解析文档的层级结构、表格布局和图表信息,就像用专业设备进行精密扫描一样,不放过任何细节。
在训练数据的构成上,研究团队收集了77029个文档样本,覆盖了各种类型的泰文文档。其中最大的部分是信息图表类文档,占到了总量的45.6%,这类文档包含丰富的视觉元素和多样的布局设计。财务报告占7.2%,主要来自泰国证券交易所发布的企业报告。数字化泰文书籍占5.6%,涵盖了不同题材和格式的出版物。手写文档占5.5%,这部分数据特别珍贵,因为手写识别一直是OCR技术的难点。
模型的训练过程就像培养一个专业的泰文文档识别专家。研究团队使用了Qwen2.5-VL作为基础模型,这就像选择了一个有良好基础的学生。然后通过精心设计的训练流程,让模型学习如何准确识别泰文字符、理解文档布局、重建文档结构。训练过程中,输入的文档图像被调整到固定的1800像素宽度,这样既保证了视觉细节的清晰度,又控制了计算成本。模型可以处理最长17000个token的序列,这意味着它能够处理很长的文档而不会丢失信息。
在评测方面,研究团队设计了全面的测试体系。他们使用了三种不同的指标来评估模型性能。BLEU分数衡量的是识别文本与标准答案之间的词汇重叠度,就像检查学生答案中有多少个单词是正确的。ROUGE-L分数关注的是文本的结构相似性,就像检查学生是否理解了文章的逻辑脉络。Levenshtein距离测量的是字符层面的准确性,就像逐个字母检查拼写是否正确,距离越小表示错误越少。
测试的文档类型包括三个主要类别。泰文财务报告包含复杂的表格、图表和中英文混合内容,这类文档的难点在于需要准确识别数字、理解表格结构、处理多种字体和格式。泰文政府表格通常有密集的布局、专业术语和手写批注,需要模型具备强大的版面分析能力。泰文书籍包含长篇文本、插图和各种视觉元素,考验模型对长文档的处理能力和对图文混排的理解。
实验结果显示,Typhoon OCR在泰文文档识别任务上取得了显著的成果。在泰文财务报告的识别上,GPT-4o的BLEU分数只有0.25,Gemini 2.5 Flash为0.52,而Typhoon OCR 7B版本达到了0.91,几乎是完美识别的水平。在泰文政府表格的识别上,Typhoon OCR同样表现出色,7B版本的BLEU分数达到0.89,而两个商业模型分别只有0.25和0.74。即使是参数量更小的3B版本,在大多数任务上也能与7B版本相媲美,这说明通过精心的训练策略,小模型也能达到很好的效果。
研究团队还发现了一些有趣的现象。在处理泰文书籍时,所有模型的表现都相对较低,这主要是因为书籍中包含大量的插图、图表和非标准版面元素,增加了识别的难度。模型在使用PDF元数据和仅使用图像两种输入模式下的表现差异很小,这表明模型已经能够很好地从视觉信息中推断出文档结构,不过分依赖外部的布局提示。
考虑到Typhoon OCR在实际应用中收到的积极反馈,研究团队又开发了升级版本Typhoon OCR V1.5。这个新版本解决了原版本的几个关键问题。首先是对PDF元数据的依赖问题,原版本在处理长文档或复杂布局时,需要依赖PDF的结构信息,这会增加处理时间。V1.5版本简化了这个流程,直接从图像中提取所有需要的信息。其次是操作模式的复杂性,原版本需要用户选择不同的处理模式,V1.5统一了处理流程,让使用更加简单。最重要的是,V1.5将模型参数从70亿缩减到20亿,大大降低了计算资源需求,让更多用户能够部署和使用。
V1.5版本在数据处理上也有重要改进。研究团队使用了更先进的标注模型Qwen3-VL和Dots.OCR来生成高质量的训练数据,就像聘请了更专业的老师来编写教材。他们还引入了两个新的数据源来增强模型能力。一个是泰文翻译的视觉问答数据,这帮助模型保持通用的视觉理解能力,不会因为专门训练文档识别而失去其他技能。另一个是合成文档数据,通过程序生成包含数学公式、图表和各种泰文词汇的文档,补充了真实数据的不足。
合成数据的生成过程就像一个精密的文档制造工厂。第一步是从PyThaiNLP词汇库中随机采样泰文单词,然后用不同的字体和大小来渲染,确保模型能适应各种排版风格。第二步是从东南亚视觉数据集中选取文化相关的图像,以及从ChartCap数据集中获取各类图表,让合成文档更接近真实情况。第三步是添加数学公式,从LaTeX OCR和OleehyO公式数据集中采样数学表达式,提升模型对科学文档的理解能力。最后一步是使用Augraphy工具对生成的文档进行图像增强,模拟扫描、拍照时可能出现的模糊、噪点、光照变化等真实情况。
V1.5版本的训练数据总共包含155403个文档样本,其中53.7%来自原版本的训练语料,保证了性能的连续性。合成文档占37.6%,这个较高的比例是为了弥补真实泰文文档数据的稀缺性,特别是包含数学公式和复杂图表的文档。DocLayNet数据集贡献了6.4%,提供了高质量的版面布局标注。泰文翻译的视觉问答数据占2.2%,虽然比例不大,但对保持模型的通用能力很重要。
在新的评测体系中,研究团队扩展了测试类别,增加了信息图表、手写表格和其他类型文档的评测。这样的设置更全面地反映了模型在各种实际场景下的表现。评测结果显示,Typhoon OCR V1.5在几乎所有类别上都超越了V1版本,同时也在大多数任务上优于商业模型。特别值得注意的是,这个只有20亿参数的模型在泰文政府表格识别上达到了0.870的BLEU分数,超过了Gemini 2.5 Pro的0.797。在手写表格识别这个传统难题上,V1.5的得分是0.522,虽然还有改进空间,但已经比V1版本的0.321有了显著提升。
模型的训练采用了量化感知训练技术,这就像在训练过程中就让模型适应"节能模式"的运行方式。这样训练出来的模型在实际部署时可以用更少的计算资源运行,而性能损失很小。训练使用了4块H100 GPU,历时两个训练周期,最终模型的选择基于验证集上的表现。
从技术架构上看,Typhoon OCR采用了端到端的设计思路,这意味着从输入文档图像到输出结构化文本,整个过程由单一模型完成,不需要复杂的后处理步骤。这种设计的好处是减少了错误在多个组件之间传播的可能性,提高了整体的稳定性和准确性。模型支持多种输出格式,包括纯文本、Markdown格式、HTML表格、LaTeX数学公式等,可以满足不同用户的需求。
在处理图像时,模型采用了分辨率自适应策略。对于最大尺寸小于1800像素的图像,保持原始分辨率以确保清晰度。对于更大的图像,按比例缩放到1800像素宽度,这样既控制了计算成本,又保持了足够的视觉细节。最大序列长度设置为16384个token,足以处理大多数实际文档的内容。
研究团队还特别关注了模型的部署便利性。V1.5版本支持多种量化方式,可以根据硬件条件选择合适的精度等级。在消费级GPU上也能流畅运行,这大大降低了使用门槛。模型的推理速度相比大型商业模型有明显优势,特别适合需要批量处理大量文档的场景。
在实际应用方面,Typhoon OCR已经在多个领域展现了其价值。金融机构可以用它来自动处理客户提交的各种泰文证件和报表,大大提高了业务处理效率。政府部门可以用它来数字化历史档案和公文,让珍贵的文献资料得以长期保存和方便检索。教育机构可以用它来将泰文教材转换为可编辑的电子版本,方便教学资源的分享和更新。
模型的开源属性也是其重要特色。研究团队将完整的模型权重、训练代码和评测基准都开放给社区,这不仅促进了学术研究的透明度,也让更多开发者能够基于这个基础进行创新。相比于那些只能通过API调用的商业服务,开源模型给用户提供了更大的灵活性和控制权,特别是在处理敏感文档时,本地部署可以更好地保护数据隐私。
当然,研究团队也诚实地指出了模型目前的一些局限性。在处理严重损坏或极低分辨率的文档图像时,模型的表现还有待提高。对于包含大量非文字视觉元素的文档,比如设计图纸或艺术作品,模型的理解能力还比较有限。另外,虽然模型主要针对泰文和英文优化,但对其他语言的支持还需要进一步扩展。
展望未来,研究团队计划在几个方向上继续改进。首先是提高对低质量输入的鲁棒性,通过更多样化的数据增强和训练技巧来应对现实中各种不理想的图像条件。其次是扩展到更多语言,特别是其他东南亚语言,让更多地区的用户受益。第三是增强高层推理能力,不仅能识别和重构文档,还能理解文档的语义内容,回答关于文档的问题。
这项研究的意义不仅在于技术突破,更在于它展示了如何通过精心的数据工程和训练策略,让相对较小的模型在特定任务上达到甚至超越大型通用模型的表现。这种"小而精"的思路对于资源受限的应用场景具有重要价值,也为AI技术的普及和落地提供了新的可能性。
说到底,Typhoon OCR这项研究解决的不仅仅是技术问题,更是语言数字化公平性的问题。在AI技术快速发展的今天,如果只有英文等主流语言能够享受到先进技术的便利,那么使用其他语言的人群就会被边缘化。通过专门针对泰文的优化和开源共享,这项研究为构建更加包容和公平的AI生态系统做出了重要贡献。对于普通用户来说,这意味着处理泰文文档将变得前所未有的简单高效,无论是学生整理资料、企业处理文件,还是研究者数字化文献,都将从中受益。
Q&A
Q1:Typhoon OCR相比GPT-4o和Gemini这些大公司产品有什么优势?
A:Typhoon OCR在处理泰文文档方面表现更好,比如在泰文财务报告识别上,GPT-4o的准确率只有0.25,而Typhoon OCR达到了0.91。更重要的是,Typhoon OCR是开源的,用户可以本地部署,保护数据隐私,而且V1.5版本只需要20亿参数,运行成本更低。
Q2:什么是Typhoon OCR的两种工作模式?
A:默认模式适合处理简单文档如收据、菜单,只保留基本内容和格式。结构模式专门处理复杂正式文档如财务报告、政府表格,会详细解析层级结构、表格布局和图表信息。V1.5版本已经统一了处理流程,用户无需选择模式。
Q3:泰文识别为什么这么困难?
A:泰文字母可以上下叠放,元音位置灵活多变,单词间无空格分隔,就像立体拼图一样复杂。加上泰文高质量训练数据稀缺,传统OCR工具主要针对英文优化,面对泰文时经常出错。Typhoon OCR专门针对这些特点进行了优化训练。