如何工作
ABBYY FlexiCapture 是一个高精度、可定制的文档处理工作流平台。它可以智能地从结构化及非结构化的文档中提取重要数据,对其进行分类处理,并最终传输给正确的接收者。
自动文档输入
ABBYY FlexiCapture 可以用相同的工作流程自动处理各种不同文件格式的办公文档,包括图像文件以及电子邮件的附件和正文。支持的文件格式包括:TXT、EML、XLSX、VSD、HTML、DOCX、XLS、VSDX、DOC, PPTX、HTM、PPT 及 RTF 。
处理原生电子文档可以使用:
已安装的微软 Office 系列软件,需要在 FlexiCapture 的设置中进行许可,并提供有效的登陆账号和密码
已安装的其他开源办公软件,需要在FlexiCapture 的设置中进行许可;
如果没有安装前两类软件,则可以使用 FlexiCapture 内置的转换器进行处理
自动文档分类
FlexiCapture 使用基于神经网络的文档自动分类技术,能够按照文档类别 (如:驾照、银行对账单、纳税申报表、合同、发票等) 和客户子类别 (如:供应商A的发票、供应商B的发票等) 对文档进行分类排序。
FlexiCapture 只需要一个简单的学习过程就能实现文档自动分类 – 由用户提供一组样本文档 (每个类别的文档不少于 10 篇) 并为每个样本指定其所属的类别。它不仅可以自动指定文档类别,还可以为进一步的内容处理选择正确的文档定义 (Document Definition)。
在众多实际应用场景中,准确率和召回率指标可以进行灵活的调整:简单的使用准确率优先或召回率优先规则,或使用「平衡」模式。
识别
在识别阶段,文档映像被组合成多页文档或文档集,系统可在无须人工干预的智能模式下自动提取其中的内容和数据,并验证提取结果的有效性。
自动组合:将多个页面组合成多页文档
文档组合有三种方式:
-
指定文档分隔标识符 (如:以文档间的空白页面区分两个不同的文档);
-
使用页面计数器;
-
使用 ABBYY 提供的基于神经网络的分类算法自动识别。
文档集
ABBYY FlexiCapture 采用一致性校验方案,保证同一案例下相关的所有文档都正确的收录在一个完整的文档集中。在案例管理的实际应用中,可以对以下特征进行比较:
-
在同一案例下展示不同文件的主要域,以比较其关键域、封签、照片或签名;
-
将提取的数据和公司数据库中已有的相关数据进行对比。
高精度的 OCR/ICR/OMR 及条形码识别
-
光学字符识别技术 (OCR),支持多达 200 种语言印刷体文字的识别,包括中文、韩文、日文
-
智能字符识别技术 (ICR),支持超过 130 种语言手写印刷体文字的识别
-
条形码识别,可识别多种条形码和二维码
-
光学标记识别技术 (OMR),可识别多种不同的勾选标记
自动验证包括
-
与数据库进行对比验证
-
检查是否符合内置验证规则
-
检查格式是否符合规则
-
数据归一化
-
用户自定义的检查项