如何工作
ABBYY FlexiCapture 是一個高精度、可定制的文檔處理工作流平臺。它可以智慧地從結構化及非結構化的文檔中提取重要資料,對其進行分類處理,並最終傳輸給正確的接收者。
自動文檔輸入
ABBYY FlexiCapture 可以用相同的工作流程自動處理各種不同檔案格式的辦公文檔,包括影像檔以及電子郵件的附件和正文。支持的檔案格式包括:TXT、EML、XLSX、VSD、HTML、DOCX、XLS、VSDX、DOC, PPTX、HTM、PPT 及 RTF 。
處理原生電子文檔可以使用:
-
已安裝的微軟 Office 系列軟體,需要在 FlexiCapture 的設置中進行許可,並提供有效的登陸帳號和密碼
-
已安裝的其他開源辦公軟體,需要在FlexiCapture 的設置中進行許可;
-
如果沒有安裝前兩類軟體,則可以使用 FlexiCapture 內置的轉換器進行處理
自動文檔分類
FlexiCapture 使用基於神經網路的文檔自動分類技術,能夠按照文檔類別 (如:駕照、銀行對帳單、納稅申報表、合同、發票等) 和客戶子類別 (如:供應商A的發票、供應商B的發票等) 對文檔進行分類排序。
FlexiCapture 只需要一個簡單的學習過程就能實現文檔自動分類 – 由使用者提供一組樣本文檔 (每個類別的文檔不少於 10 篇) 並為每個樣本指定其所屬的類別。它不僅可以自動指定文檔類別,還可以為進一步的內容處理選擇正確的文檔定義 (Document Definition)。
在眾多實際應用場景中,準確率和召回率指標可以進行靈活的調整:簡單的使用準確率優先或召回率優先規則,或使用「平衡」模式。
識別
在識別階段,文檔映射被組合成多頁文檔或文檔集,系統可在無須人工干預的智慧模式下自動提取其中的內容和資料,並驗證提取結果的有效性。
自動組合:將多個頁面組合成多頁文檔
文檔組合有三種方式:
-
指定文檔分隔識別字 (如:以文檔間的空白頁面區分兩個不同的文檔);
-
使用頁面計數器;
-
使用 ABBYY 提供的基於神經網路的分類演算法自動識別。
文檔集
ABBYY FlexiCapture 採用一致性校驗方案,保證同一案例下相關的所有文檔都正確的收錄在一個完整的文檔集中。在案例管理的實際應用中,可以對以下特徵進行比較:
-
在同一案例下展示不同檔的主要域,以比較其關鍵域、封簽、照片或簽名;
-
將提取的資料和公司資料庫中已有的相關資料進行對比。
高精度的 OCR/ICR/OMR 及條碼識別
-
光學字元辨識技術 (OCR),支援多達200 種語言印刷體文字的識別,包括中文、韓文、日文
-
智慧字元識別技術 (ICR),支援超過 130 種語言手寫印刷體文字的識別
-
條碼識別,可識別多種條碼和二維碼
-
光學標記識別技術 (OMR),可識別多種不同的勾選標記
自動驗證包括
-
與資料庫進行對比驗證
-
檢查是否符合內置驗證規則
-
檢查格式是否符合規則
-
數據歸一化
-
用戶自訂的檢查項
資料提取
ABBYY FlexiCapture 能自動從紙質或電子文檔中提取資料,支援結構化和非結構化的文檔,如抵押貸款申請表、報稅表、調查表、信用卡申請表、合同、發票、客戶郵件及其他眾多文檔類型。
驗證
驗證站可用於檢查提取的域與原文檔是否匹配。此外,還可以使用基於網路的驗證站進行人工手動驗證,不同區域的驗證員都可以輕鬆訪問網路驗證系統。可使用的驗證技術包括:
組驗證
可在一個驗證視窗中進行的組驗證
域驗證
用於逐一檢查資料區域的域驗證
文件視窗驗證
直接在文件視窗中與原文檔進行對比的文件視窗驗證;
部署在協力廠商系統,可通過單點登錄技術 (SAML 2.0) 訪問的網路端驗證
數據匯出
ABBYY FlexiCapture 可自動將識別出的資料和文檔集映射匯出為不同格式的檔,並按使用者定義的規則保存至資料庫、記錄系統或其他目標位置:
-
公司檔存儲庫,如:SharePoint、Laserfiche 等
-
ODBC 相容的資料庫,如:Oracle、Microsoft SQL Server 及 Microsoft Access
-
ERP 和 ECM 系統,如:SAP、Microsoft、IBM 和 Sage