1、由於反洗錢系統用戶信息錄入時,上傳的附件文件包含了PDF、Word等多類格式文件,為了提升數據訓練,需要預先對用戶文檔區域進行提取及校準。
2、在對數據預處理過程中,部分文件版面存在小幅傾斜、部分文件頁邊距較大、營業執照圖片橫置等問題,因此結合PaddleOCR,通過DocEdgeNet文檔預處理算法進行邊緣檢測、投影變換和圖像質量增強得到精確的數據質量。