問題二,對既縱切又橫切的碎片復原。
我們建立模型二,給出基於文本行特征的碎 片行分組算法,對行分組碎片進行橫向拼接得到復原的碎片行,再對碎片行進行縱向拼 接,得到最終復原結果。這兩種拼接策略均為模型壹中基於旅行商問題的拼接策略。 其中,文本行特征即為文本行之間的規整性,利用文本行的規整性不僅可以對碎片 進行行分組,而且還可以?高文本縱向拼接的準確度。
我們根據模型二,對附件 3 碎片還原的結果沒有人工幹預;在對附件 4 碎片還原時 在行分組碎片橫向拼接後有人工幹預,即偶爾人工調整個別碎片還原結果。