本文介紹了文檔自定義段落解析層級規則及解析策略管理。
功能概述
不同文檔的內容結構可能不盡相同,對不同內容結構的文檔可自定義其文檔解析規則的配置,優化文檔解析效果從而優化基于文檔知識的問答效果。
自定義段落解析層級規則
當前解析規則采用正則編寫,具體編寫規則如下:
類別 | 規則 | 配置內容 |
# ## ### #### ##### | ^# .* ^## .* ^### .* ^#### .* ^##### .* | |
第一章 第一節 第一條 | ^第[^章]+章.* ^第[^節]+節.* ^第[^條]+條.* | |
一、 (一) 1、 (1) | ^[一二三四五六七八九十]+\、.* ^[\(\(][一二三四五六七八九十]+[\)\)]+.* ^[0-9]+、.* ^[0-9]+).* | |
1 1.1 1.1.1 1.1.1.1 1.1.1.1.1 | ^[0-9]+[^0-9\、\)\)\%]+ ^[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ |
自定義拆分和合并規則
分段:當前標題層級及更高層級的內容自動切分為多個片段。
默認:使用系統默認分段或合并規則。
合并:當前標題層級及更低層級的內容自動合并為一個片段。
解析策略管理
文檔內容是否對您有幫助?