資料清洗學習指引

為什麼要資料清洗:

AI不是萬能,他只能讀『乾淨、有結構』的資料 資料若太亂、太長」太複雜,AI會:

  • 回答錯誤

  • 理解中斷

  • 甚至完全無法觸發查詢

清洗重點三原則:

原則
說明
範例

明確結構

使用QA格式、標題結構,幫助AI快速定位內容

如:Q:如何退貨?A:需三日內申請 如:# 請假方法 ## 特休 ##滿一年7天

拆段適中

每段建議不超過2000字元;一段文太長會讓AI判斷斷裂

合約切分成一條條條款;QA 一問一答

去除雜訊

移除掃描亂碼、頁碼、浮水印、無意義標籤

例:第一頁 / 第2頁、公司機密不需保留

常見資料格式清洗建議:

類型
清洗建議
備註

Word -> txt

去除頁眉、頁碼、註腳、圖片說明

只留下段落正文,若含圖片與註腳,AI 全看不懂

表格 CSV

確保欄位命名明確、單一欄位不混多層意義

如:避免欄位為『備註(包含多欄)』

Last updated