資料清洗學習指引
為什麼要資料清洗:
AI不是萬能,他只能讀『乾淨、有結構』的資料 資料若太亂、太長」太複雜,AI會:
回答錯誤
理解中斷
甚至完全無法觸發查詢
清洗重點三原則:
原則
說明
範例
明確結構
使用QA格式、標題結構,幫助AI快速定位內容
如:Q:如何退貨?A:需三日內申請 如:# 請假方法 ## 特休 ##滿一年7天
拆段適中
每段建議不超過2000字元;一段文太長會讓AI判斷斷裂
合約切分成一條條條款;QA 一問一答
去除雜訊
移除掃描亂碼、頁碼、浮水印、無意義標籤
例:第一頁 / 第2頁、公司機密不需保留
常見資料格式清洗建議:
類型
清洗建議
備註
Word -> txt
去除頁眉、頁碼、註腳、圖片說明
只留下段落正文,若含圖片與註腳,AI 全看不懂
表格 CSV
確保欄位命名明確、單一欄位不混多層意義
如:避免欄位為『備註(包含多欄)』
Last updated
