向量知識庫檢索方式與參數設定

Chunking + Embedding + Top K 是什麼？

這是知識庫檢索與 RAG（Retrieval-Augmented Generation）的核心技術流程，用來讓 AI 從長文本中找出最有用的資訊來回答問題。

1. Chunking（切片）

將一份長文件（如 5,000 字）切成小段落（chunks），每段約 300 字左右。

這是因為 LLM 記憶有限，無法一次處理整份文檔。

範例：

Chunk 1：退貨期限為 7 天，需附上購買憑證…
Chunk 2：不可退貨之商品包含內衣與個人衛生用品…
Chunk 3：退貨流程請先填寫線上表單…

2. Embedding（語意轉向量）

將每個 chunk 轉換為一組語意向量（數字列表），讓 AI 能夠理解「這段文字的意思」。

例子：

Chunk 1 → [0.12, -0.48, 0.33, ..., 0.05]
Chunk 2 → [0.02, -0.35, 0.28, ..., 0.12]

使用者的問題也會轉成向量：

使用者問：「如何退貨？」 → [0.10, -0.45, 0.30, ..., 0.08]

3. Top K 相似段落擷取

系統會比較使用者問題與所有 chunks 的向量相似度，找出前 K 段最接近的段落。

常見設定：Top 3、Top 5 或 Top 10

範例查找結果：

Top 1：Chunk 3（退貨流程）
Top 2：Chunk 1（退貨期限）
Top 3：Chunk 4（物流注意事項）

4. 搭配生成模型產出答案

AI 將「Top K 的段落 + 使用者問題」一起輸入模型，產出語意完整的回答。

✅ 這樣就能做到「語意問答」而非「關鍵字比對」！

總結一句話：

Chunking + Embedding + Top K = 用語意找出最相關內容，再讓 AI 幫你總結回答。

檢索參數設定方式

語義 Semantic Matching

代表意思：使用向量嵌入（Embedding）來計算使用者問題與知識庫中文章之間的語意相似度。
功能說明：即使問法不同，只要語意相近，也能匹配到正確內容。
適合情境：自由問答、語意變化大、使用者問法多樣時特別有效。

關鍵詞 Keyword Matching

代表意思：依據關鍵字精準比對問題與知識庫中的內容。
功能說明：像是傳統搜尋引擎，關鍵字完全吻合才會被視為相關。
適合情境：文件較為結構化、特定術語為主、需要高精準度的場合。

語義 / 關鍵詞權重設定（滑桿）

可設定從 0 到 1 的比例，例如：
- 語義 0.7 / 關鍵詞 0.3：語意優先。
- 語義 0.5 / 關鍵詞 0.5：語意與關鍵詞平均。
- 語義 0.2 / 關鍵詞 0.8：更注重關鍵詞精準比對。

Score 閥值（Score Threshold）

代表意思：最低相似度門檻，低於這個分數的結果將不被返回。
範例設定：
- 0.3（預設值）：建議起始值，較寬鬆，容易取得答案。
- 0.5：提高準確度，但可能犧牲一些回答。
- 0.7 或更高：只允許極高相似度的答案，適合高精度場景。
注意：如果設太高，使用者可能常遇到「找不到答案」的情況。

設定建議

一般知識問答 / FAQ

0.7 / 0.3

0.3 ~ 0.4

技術文件、產品使用說明

0.5 / 0.5

0.4 ~ 0.5

嚴謹法規或合約查詢（精準）

0.3 / 0.7

0.5 ~ 0.6

Previous資料清洗學習指引 Next編輯訊息渠道

Last updated 6 months ago

hashtagChunking + Embedding + Top K 是什麼？

hashtag1. Chunking（切片）

hashtag2. Embedding（語意轉向量）

hashtag3. Top K 相似段落擷取

hashtag4. 搭配生成模型產出答案

hashtag總結一句話：

hashtag檢索參數設定方式

hashtag語義 Semantic Matching

hashtag關鍵詞 Keyword Matching

hashtag語義 / 關鍵詞 權重設定（滑桿）

hashtagScore 閥值（Score Threshold）

hashtag設定建議