# B2 · AI 介入判斷矩陣（核心 IP）

> v6 更新：方法論不變（90% 腳本 / 10% LLM），但範例全部換成傳產 4 垂直特化版本。

## 為什麼這個矩陣存在

我們最常看到傳產老闆導入 AI 失敗的單一原因：**該用腳本的地方用了 LLM，該用 LLM 的地方塞了寫死的 if-else**。

具體場景（4 垂直）：
- **設計 agency**：估價交給 LLM → 每次同案例算出不同金額，老闆覺得「AI 不靠譜」
- **補習班**：學生繳費分類用正則 → 新繳費名目沒包進規則，全跑「其他」
- **旅行社**：客戶 LINE 問題分派交給寫死規則 → 客人問「這團要不要帶外套」分不到任何分類，丟掉
- **小印刷廠**：訂單金額計算交給 LLM → 算錯一張單少收 5 萬，老闆罵到不行

**矩陣的目的**：在老闆動工前，逼他用兩個維度量過每個流程環節——這個適合 LLM 嗎？適合腳本嗎？要不要拆？

**核心主張**：

> ## 90% 的企業流程環節應該用確定性腳本，10% 才用 LLM

LLM 不是萬能藥，是處理「自然語言理解 + 模糊判斷」的最後一哩。

## 兩個維度

### 維度 1：流程的確定性程度

問三個問題：
1. **輸入是不是結構化的？**（表格、固定欄位）
2. **規則能不能寫清楚？**（白板能寫完）
3. **答案是不是唯一的？**（同樣輸入明天答案一樣）

| 等級 | 描述 | 4 垂直範例 |
|------|------|----------|
| **高** | 結構化 + 規則明確 + 答案唯一 | 印刷廠張數 × 單價、補習班學費計算、旅行社座位扣除、設計 agency 工時換算 |
| **中** | 半結構化 + 規則大致清楚但有例外 | 設計 agency 提案優先級分類、旅行社客戶問題分派、補習班學生請假處理 |
| **低** | 非結構化 + 規則隨案例變動 | 設計 agency 客戶反饋摘要、旅行社行程文案、補習班家長 LINE 摘要 |

### 維度 2：錯誤代價

問兩個問題：
1. **這個環節錯了，誰會發現？多久發現？**
2. **發現後修正代價多大？**（金錢、時間、信任）

| 等級 | 描述 | 4 垂直範例 |
|------|------|----------|
| **高** | 客戶 / 老闆立刻發現、損失大 | 印刷估價、學費計算、旅行報價、設計 agency 提案費 |
| **中** | 短期內被發現、損失中等 | 客戶 LINE 問題派工、行銷文案語氣、會議摘要漏點 |
| **低** | 短期不會被發現、容易修 | 內部討論主題建議、文件草稿、自動補完文字 |

## 矩陣四象限與處理建議

```
                        錯誤代價
                  高               低
              +-----------+-----------+
              |  象限 A   |  象限 B   |
        高    |  全用腳本  |  腳本+    |
              |  禁用 LLM |  簡單 LLM |
              +-----------+-----------+
確定性
              +-----------+-----------+
              |  象限 C   |  象限 D   |
        低    |  腳本+LLM |  LLM 為主 |
              |  +人工    |  +腳本兜底 |
              +-----------+-----------+
```

### 象限 A（高 / 高）：全用腳本，禁用 LLM
**原則**：能在白板寫完規則的事，不准 LLM 碰。

### 象限 B（高 / 低）：腳本主軸 + LLM 加值
**原則**：腳本算邏輯、LLM 加「使用者體驗的潤色」（例如生成友善通知文字）。

### 象限 C（低 / 高）：腳本 + LLM + 人工三明治
**原則**：上層腳本篩明顯規則、中層 LLM 做語意辨識、下層人工最終把關。**第一年必須有人工把關。**

### 象限 D（低 / 低）：LLM 為主 + 腳本兜底
**原則**：LLM 做主任務，腳本兜「LLM 沒回應 / 格式錯 / 含敏感詞 → 用模板」。

## 8 個典型範例（4 垂直版）

| # | 垂直 | 流程環節 | 落點 | 處理建議 |
|---|------|---------|------|---------|
| 1 | 設計 agency | 提案估價（依工時 × 級別） | A | SQL 算、不准 LLM 介入金額本身 |
| 2 | 設計 agency | 客戶反饋整理成下次 review 重點 | D | LLM 摘要 + 腳本兜底（沒摘要用模板） |
| 3 | 補習班 | 月費計算（含優惠 / 補課） | A | 條件邏輯腳本 |
| 4 | 補習班 | 家長 LINE 訊息分類派工 | C | 腳本過關鍵字 + LLM 分類 + 信心 < 0.7 走人工 |
| 5 | 旅行社 | 行程報價 | A | 腳本算（航班 + 飯店 + 餐 + 利潤）、不准 LLM |
| 6 | 旅行社 | 客戶 LINE 問題自動回（90% 簡單問題） | C | 腳本先過 FAQ + LLM 回答 + 信心低走人工 |
| 7 | 小印刷廠 | 訂單金額計算（紙張 × 印刷量 × 加工） | A | SQL 全核 |
| 8 | 小印刷廠 | 客戶 email 中提取訂單需求 | C | 腳本提結構（PDF / 表格） + LLM 補語意 + 業務人工確認 |

每個垂直案例庫（vertical_*.md）有更詳細的 5 個工具場景對照矩陣。

## 邊界案例

**Q：LLM 結構化輸出（強制 JSON）能拉到象限 A 嗎？**
不能。LLM 即使指定 JSON schema 仍會偶發錯誤。象限 A 要 100% 重複可驗證。

**Q：fine-tune 過的 LLM 算高確定性嗎？**
不算。fine-tune 不消除偶發錯誤本質。

**Q：象限 C 第一年必須人工把關，能跳過嗎？**
不行。可以追求自動化（資料夠、錯誤穩定後從逐筆 → 抽樣 → 異常觸發），第一天全自動幾乎都會出大事。

**Q：腳本兜底會不會讓使用者覺得 AI 很笨？**
比 AI 出錯被罵更好。兜底文案誠實 +  可追溯 + 不阻塞。

## 主管實作前自查 8 條

| # | 問題 | 通過條件 |
|---|------|---------|
| 1 | 我用兩個維度標出每個環節落在哪一象限了嗎？ | 每環節有明確象限 |
| 2 | 象限 A 的環節我有沒有完全用腳本？ | 沒任何 LLM 直接判斷 |
| 3 | 象限 C 的環節有沒有人工把關流程？ | UI 上有審核步驟 |
| 4 | LLM 的輸出有沒有兜底？ | LLM 失敗有 fallback |
| 5 | 系統提示詞有沒有規定「拒答」條件？ | 至少 3 條 |
| 6 | 工具上線後怎麼知道 LLM 出錯？ | 信心分數 / 人工修正回流 |
| 7 | 工具下線時誰會通知使用者？ | 有 SOP 不是 LLM 自己判斷 |
| 8 | 所有 LLM 呼叫都進 audit_log 了嗎？ | 100% 留痕 |

工具包內附「自查表」自動產出 SVG checklist。

## 反模式 6 條

| 反模式 | 為什麼錯 |
|-------|---------|
| 全部讓 LLM 處理，反正它聰明 | 偶發錯誤累積在不可見處，發現已經傷客戶 |
| 腳本太死板，全部用 LLM 才現代 | 確定性腳本是工程基本功，AI 是補不足不是取代 |
| LLM 輸出 JSON 就等於結構化 | 格式 ≠ 內容正確 |
| 給 LLM 寫長 prompt 萬無一失 | prompt 不能消滅模型本質的不確定性 |
| 象限 C 上線後就放著跑 | 沒人工回流，一年內必爆 |
| LLM 信心低就不告訴使用者 | 隱瞞 → 過度信任 |

---

**本文件結束。** 4 垂直特化版範例詳 vertical_*.md。