這是 AI 系列第二篇。讀本篇前建議先看 AI 與 LLM 基礎,本篇會直接用到 token、上下文視窗、工具等詞彙。
目錄
什麼是 Agent?
AI Agent(智慧代理)是一個「會自己規劃、並透過工具採取行動來完成任務」的 AI 系統。
關鍵差別在於:純粹的 LLM 只會「回話」,而 Agent 會「做事」。
Chatbot vs Agent
| 面向 | 純 Chatbot(單純 LLM 對話) | AI Agent |
|---|---|---|
| 能做什麼 | 根據你的話生成文字回答 | 為了達成目標,主動採取一連串行動 |
| 能不能查即時資料 | 不行,只能靠訓練時學到的 | 可以,呼叫工具去查 |
| 能不能執行操作 | 不行,只能「告訴你怎麼做」 | 可以,實際去執行(讀檔、改檔、跑指令、呼叫 API) |
| 互動次數 | 通常一問一答 | 自己迴圈多步,直到任務完成 |
| 比喻 | 一位很博學但只能動嘴的顧問 | 一位能動手、會自己查資料、做完才回報的助理 |
一個直覺的例子
你問:「幫我把專案裡所有過時的 API 呼叫換成新寫法。」
- Chatbot 會說:「你可以這樣改……」然後給你一段範例,剩下你自己做。
- Agent 會:搜尋專案裡所有用到舊 API 的檔案 → 逐一讀取 → 修改 → 跑測試確認沒壞 → 回報「改好了 8 個檔案,測試通過」。
💡 像 Claude Code 這類 coding agent 就是典型例子:它會自己讀檔、搜尋、改檔、跑指令,而不只是給你建議。
Agent 的組成
一個 Agent 通常由四個部分組成。可以用「一個能幹的員工」來類比:
Agent = LLM(大腦)+ Tools(手腳)+ Memory(記憶)+ Planning(規劃)
| 組成 | 角色 | 負責什麼 |
|---|---|---|
| LLM | 大腦 | 理解任務、做決策、決定下一步要做什麼 |
| Tools | 手腳 | 實際對外界採取行動:搜尋、讀寫檔案、呼叫 API、執行程式 |
| Memory | 記憶 | 記住目前進度、過去步驟、相關資訊 |
| Planning | 規劃 | 把大目標拆成可執行的小步驟、決定順序 |
各部分細看
1. LLM(大腦) 整個 Agent 的決策核心。每一步都是 LLM 在判斷:「目前狀況是這樣,我下一步該做什麼?要不要用工具?用哪個?」詳見 LLM 基礎。
2. Tools(手腳) LLM 本身只能輸出文字,無法真的去查資料或改檔案。Tools 就是它伸向外界的手——這是 Agent 與 Chatbot 最關鍵的差異。詳見第三篇 工具呼叫,以及把工具標準化的第四篇 MCP。
3. Memory(記憶) 回顧 LLM 基礎:模型本身不記憶,靠上下文視窗當短期工作記憶。但任務一長、步驟一多,視窗會塞不下,於是需要額外的記憶機制(摘要、外部儲存、向量檢索)。詳見第五篇 Skills 與協作。
4. Planning(規劃) 面對「重構整個專案」這種大任務,Agent 需要先拆解、排序,而不是埋頭亂做。規劃能力越強,越能處理複雜、多步驟的任務。
Agent Loop 運作迴圈
Agent 的靈魂是一個迴圈,而不是一問一答。最經典的模式叫 ReAct(Reasoning + Acting,推理 + 行動):
┌─────────────────────────────────────┐
│ │
▼ │
① 思考 (Reason) │
「目前狀況如何?下一步該做什麼?」 │
│ │
▼ │
② 行動 (Act) │
呼叫某個工具(搜尋 / 讀檔 / 執行…) │
│ │
▼ │
③ 觀察 (Observe) │
拿到工具回傳的結果 │
│ │
▼ │
④ 任務完成了嗎?─── 否 ───────────────────────┘
│
是
▼
回報最終結果
每一圈在做什麼
- 思考(Reason):LLM 看著目前的進度與資訊,判斷下一步。
- 行動(Act):決定呼叫一個工具去做事(例如「搜尋含
oldApi(的檔案」)。 - 觀察(Observe):工具執行完,把結果(搜尋到的檔案清單)回傳,塞回上下文視窗讓 LLM 看到。
- 判斷:任務完成就回報;沒完成就帶著新資訊,再跑下一圈。
為什麼一定要迴圈?
因為真實任務無法「一步到位」。Agent 往往要先查、根據查到的結果再決定下一步、做完再驗證。每一圈都讓它多知道一點、更接近目標一點——這正是「會做事」與「只會回話」的本質差異。
⚠️ 每跑一圈,工具結果都會累積進上下文視窗,token 越用越多。所以 Agent 框架通常會設「最多跑幾圈」的上限,避免無限迴圈或爆掉 token。
自主性的層級
「Agent」不是有或沒有,而是一條自主程度的光譜。常見會用「人介入的多寡」來區分:
低自主 ←───────────────────────────────────→ 高自主
純對話 建議型 半自動 全自動
只回答 告訴你怎麼做 每步問你要不要做 自己做完才回報
| 層級 | 行為 | 例子 |
|---|---|---|
| 建議型 | 只給建議,由你動手 | 「你可以執行這個指令:…」 |
| 半自動(需核准) | 每個行動前先問你同意 | 「我要修改這 3 個檔案,可以嗎?」 |
| 全自動 | 自己連續執行直到完成 | 自己改完、測完,最後才回報 |
取捨
- 自主性越高 → 越省事,但風險越大:萬一判斷錯,可能改錯檔、刪錯資料。
- 所以實務上常見「重要或不可逆的操作要人核准,安全的操作就放手」。Claude Code 的權限模式就是這個概念:讀檔自動做,但刪除、推送這類動作會先問你。
一次完整的 Agent 運作
把前面拼起來,看一個完整例子。任務:「找出專案裡寫死的測試帳號並移除」。
使用者:「找出專案裡寫死的測試帳號並移除。」
第 1 圈
思考:我得先找出哪些檔案有測試帳號 → 用搜尋工具
行動:grep 搜尋 "test@example.com"
觀察:找到 config.js:12、seed.js:30 兩處
第 2 圈
思考:先看看 config.js 第 12 行的上下文,確認怎麼改
行動:讀取 config.js
觀察:是一段寫死的預設帳號設定
第 3 圈
思考:改成從環境變數讀取,移除寫死的值
行動:編輯 config.js
觀察:修改成功
第 4 圈
思考:seed.js 同樣處理
行動:編輯 seed.js
觀察:修改成功
第 5 圈
思考:改完了,跑測試確認沒弄壞
行動:執行 npm test
觀察:測試全數通過 ✅
→ 任務完成,回報:「已移除 2 處寫死的測試帳號,改為讀環境變數,測試通過。」
每一圈都是「思考 → 行動 → 觀察」,靠工具一步步推進——這就是 Agent 的全貌。
常見誤解
誤解 1:Agent 是一種「更聰明的模型」。
正確理解:Agent 不是新的模型,而是「LLM + 工具 + 一個迴圈」組成的系統。同一個 LLM,配上工具與迴圈就成了 Agent。讓它變強的關鍵往往不是換更大的模型,而是給它更好的工具和規劃。
誤解 2:Agent 會「自己學習、越用越聰明」。
正確理解:回顧 訓練 vs 推論,模型在推論階段是固定的。Agent 在單次任務裡「變聰明」是因為它透過工具蒐集到更多資訊放進上下文,不是模型本身被更新了。任務結束、上下文清空,它就「忘了」。
誤解 3:給了工具,Agent 就萬無一失。
正確理解:Agent 的判斷仍來自 LLM,一樣會幻覺、會誤判。工具讓它能做事,但不保證做對事——所以高風險操作仍需要驗證與人工核准。
常見問題
問題 1:Agent 和 Chatbot 到底差在哪?
最核心一句:Chatbot 只會回話,Agent 會透過工具做事,而且會自己迴圈多步直到完成。 Chatbot 給你「怎麼做」,Agent 直接「做給你看」。
問題 2:Agent 的「迴圈」會不會停不下來?
會有這風險,所以框架通常設上限:最多跑 N 圈、或 token 用到一定量就停。判斷「任務是否完成」也是 LLM 每圈在做的決策之一。
問題 3:Agent 一定要用很大的模型嗎?
不一定。決定 Agent 能力的是「模型決策品質 + 工具好不好用 + 規劃策略」的綜合。簡單任務用小模型配好工具就夠;複雜推理任務才需要更強的模型。
問題 4:Memory 和上下文視窗是同一回事嗎?
不完全是。上下文視窗是模型「這一輪能看到」的短期工作區(見 LLM 基礎);Memory 是額外的機制,把重要資訊存在視窗之外、需要時再撈回來,用來突破視窗有限的限制。詳見第五篇。
總結
核心要點
Agent = LLM(大腦)+ Tools(手腳)+ Memory(記憶)+ Planning(規劃)
並以「思考 → 行動 → 觀察」的迴圈運作
關鍵認知:
├─ Agent 不是更聰明的模型,是「LLM + 工具 + 迴圈」的系統
├─ 它的本事來自「能呼叫工具做事」,而非只會回話
├─ 自主性是光譜:高自主省事但風險大,故有人核准機制
└─ 它仍會誤判/幻覺,能做事 ≠ 保證做對事
快速記憶
| 概念 | 一句話 |
|---|---|
| Agent | 會規劃、會用工具做事的 AI 系統 |
| vs Chatbot | Chatbot 回話、Agent 做事 |
| 四組成 | LLM + Tools + Memory + Planning |
| Agent Loop | 思考 → 行動 → 觀察,迴圈直到完成(ReAct) |
| 自主性 | 從建議型到全自動的光譜,高風險操作需核准 |
學習路徑
1. 理解 Agent 與 Chatbot 的本質差異 ✓
2. 認識 Agent 的四個組成 ✓
3. 掌握思考-行動-觀察的迴圈 ✓
4. 了解自主性層級與風險取捨 ✓
5. 下一步 → 看 Agent 的「手腳」工具是怎麼運作的
下一篇
👉 工具呼叫 Tools / Function Calling:Agent 能做事的關鍵就在「呼叫工具」。下一篇拆解 LLM 怎麼定義工具、怎麼決定呼叫哪一個、結果又怎麼回到迴圈裡。
建立日期:2026-06-01 最後更新:2026-06-01