AI Agent 是什麼

從 Chatbot 到 Agent 的差別、Agent 的組成(LLM + Tools + Memory + Planning),以及核心的 Agent Loop 思考-行動-觀察迴圈。

這是 AI 系列第二篇。讀本篇前建議先看 AI 與 LLM 基礎,本篇會直接用到 token、上下文視窗、工具等詞彙。


目錄


什麼是 Agent?

AI Agent(智慧代理)是一個「會自己規劃、並透過工具採取行動來完成任務」的 AI 系統。

關鍵差別在於:純粹的 LLM 只會「回話」,而 Agent 會「做事」。

Chatbot vs Agent

面向 純 Chatbot(單純 LLM 對話) AI Agent
能做什麼 根據你的話生成文字回答 為了達成目標,主動採取一連串行動
能不能查即時資料 不行,只能靠訓練時學到的 可以,呼叫工具去查
能不能執行操作 不行,只能「告訴你怎麼做」 可以,實際去執行(讀檔、改檔、跑指令、呼叫 API)
互動次數 通常一問一答 自己迴圈多步,直到任務完成
比喻 一位很博學但只能動嘴的顧問 一位能動手、會自己查資料、做完才回報的助理

一個直覺的例子

你問:「幫我把專案裡所有過時的 API 呼叫換成新寫法。」

  • Chatbot 會說:「你可以這樣改……」然後給你一段範例,剩下你自己做。
  • Agent 會:搜尋專案裡所有用到舊 API 的檔案 → 逐一讀取 → 修改 → 跑測試確認沒壞 → 回報「改好了 8 個檔案,測試通過」。

💡 像 Claude Code 這類 coding agent 就是典型例子:它會自己讀檔、搜尋、改檔、跑指令,而不只是給你建議。


Agent 的組成

一個 Agent 通常由四個部分組成。可以用「一個能幹的員工」來類比:

Agent = LLM(大腦)+ Tools(手腳)+ Memory(記憶)+ Planning(規劃)
組成 角色 負責什麼
LLM 大腦 理解任務、做決策、決定下一步要做什麼
Tools 手腳 實際對外界採取行動:搜尋、讀寫檔案、呼叫 API、執行程式
Memory 記憶 記住目前進度、過去步驟、相關資訊
Planning 規劃 把大目標拆成可執行的小步驟、決定順序

各部分細看

1. LLM(大腦) 整個 Agent 的決策核心。每一步都是 LLM 在判斷:「目前狀況是這樣,我下一步該做什麼?要不要用工具?用哪個?」詳見 LLM 基礎

2. Tools(手腳) LLM 本身只能輸出文字,無法真的去查資料或改檔案。Tools 就是它伸向外界的手——這是 Agent 與 Chatbot 最關鍵的差異。詳見第三篇 工具呼叫,以及把工具標準化的第四篇 MCP

3. Memory(記憶) 回顧 LLM 基礎:模型本身不記憶,靠上下文視窗當短期工作記憶。但任務一長、步驟一多,視窗會塞不下,於是需要額外的記憶機制(摘要、外部儲存、向量檢索)。詳見第五篇 Skills 與協作

4. Planning(規劃) 面對「重構整個專案」這種大任務,Agent 需要先拆解、排序,而不是埋頭亂做。規劃能力越強,越能處理複雜、多步驟的任務。


Agent Loop 運作迴圈

Agent 的靈魂是一個迴圈,而不是一問一答。最經典的模式叫 ReAct(Reasoning + Acting,推理 + 行動)

        ┌─────────────────────────────────────┐
        │                                     │
        ▼                                     │
  ① 思考 (Reason)                             │
     「目前狀況如何?下一步該做什麼?」             │
        │                                     │
        ▼                                     │
  ② 行動 (Act)                                │
     呼叫某個工具(搜尋 / 讀檔 / 執行…)           │
        │                                     │
        ▼                                     │
  ③ 觀察 (Observe)                            │
     拿到工具回傳的結果                          │
        │                                     │
        ▼                                     │
  ④ 任務完成了嗎?─── 否 ───────────────────────┘
     回報最終結果

每一圈在做什麼

  1. 思考(Reason):LLM 看著目前的進度與資訊,判斷下一步。
  2. 行動(Act):決定呼叫一個工具去做事(例如「搜尋含 oldApi( 的檔案」)。
  3. 觀察(Observe):工具執行完,把結果(搜尋到的檔案清單)回傳,塞回上下文視窗讓 LLM 看到。
  4. 判斷:任務完成就回報;沒完成就帶著新資訊,再跑下一圈。

為什麼一定要迴圈?

因為真實任務無法「一步到位」。Agent 往往要先查、根據查到的結果再決定下一步、做完再驗證。每一圈都讓它多知道一點、更接近目標一點——這正是「會做事」與「只會回話」的本質差異。

⚠️ 每跑一圈,工具結果都會累積進上下文視窗,token 越用越多。所以 Agent 框架通常會設「最多跑幾圈」的上限,避免無限迴圈或爆掉 token。


自主性的層級

「Agent」不是有或沒有,而是一條自主程度的光譜。常見會用「人介入的多寡」來區分:

低自主 ←───────────────────────────────────→ 高自主

純對話        建議型         半自動           全自動
只回答      告訴你怎麼做   每步問你要不要做   自己做完才回報
層級 行為 例子
建議型 只給建議,由你動手 「你可以執行這個指令:…」
半自動(需核准) 每個行動前先問你同意 「我要修改這 3 個檔案,可以嗎?」
全自動 自己連續執行直到完成 自己改完、測完,最後才回報

取捨

  • 自主性越高 → 越省事,但風險越大:萬一判斷錯,可能改錯檔、刪錯資料。
  • 所以實務上常見「重要或不可逆的操作要人核准,安全的操作就放手」。Claude Code 的權限模式就是這個概念:讀檔自動做,但刪除、推送這類動作會先問你。

一次完整的 Agent 運作

把前面拼起來,看一個完整例子。任務:「找出專案裡寫死的測試帳號並移除」

使用者:「找出專案裡寫死的測試帳號並移除。」

第 1 圈
  思考:我得先找出哪些檔案有測試帳號 → 用搜尋工具
  行動:grep 搜尋 "test@example.com"
  觀察:找到 config.js:12、seed.js:30 兩處

第 2 圈
  思考:先看看 config.js 第 12 行的上下文,確認怎麼改
  行動:讀取 config.js
  觀察:是一段寫死的預設帳號設定

第 3 圈
  思考:改成從環境變數讀取,移除寫死的值
  行動:編輯 config.js
  觀察:修改成功

第 4 圈
  思考:seed.js 同樣處理
  行動:編輯 seed.js
  觀察:修改成功

第 5 圈
  思考:改完了,跑測試確認沒弄壞
  行動:執行 npm test
  觀察:測試全數通過 ✅

  → 任務完成,回報:「已移除 2 處寫死的測試帳號,改為讀環境變數,測試通過。」

每一圈都是「思考 → 行動 → 觀察」,靠工具一步步推進——這就是 Agent 的全貌。


常見誤解

誤解 1:Agent 是一種「更聰明的模型」。

正確理解:Agent 不是新的模型,而是「LLM + 工具 + 一個迴圈」組成的系統。同一個 LLM,配上工具與迴圈就成了 Agent。讓它變強的關鍵往往不是換更大的模型,而是給它更好的工具和規劃。

誤解 2:Agent 會「自己學習、越用越聰明」。

正確理解:回顧 訓練 vs 推論,模型在推論階段是固定的。Agent 在單次任務裡「變聰明」是因為它透過工具蒐集到更多資訊放進上下文,不是模型本身被更新了。任務結束、上下文清空,它就「忘了」。

誤解 3:給了工具,Agent 就萬無一失。

正確理解:Agent 的判斷仍來自 LLM,一樣會幻覺、會誤判。工具讓它能做事,但不保證做對事——所以高風險操作仍需要驗證與人工核准。


常見問題

問題 1:Agent 和 Chatbot 到底差在哪?

最核心一句:Chatbot 只會回話,Agent 會透過工具做事,而且會自己迴圈多步直到完成。 Chatbot 給你「怎麼做」,Agent 直接「做給你看」。

問題 2:Agent 的「迴圈」會不會停不下來?

會有這風險,所以框架通常設上限:最多跑 N 圈、或 token 用到一定量就停。判斷「任務是否完成」也是 LLM 每圈在做的決策之一。

問題 3:Agent 一定要用很大的模型嗎?

不一定。決定 Agent 能力的是「模型決策品質 + 工具好不好用 + 規劃策略」的綜合。簡單任務用小模型配好工具就夠;複雜推理任務才需要更強的模型。

問題 4:Memory 和上下文視窗是同一回事嗎?

不完全是。上下文視窗是模型「這一輪能看到」的短期工作區(見 LLM 基礎);Memory 是額外的機制,把重要資訊存在視窗之外、需要時再撈回來,用來突破視窗有限的限制。詳見第五篇。


總結

核心要點

Agent = LLM(大腦)+ Tools(手腳)+ Memory(記憶)+ Planning(規劃)
        並以「思考 → 行動 → 觀察」的迴圈運作

關鍵認知:
  ├─ Agent 不是更聰明的模型,是「LLM + 工具 + 迴圈」的系統
  ├─ 它的本事來自「能呼叫工具做事」,而非只會回話
  ├─ 自主性是光譜:高自主省事但風險大,故有人核准機制
  └─ 它仍會誤判/幻覺,能做事 ≠ 保證做對事

快速記憶

概念 一句話
Agent 會規劃、會用工具做事的 AI 系統
vs Chatbot Chatbot 回話、Agent 做事
四組成 LLM + Tools + Memory + Planning
Agent Loop 思考 → 行動 → 觀察,迴圈直到完成(ReAct)
自主性 從建議型到全自動的光譜,高風險操作需核准

學習路徑

1. 理解 Agent 與 Chatbot 的本質差異 ✓
2. 認識 Agent 的四個組成 ✓
3. 掌握思考-行動-觀察的迴圈 ✓
4. 了解自主性層級與風險取捨 ✓
5. 下一步 → 看 Agent 的「手腳」工具是怎麼運作的

下一篇

👉 工具呼叫 Tools / Function Calling:Agent 能做事的關鍵就在「呼叫工具」。下一篇拆解 LLM 怎麼定義工具、怎麼決定呼叫哪一個、結果又怎麼回到迴圈裡。


建立日期:2026-06-01 最後更新:2026-06-01

🔗相關文章