AI Agent 是什麼

這是 AI 系列第二篇。讀本篇前建議先看 AI 與 LLM 基礎，本篇會直接用到 token、上下文視窗、工具等詞彙。

什麼是 Agent？

AI Agent（智慧代理）是一個「會自己規劃、並透過工具採取行動來完成任務」的 AI 系統。

關鍵差別在於：純粹的 LLM 只會「回話」，而 Agent 會「做事」。

Chatbot vs Agent

面向	純 Chatbot（單純 LLM 對話）	AI Agent
能做什麼	根據你的話生成文字回答	為了達成目標，主動採取一連串行動
能不能查即時資料	不行，只能靠訓練時學到的	可以，呼叫工具去查
能不能執行操作	不行，只能「告訴你怎麼做」	可以，實際去執行（讀檔、改檔、跑指令、呼叫 API）
互動次數	通常一問一答	自己迴圈多步，直到任務完成
比喻	一位很博學但只能動嘴的顧問	一位能動手、會自己查資料、做完才回報的助理

一個直覺的例子

你問：「幫我把專案裡所有過時的 API 呼叫換成新寫法。」

Chatbot 會說：「你可以這樣改……」然後給你一段範例，剩下你自己做。
Agent 會：搜尋專案裡所有用到舊 API 的檔案 → 逐一讀取 → 修改 → 跑測試確認沒壞 → 回報「改好了 8 個檔案，測試通過」。

💡 像 Claude Code 這類 coding agent 就是典型例子：它會自己讀檔、搜尋、改檔、跑指令，而不只是給你建議。

Agent 的組成

一個 Agent 通常由四個部分組成。可以用「一個能幹的員工」來類比：

Agent = LLM（大腦）+ Tools（手腳）+ Memory（記憶）+ Planning（規劃）

組成	角色	負責什麼
LLM	大腦	理解任務、做決策、決定下一步要做什麼
Tools	手腳	實際對外界採取行動：搜尋、讀寫檔案、呼叫 API、執行程式
Memory	記憶	記住目前進度、過去步驟、相關資訊
Planning	規劃	把大目標拆成可執行的小步驟、決定順序

各部分細看

1. LLM（大腦） 整個 Agent 的決策核心。每一步都是 LLM 在判斷：「目前狀況是這樣，我下一步該做什麼？要不要用工具？用哪個？」詳見 LLM 基礎。

2. Tools（手腳） LLM 本身只能輸出文字，無法真的去查資料或改檔案。Tools 就是它伸向外界的手——這是 Agent 與 Chatbot 最關鍵的差異。詳見第三篇工具呼叫，以及把工具標準化的第四篇 MCP。

3. Memory（記憶） 回顧 LLM 基礎：模型本身不記憶，靠上下文視窗當短期工作記憶。但任務一長、步驟一多，視窗會塞不下，於是需要額外的記憶機制（摘要、外部儲存、向量檢索）。詳見第五篇 Skills 與協作。

4. Planning（規劃） 面對「重構整個專案」這種大任務，Agent 需要先拆解、排序，而不是埋頭亂做。規劃能力越強，越能處理複雜、多步驟的任務。

Agent Loop 運作迴圈

Agent 的靈魂是一個迴圈，而不是一問一答。最經典的模式叫 ReAct（Reasoning + Acting，推理 + 行動）：

        ┌─────────────────────────────────────┐
        │                                     │
        ▼                                     │
  ① 思考 (Reason)                             │
     「目前狀況如何？下一步該做什麼？」             │
        │                                     │
        ▼                                     │
  ② 行動 (Act)                                │
     呼叫某個工具（搜尋 / 讀檔 / 執行…）           │
        │                                     │
        ▼                                     │
  ③ 觀察 (Observe)                            │
     拿到工具回傳的結果                          │
        │                                     │
        ▼                                     │
  ④ 任務完成了嗎？─── 否 ───────────────────────┘
        │
        是
        ▼
     回報最終結果

每一圈在做什麼

思考（Reason）：LLM 看著目前的進度與資訊，判斷下一步。
行動（Act）：決定呼叫一個工具去做事（例如「搜尋含 oldApi( 的檔案」）。
觀察（Observe）：工具執行完，把結果（搜尋到的檔案清單）回傳，塞回上下文視窗讓 LLM 看到。
判斷：任務完成就回報；沒完成就帶著新資訊，再跑下一圈。

為什麼一定要迴圈？

因為真實任務無法「一步到位」。Agent 往往要先查、根據查到的結果再決定下一步、做完再驗證。每一圈都讓它多知道一點、更接近目標一點——這正是「會做事」與「只會回話」的本質差異。

⚠️ 每跑一圈，工具結果都會累積進上下文視窗，token 越用越多。所以 Agent 框架通常會設「最多跑幾圈」的上限，避免無限迴圈或爆掉 token。

自主性的層級

「Agent」不是有或沒有，而是一條自主程度的光譜。常見會用「人介入的多寡」來區分：

低自主 ←───────────────────────────────────→ 高自主

純對話        建議型         半自動           全自動
只回答      告訴你怎麼做   每步問你要不要做   自己做完才回報

層級	行為	例子
建議型	只給建議，由你動手	「你可以執行這個指令：…」
半自動（需核准）	每個行動前先問你同意	「我要修改這 3 個檔案，可以嗎？」
全自動	自己連續執行直到完成	自己改完、測完，最後才回報

取捨

自主性越高 → 越省事，但風險越大：萬一判斷錯，可能改錯檔、刪錯資料。
所以實務上常見「重要或不可逆的操作要人核准，安全的操作就放手」。Claude Code 的權限模式就是這個概念：讀檔自動做，但刪除、推送這類動作會先問你。

一次完整的 Agent 運作

把前面拼起來，看一個完整例子。任務：「找出專案裡寫死的測試帳號並移除」。

使用者：「找出專案裡寫死的測試帳號並移除。」

第 1 圈
  思考：我得先找出哪些檔案有測試帳號 → 用搜尋工具
  行動：grep 搜尋 "test@example.com"
  觀察：找到 config.js:12、seed.js:30 兩處

第 2 圈
  思考：先看看 config.js 第 12 行的上下文，確認怎麼改
  行動：讀取 config.js
  觀察：是一段寫死的預設帳號設定

第 3 圈
  思考：改成從環境變數讀取，移除寫死的值
  行動：編輯 config.js
  觀察：修改成功

第 4 圈
  思考：seed.js 同樣處理
  行動：編輯 seed.js
  觀察：修改成功

第 5 圈
  思考：改完了，跑測試確認沒弄壞
  行動：執行 npm test
  觀察：測試全數通過 ✅

  → 任務完成，回報：「已移除 2 處寫死的測試帳號，改為讀環境變數，測試通過。」

每一圈都是「思考 → 行動 → 觀察」，靠工具一步步推進——這就是 Agent 的全貌。

常見誤解

誤解 1：Agent 是一種「更聰明的模型」。

正確理解：Agent 不是新的模型，而是「LLM + 工具 + 一個迴圈」組成的系統。同一個 LLM，配上工具與迴圈就成了 Agent。讓它變強的關鍵往往不是換更大的模型，而是給它更好的工具和規劃。

誤解 2：Agent 會「自己學習、越用越聰明」。

正確理解：回顧訓練 vs 推論，模型在推論階段是固定的。Agent 在單次任務裡「變聰明」是因為它透過工具蒐集到更多資訊放進上下文，不是模型本身被更新了。任務結束、上下文清空，它就「忘了」。

誤解 3：給了工具，Agent 就萬無一失。

正確理解：Agent 的判斷仍來自 LLM，一樣會幻覺、會誤判。工具讓它能做事，但不保證做對事——所以高風險操作仍需要驗證與人工核准。

Agent = LLM（大腦）+ Tools（手腳）+ Memory（記憶）+ Planning（規劃）
        並以「思考 → 行動 → 觀察」的迴圈運作

關鍵認知：
  ├─ Agent 不是更聰明的模型，是「LLM + 工具 + 迴圈」的系統
  ├─ 它的本事來自「能呼叫工具做事」，而非只會回話
  ├─ 自主性是光譜：高自主省事但風險大，故有人核准機制
  └─ 它仍會誤判/幻覺，能做事 ≠ 保證做對事

快速記憶

概念	一句話
Agent	會規劃、會用工具做事的 AI 系統
vs Chatbot	Chatbot 回話、Agent 做事
四組成	LLM + Tools + Memory + Planning
Agent Loop	思考 → 行動 → 觀察，迴圈直到完成（ReAct）
自主性	從建議型到全自動的光譜，高風險操作需核准

學習路徑

1. 理解 Agent 與 Chatbot 的本質差異 ✓
2. 認識 Agent 的四個組成 ✓
3. 掌握思考-行動-觀察的迴圈 ✓
4. 了解自主性層級與風險取捨 ✓
5. 下一步 → 看 Agent 的「手腳」工具是怎麼運作的

👉 工具呼叫 Tools / Function Calling：Agent 能做事的關鍵就在「呼叫工具」。下一篇拆解 LLM 怎麼定義工具、怎麼決定呼叫哪一個、結果又怎麼回到迴圈裡。

建立日期：2026-06-01 最後更新：2026-06-01

AI Agent 是什麼

目錄

什麼是 Agent？

Chatbot vs Agent

一個直覺的例子

Agent 的組成

各部分細看

Agent Loop 運作迴圈

每一圈在做什麼

為什麼一定要迴圈？

自主性的層級

取捨

一次完整的 Agent 運作

常見誤解

常見問題

問題 1：Agent 和 Chatbot 到底差在哪？

問題 2：Agent 的「迴圈」會不會停不下來？

問題 3：Agent 一定要用很大的模型嗎？

問題 4：Memory 和上下文視窗是同一回事嗎？

總結

核心要點

快速記憶

學習路徑

下一篇

🔗相關文章