Jawapan ringkas: Untuk membina ejen AI yang berfungsi dalam praktik, anggap ia sebagai gelung terkawal: ambil input, tentukan tindakan seterusnya, panggil alat yang berskop sempit, perhatikan hasilnya dan ulangi sehingga semakan "selesai" yang jelas lulus. Ia kekal apabila tugasan berbilang langkah dan dipacu alat; jika satu gesaan menyelesaikannya, langkau ejen. Tambahkan skema alat yang ketat, had langkah, pengelogan dan pengesah/pengkritik supaya apabila alat gagal atau input samar-samar, ejen akan meningkat dan bukannya berulang.
Kesimpulan utama:
Gelung pengawal : Laksanakan input→act→cerap pengulangan dengan syarat hentian eksplisit dan langkah maksimum.
Reka bentuk alat : Pastikan alat disempitkan, ditaip, dibenarkan dan disahkan untuk mengelakkan kekacauan "lakukan_apa_apa sahaja".
Kebersihan ingatan : Gunakan keadaan jangka pendek yang padat dan pengambilan jangka panjang; elakkan membuang transkrip penuh.
Rintangan penyalahgunaan : Tambah senarai dibenarkan, had kadar, idempotensi dan "jangka masa kering" untuk tindakan berisiko.
Kebolehujian : Kekalkan suit senario (kegagalan, kekaburan, suntikan) dan jalankan semula pada setiap perubahan.

🔗 Cara mengukur prestasi AI
Pelajari metrik praktikal untuk menanda aras kelajuan, ketepatan dan kebolehpercayaan.
🔗 Cara bercakap dengan AI
Gunakan gesaan, konteks dan susulan untuk mendapatkan jawapan yang lebih baik.
🔗 Cara menilai model AI
Bandingkan model menggunakan ujian, rubrik dan hasil tugasan dunia sebenar.
🔗 Cara mengoptimumkan model AI
Tingkatkan kualiti dan kos dengan penalaan, pemangkasan dan pemantauan.
1) Apakah ejen AI, dalam istilah orang biasa 🧠
Ejen AI ialah gelung. Dokumen "Ejen" LangChain
Itu sahaja. Gelung dengan otak di tengah.
Input → fikir → bertindak → perhatikan → ulangi . Kertas ReAct (menaakul + bertindak)
Di mana:
-
Input ialah permintaan pengguna atau peristiwa (e-mel baharu, tiket sokongan, ping sensor).
-
Fikirkan merupakan model bahasa yang menaakul tentang langkah seterusnya.
-
Act sedang memanggil alat (cari dokumen dalaman, jalankan kod, cipta tiket, draf balasan). Panduan panggilan Fungsi OpenAI
-
Perhatikan sedang membaca output alat.
-
Ulangan adalah bahagian yang menjadikannya terasa "ejen" dan bukannya "bersembang". Dokumen "Ejen" LangChain
Sesetengah ejen pada dasarnya merupakan makro pintar. Ada juga yang bertindak lebih seperti pengendali junior yang boleh menguruskan tugasan dan pulih daripada ralat. Kedua-duanya penting.
Selain itu, anda tidak memerlukan autonomi penuh. Malah… anda mungkin tidak menginginkannya 🙃
2) Bila anda perlu membina ejen (dan bila anda tidak sepatutnya) 🚦
Bina ejen apabila:
-
Kerja ini terdiri daripada pelbagai langkah dan berubah bergantung pada apa yang berlaku di pertengahan jalan.
-
Kerja ini memerlukan penggunaan alat (pangkalan data, CRM, pelaksanaan kod, penjanaan fail, pelayar, API dalaman). Dokumen "Alat" LangChain
-
Anda mahukan hasil yang boleh diulang dengan pagar pembatas, bukan sekadar jawapan sekali sahaja.
-
Anda boleh mentakrifkan "selesai" dengan cara yang boleh disemak oleh komputer, walaupun secara longgar.
Jangan bina ejen apabila:
-
Gesaan + respons mudah menyelesaikannya (jangan terlalu merekayasa, anda akan membenci diri sendiri kemudian).
-
Anda memerlukan determinisme yang sempurna (ejen boleh menjadi konsisten, tetapi bukan robotik).
-
Anda tidak mempunyai sebarang alatan atau data untuk berhubung - maka ia kebanyakannya hanyalah getaran.
Terus terang: separuh daripada “projek ejen AI” boleh jadi aliran kerja dengan beberapa peraturan percabangan. Tetapi, kadangkala getarannya juga penting 🤷♂️
3) Apa yang menjadikan versi ejen AI yang baik ✅
Berikut ialah bahagian “Apa yang menjadikan versi yang baik” yang anda minta, kecuali saya akan berterus terang:
Versi ejen AI yang baik bukanlah yang berfikir paling keras. Ia adalah versi yang:
-
Mengetahui apa yang dibenarkan untuk dilakukan (sempadan skop)
-
Menggunakan alatan dengan andal (panggilan berstruktur, percubaan semula, tamat masa) Panduan panggilan Fungsi OpenAI AWS “Tamat masa, percubaan semula dan undur dengan jitter”
-
Mengekalkan keadaan bersih (memori yang tidak reput) LangChain “Gambaran keseluruhan memori”
-
Menerangkan tindakannya (jejak audit, bukan lambakan penaakulan rahsia) NIST AI RMF 1.0 (kebolehpercayaan & ketelusan)
-
Berhenti dengan sewajarnya (semak penyiapan, langkah maksimum, peningkatan) Dokumen "Ejen" LangChain
-
Gagal dengan selamat (meminta bantuan, tidak berhalusinasi dengan pihak berkuasa) NIST AI RMF 1.0
-
Boleh diuji (anda boleh menjalankannya pada senario yang telah dikemas kini dan menjaringkan keputusan)
Jika ejen anda tidak dapat diuji, ia pada dasarnya adalah mesin slot yang sangat yakin. Seronok di pesta, menakutkan dalam pengeluaran 😬
4) Blok binaan teras ejen ("anatomi" 🧩)
Kebanyakan agen pepejal mempunyai kepingan ini:
A) Gelung pengawal 🔁
Inilah orkestratornya:
-
mengambil gol
-
minta model untuk tindakan seterusnya
-
jalankan alat
-
tambah pemerhatian
-
ulang sehingga selesai Dokumen "Ejen" LangChain
B) Alatan (juga dikenali sebagai keupayaan) 🧰
Alat adalah apa yang menjadikan ejen berkesan: Dokumen "Alat" LangChain
-
pertanyaan pangkalan data
-
menghantar e-mel
-
menarik fail
-
kod yang sedang berjalan
-
memanggil API dalaman
-
menulis ke hamparan atau CRM
C) Ingatan 🗃️
Dua jenis penting:
-
ingatan jangka pendek : konteks larian semasa, langkah terkini, rancangan semasa
-
ingatan jangka panjang : pilihan pengguna, konteks projek, pengetahuan yang diperoleh (selalunya melalui penyematan + stor vektor) kertas RAG
D) Dasar perancangan dan keputusan 🧭
Walaupun anda tidak memanggilnya "perancangan", anda memerlukan kaedah:
-
senarai semak
-
Kertas ReAct gaya ReAct “fikir kemudian alat”
-
graf tugasan
-
corak penyelia-pekerja
-
corak penyelia-pekerja Microsoft AutoGen (rangka kerja berbilang ejen)
E) Pagar pengadang dan penilaian 🧯
-
kebenaran
-
skema alat selamat Output Berstruktur OpenAI
-
pengesahan output
-
had langkah
-
pembalakan
-
ujian NIST AI RMF 1.0
Ya, ia lebih kepada kejuruteraan daripada gesaan. Itulah… intinya.
5) Jadual Perbandingan: cara popular untuk membina ejen 🧾
Di bawah ialah "Jadual Perbandingan" yang realistik - dengan beberapa kebiasaan, kerana pasukan sebenar adalah unik 😄
| Alat / Kerangka Kerja | Khalayak | Harga | Mengapa ia berkesan | Nota (kekacauan kecil) | |
|---|---|---|---|---|---|
| LangChain | pembina yang menyukai komponen gaya lego | bebas + infra | ekosistem besar untuk alat, memori, rantai | boleh cepat masak spageti kalau tak sebut nama dengan jelas | |
| Indeks Llama | Pasukan yang banyak menggunakan RAG | bebas + infra | corak pencarian semula yang kuat, pengindeksan, penyambung | bagus apabila ejen anda pada asasnya "cari + bertindak"... yang mana perkara biasa | |
| Pendekatan gaya Pembantu OpenAI | pasukan mahukan persediaan yang lebih pantas | berasaskan penggunaan | corak panggilan alat terbina dalam dan keadaan jalanan | kurang fleksibel di beberapa sudut, tetapi bersih untuk banyak aplikasi | OpenAI Menjalankan API Pembantu OpenAI memanggil fungsi |
| Kernel Semantik | pembangun yang mahukan orkestrasi berstruktur | bebas-bebas | abstraksi kemas untuk kemahiran/fungsi | terasa “kemas di perusahaan” - kadangkala itu satu pujian 😉 | |
| AutoGen | penguji berbilang ejen | bebas-bebas | corak kerjasama ejen-ke-ejen | boleh bercakap berlebihan; tetapkan peraturan penamatan yang ketat | |
| CrewAI | peminat "pasukan ejen" | bebas-bebas | peranan + tugas + serahan mudah untuk dinyatakan | berfungsi dengan baik apabila tugasan rangup, tidak lembik | |
| Timbunan jerami | orang carian + saluran paip | bebas-bebas | saluran paip pepejal, pengambilan semula, komponen | kurang "teater ejen", lebih "kilang praktikal" | |
| Gulung sendiri (gelung tersuai) | orang yang gemar mengawal (penyayang) | masa anda | sihir minimum, kejelasan maksimum | biasanya yang terbaik dalam jangka masa panjang… sehingga anda mencipta semula segala-galanya 😅 |
Tiada pemenang tunggal. Pilihan terbaik bergantung pada sama ada tugas utama ejen anda ialah pencarian semula , pelaksanaan alat , penyelarasan berbilang ejen atau automasi aliran kerja .
6) Cara Membina Ejen AI langkah demi langkah (resipi sebenar) 🍳🤖
Ini bahagian yang kebanyakan orang langkau, kemudian tertanya-tanya mengapa ejen itu berkelakuan seperti rakun di dalam pantri.
Langkah 1: Takrifkan pekerjaan dalam satu ayat 🎯
Contoh:
-
"Draf balasan pelanggan menggunakan konteks dasar dan tiket, kemudian minta kelulusan."
-
"Siasati laporan pepijat, hasilkannya semula dan cadangkan pembetulan."
-
"Tukarkan nota mesyuarat yang tidak sempurna kepada tugasan, pemilik dan tarikh akhir."
Jika anda tidak dapat mentakrifkannya secara ringkas, ejen anda juga tidak boleh. Maksud saya ia boleh, tetapi ia akan berimprovisasi, dan improvisasi adalah tempat bajet akan berakhir.
Langkah 2: Tentukan tahap autonomi (rendah, sederhana, pedas) 🌶️
-
Autonomi rendah : mencadangkan langkah, klik manusia "meluluskan"
-
Medium : menjalankan alatan, mendraf output, meningkatkan ketidakpastian
-
Tinggi : melaksanakan hujung ke hujung, hanya menghantar ping kepada manusia pada pengecualian
Mulakan lebih rendah daripada yang anda mahukan. Anda sentiasa boleh meningkatkannya kemudian.
Langkah 3: Pilih strategi model anda 🧠
Anda biasanya memilih:
-
satu model yang kukuh untuk segala-galanya (mudah)
-
satu model yang kuat + model yang lebih kecil untuk langkah-langkah murah (pengelasan, penghalaan)
-
model khusus (visi, kod, pertuturan) jika diperlukan
Juga putuskan:
-
token maksimum
-
suhu
-
sama ada anda membenarkan jejak penaakulan yang panjang secara dalaman (anda boleh, tetapi jangan dedahkan rantaian pemikiran mentah kepada pengguna akhir)
Langkah 4: Takrifkan alatan dengan skema yang ketat 🔩
Alatan hendaklah:
-
sempit
-
ditaip
-
dibenarkan
-
Output Berstruktur OpenAI yang disahkan
Daripada alat yang dipanggil do_anything(input: string) , make:
-
carian_kb(pertanyaan: rentetan) -> hasil[] -
create_ticket(tajuk: rentetan, badan: rentetan, keutamaan: enum) -> id_ticket -
send_email(to: string, subject: string, body: string) -> statusPanduan pemanggilan Fungsi OpenAI
Jika anda memberi gergaji rantai kepada ejen itu, jangan terkejut apabila ia memangkas lindung nilai dengan menanggalkan pagar juga.
Langkah 5: Bina gelung pengawal 🔁
Gelung minimum:
-
Mulakan dengan matlamat + konteks awal
-
Tanya model: “Tindakan seterusnya?”
-
Jika panggilan alat - laksanakan alat
-
Tambah pemerhatian
-
Periksa keadaan berhenti
-
Ulang (dengan langkah maksimum) dokumen "Ejen" LangChain
Tambah:
-
masa tamat
-
percubaan semula (berhati-hati - percubaan semula boleh berulang) AWS “Tamat masa, percubaan semula dan undur dengan jitter”
-
pemformatan ralat alat (jelas, berstruktur)
Langkah 6: Tambahkan memori dengan berhati-hati 🗃️
Jangka pendek: pastikan "ringkasan keadaan" yang padat dikemas kini setiap langkah. LangChain "Gambaran keseluruhan memori"
Jangka panjang: simpan fakta yang tahan lama (pilihan pengguna, peraturan organisasi, dokumen yang stabil).
Peraturan praktikal:
-
jika ia sering berubah - kekalkannya untuk jangka pendek
-
jika ia stabil - simpan untuk jangka masa panjang
-
jika ia sensitif - simpan secara minimum (atau jangan simpan langsung)
Langkah 7: Tambah pengesahan dan lulus “pengkritik” 🧪
Corak yang murah dan praktikal:
-
ejen menjana hasil
-
pengesah menyemak struktur dan kekangan
-
semakan model pengkritik pilihan untuk langkah yang terlepas atau pelanggaran dasar NIST AI RMF 1.0
Tidak sempurna, tetapi ia menangkap sejumlah besar karut yang mengejutkan.
Langkah 8: Catatkan semua yang anda akan sesali kerana tidak log masuk 📜
Log:
-
panggilan alat + input + output
-
keputusan yang dibuat
-
kesilapan
-
output akhir
-
token dan latensi primer kebolehcerapan OpenTelemetry
Masa depan - anda akan berterima kasih. Masa kini - anda akan lupa. Itulah hidup 😵💫
7) Panggilan alat yang tidak mematahkan jiwa anda 🧰😵
Penggunaan alat inilah yang menjadikan "Cara Membina Ejen AI" sebagai kejuruteraan perisian sebenar.
Jadikan alat boleh dipercayai (boleh dipercayai itu bagus)
Alat yang boleh dipercayai ialah:
-
deterministik
-
sempit dalam skop
-
mudah untuk diuji
-
selamat untuk menjalankan semula Stripe “Permintaan Idempoten”
Tambah rel pengadang pada lapisan alat, bukan sekadar gesaan
Gesaan adalah cadangan yang sopan. Pengesahan alat adalah pintu yang terkunci. Output Berstruktur OpenAI
Lakukan:
-
senarai dibenarkan (alat yang boleh dijalankan)
-
pengesahan input
-
had kadar Panduan had kadar OpenAI
-
semakan kebenaran setiap pengguna/organisasi
-
"Mod jangka masa kering" untuk tindakan berisiko
Reka bentuk untuk kegagalan separa
Alatan gagal. Rangkaian goyah. Pengesahan tamat tempoh. Ejen mesti:
-
mentafsir kesilapan
-
cuba semula dengan undur apabila sesuai strategi cuba semula Google Cloud (undur + jitter)
-
pilih alat alternatif
-
meningkat apabila tersekat
Satu helah yang berkesan secara senyap: kembalikan ralat berstruktur seperti:
-
jenis: ralat_auth -
jenis: tidak_dijumpai -
type: rate_limited
Jadi model boleh bertindak balas dengan bijak dan bukannya panik.
8) Ingatan yang membantu dan bukannya menghantui anda 👻🗂️
Ingatan memang hebat, tetapi ia juga boleh menjadi laci sampah.
Ingatan jangka pendek: pastikan ia padat
Gunakan:
-
N langkah terakhir
-
ringkasan berjalan (dikemas kini setiap gelung)
-
pelan semasa
-
kekangan semasa (bajet, masa, dasar)
Jika anda memasukkan semuanya ke dalam konteks, anda akan mendapat:
-
kos yang lebih tinggi
-
latensi yang lebih perlahan
-
lebih banyak kekeliruan (ya, walaupun begitu)
Ingatan jangka panjang: pengambilan semula daripada "pemadatan"
Kebanyakan "ingatan jangka panjang" lebih seperti:
-
penyematan
-
kedai vektor
-
kertas RAG penjanaan tambahan (RAG) pengambilan semula
Ejen tidak menghafal. Ia mengambil semula coretan yang paling relevan semasa masa jalan. LlamaIndex “Pengenalan kepada RAG”
Peraturan ingatan praktikal
-
Simpan "pilihan" sebagai fakta eksplisit: "Pengguna suka ringkasan berbutir dan benci emoji" (lol, bukan di sini 😄)
-
Simpan "keputusan" dengan cap waktu atau versi (jika tidak, percanggahan akan bertimbun)
-
Jangan sekali-kali menyimpan rahsia melainkan anda benar-benar perlu
Dan inilah metafora saya yang tidak sempurna: ingatan umpama peti sejuk. Jika anda tidak pernah membersihkannya, akhirnya sandwic anda akan terasa seperti bawang dan penuh dengan penyesalan.
9) Corak perancangan (daripada mudah kepada mewah) 🧭✨
Perancangan hanyalah penguraian terkawal. Jangan jadikannya mistik.
Corak A: Perancang senarai semak ✅
-
Model mengeluarkan senarai langkah
-
Melaksanakan langkah demi langkah
-
Kemas kini status senarai semak
Bagus untuk onboarding. Mudah, boleh diuji.
Corak B: Gelung ReAct (alasan + tindakan) 🧠→🧰
-
model memutuskan panggilan alat seterusnya
-
memerhatikan output
-
mengulang kertas ReAct
Inilah nuansa ejen klasik.
Corak C: Penyelia-pekerja 👥
-
penyelia membahagikan matlamat kepada tugasan
-
pekerja melaksanakan tugas khusus
-
penyelia menggabungkan hasil Microsoft AutoGen (rangka kerja berbilang ejen)
Ini berharga apabila tugas boleh diparalelkan, atau apabila anda mahukan "peranan" yang berbeza seperti:
-
penyelidik
-
pengekod
-
penyunting
-
Pemeriksa QA
Corak D: Rancang-kemudian-laksanakan dengan perancangan semula 🔄
-
buat rancangan
-
laksanakan
-
jika keputusan alat mengubah realiti, rancang semula
Ini menghalang ejen daripada degil mengikuti rancangan yang buruk. Manusia juga melakukan ini, melainkan mereka penat, yang mana dalam hal ini mereka juga mengikuti rancangan yang buruk.
10) Keselamatan, kebolehpercayaan, dan tidak dipecat 🔐😅
Jika ejen anda boleh mengambil tindakan, anda memerlukan reka bentuk keselamatan. Tidak "bagus untuk dimiliki". Perlu. NIST AI RMF 1.0
Had keras
-
langkah maksimum setiap larian
-
panggilan alat maksimum seminit
-
perbelanjaan maksimum setiap sesi (bajet token)
-
alat terhad di sebalik kelulusan
Pengendalian data
-
sunting input sensitif sebelum log masuk
-
persekitaran berasingan (pembangunan vs pengeluaran)
-
kebenaran alat paling kurang keistimewaan
Kekangan tingkah laku
-
paksa ejen memetik petikan bukti dalaman (bukan pautan luaran, hanya rujukan dalaman)
-
memerlukan bendera ketidakpastian apabila keyakinan rendah
-
memerlukan "tanya soalan penjelasan" jika input adalah samar-samar
Ejen yang boleh dipercayai bukanlah ejen yang paling yakin. Ejen yang tahu bila ia meneka… dan mengatakannya.
11) Pengujian dan penilaian (bahagian yang dielakkan oleh semua orang) 🧪📏
Anda tidak boleh memperbaiki apa yang anda tidak boleh ukur. Ya, ayat itu agak keterlaluan, tetapi ia memang benar.
Bina satu set senario
Cipta 30-100 kes ujian:
-
jalan bahagia
-
kes tepi
-
kes "kegagalan alat"
-
permintaan yang samar-samar
-
gesaan adversarial (percubaan suntikan segera) 10 Teratas OWASP untuk Aplikasi LLM OWASP LLM01 Suntikan Segera
Keputusan skor
Gunakan metrik seperti:
-
kadar kejayaan tugasan
-
masa untuk siap
-
kadar pemulihan ralat alat
-
kadar halusinasi (dakwaan tanpa bukti)
-
kadar kelulusan manusia (jika dalam mod diselia)
Ujian regresi untuk gesaan dan alatan
Bila-bila masa anda berubah:
-
skema alat
-
arahan sistem
-
logik pengambilan semula
-
format memori
Jalankan suite sekali lagi.
Ejen adalah haiwan yang sensitif. Seperti tumbuhan dalaman, tetapi lebih mahal.
12) Corak pelaksanaan yang tidak mencairkan bajet anda 💸🔥
Mulakan dengan satu perkhidmatan
-
API pengawal ejen
-
perkhidmatan alat di belakangnya
-
pembalakan + pemantauan primer kebolehcerapan OpenTelemetry
Tambah kawalan kos lebih awal
-
keputusan pengambilan caching
-
memampatkan keadaan perbualan dengan ringkasan
-
menggunakan model yang lebih kecil untuk penghalaan dan pengekstrakan
-
mengehadkan "mod pemikiran mendalam" kepada langkah-langkah yang paling sukar
Pilihan seni bina biasa
-
pengawal tanpa status + stor status luaran (DB/redis)
-
panggilan alat adalah idempoten jika boleh "Permintaan idempoten" Stripe
-
beratur untuk tugasan yang panjang (supaya anda tidak membuka permintaan web selama-lamanya)
Juga: bina "suis bunuh". Anda tidak akan memerlukannya sehingga anda benar-benar memerlukannya 😬
13) Nota penutup - versi ringkas tentang Cara Membina Ejen AI 🎁🤖
Jika anda tidak ingat apa-apa lagi, ingatlah ini:
-
Cara Membina Ejen AI kebanyakannya mengenai membina gelung selamat di sekitar model. Dokumen "Ejen" LangChain
-
Mulakan dengan matlamat yang jelas, autonomi yang rendah dan alatan yang ketat. Output Berstruktur OpenAI
-
Tambahkan memori melalui pencarian semula, bukan pemadatan konteks yang tidak berkesudahan. Kertas RAG
-
Perancangan boleh jadi mudah - senarai semak dan perancangan semula sangat membantu.
-
Pembalakan dan ujian mengubah huru-hara ejen menjadi sesuatu yang anda boleh hantar. Primer kebolehcerapan OpenTelemetry
-
Pagar pengadang tergolong dalam kod, bukan hanya dalam gesaan. 10 Teratas OWASP untuk Aplikasi LLM
Ejen bukanlah magik. Ia adalah sistem yang membuat keputusan yang baik dengan kerap sehingga bernilai… dan mengakui kekalahan sebelum ia menyebabkan kerosakan. Secara senyap-senyap melegakan, dalam erti kata lain 😌
Dan ya, jika anda membinanya dengan betul, ia terasa seperti mengupah pelatih digital kecil yang tidak pernah tidur, kadangkala panik, dan sukakan kerja kertas. Jadi, pada dasarnya seorang pelatih.
Soalan Lazim
Apakah ejen AI, secara ringkasnya?
Ejen AI pada asasnya merupakan satu gelung yang berulang: mengambil input, memutuskan langkah seterusnya, menggunakan alat, membaca hasilnya dan mengulanginya sehingga selesai. Bahagian "ejen" datang daripada bertindak dan memerhati, bukan sekadar berbual. Banyak ejen hanyalah automasi pintar dengan akses alat, manakala yang lain bertindak lebih seperti pengendali junior yang boleh pulih daripada ralat.
Bilakah saya perlu membina ejen AI dan bukannya hanya menggunakan gesaan?
Bina ejen apabila kerja itu berbilang langkah, berubah berdasarkan hasil pertengahan dan memerlukan penggunaan alat yang andal (API, pangkalan data, penjualan tiket, pelaksanaan kod). Ejen juga berguna apabila anda mahukan hasil yang boleh diulang dengan penghadang dan cara untuk menyemak "selesai". Jika respons gesaan mudah berfungsi, ejen biasanya memerlukan overhed dan mod kegagalan tambahan yang tidak diperlukan.
Bagaimanakah saya membina ejen AI yang tidak tersekat dalam gelung?
Gunakan syarat hentian keras: langkah maksimum, panggilan alat maksimum dan semakan penyelesaian yang jelas. Tambahkan skema alat berstruktur, tamat masa dan percubaan semula yang tidak akan mencuba semula selama-lamanya. Catat keputusan dan output alat supaya anda dapat melihat di mana ia tergelincir. Injap keselamatan yang biasa ialah peningkatan: jika ejen tidak pasti atau mengulangi ralat, ia harus meminta bantuan dan bukannya berimprovisasi.
Apakah seni bina minimum untuk Cara Membina Ejen AI?
Sekurang-kurangnya anda memerlukan gelung pengawal yang memberi matlamat dan konteks kepada model, meminta tindakan seterusnya, melaksanakan alat jika diminta, menambah pemerhatian dan mengulanginya. Anda juga memerlukan alat dengan bentuk input/output yang ketat dan semakan "selesai". Malah gelung gulung sendiri boleh berfungsi dengan baik jika anda memastikan keadaan bersih dan menguatkuasakan had langkah.
Bagaimanakah saya perlu mereka bentuk panggilan alat supaya ia boleh dipercayai dalam pengeluaran?
Pastikan alatan disempitkan, ditaip, dibenarkan dan disahkan—elakkan alatan generik “do_anything”. Lebih suka skema yang ketat (seperti output/pemanggilan fungsi berstruktur) supaya ejen tidak boleh menghantar input secara manual. Tambah senarai dibenarkan, had kadar dan semakan kebenaran pengguna/org pada lapisan alatan. Reka bentuk alatan agar selamat untuk dijalankan semula apabila boleh, menggunakan corak idempotency.
Apakah cara terbaik untuk menambah memori tanpa memburukkan lagi ejen?
Anggap memori sebagai dua bahagian: keadaan larian jangka pendek (langkah terkini, pelan semasa, kekangan) dan pengambilan jangka panjang (keutamaan, peraturan yang stabil, dokumen yang berkaitan). Pastikan ringkasan larian padat jangka pendek, bukan transkrip penuh. Untuk memori jangka panjang, pengambilan (pembenaman + storan vektor/corak RAG) biasanya mengatasi "memasukkan" segala-galanya ke dalam konteks dan mengelirukan model.
Corak perancangan yang manakah harus saya gunakan: senarai semak, ReAct atau penyelia-pekerja?
Perancang senarai semak adalah hebat apabila tugasan boleh diramal dan anda mahukan sesuatu yang mudah untuk diuji. Gelung gaya ReAct menyerlah apabila hasil alat mengubah apa yang anda lakukan seterusnya. Corak penyelia-pekerja (seperti pemisahan peranan gaya AutoGen) membantu apabila tugasan boleh disejajarkan atau mendapat manfaat daripada peranan yang berbeza (penyelidik, pengekod, QA). Rancang-kemudian-laksanakan dengan perancangan semula adalah jalan tengah yang praktikal untuk mengelakkan rancangan buruk yang degil.
Bagaimanakah saya boleh memastikan ejen selamat jika ia boleh mengambil tindakan sebenar?
Gunakan kebenaran dengan keistimewaan terendah dan hadkan alat berisiko di sebalik kelulusan atau mod "jalan kering". Tambahkan belanjawan dan had: langkah maksimum, perbelanjaan maksimum dan had panggilan alat seminit. Sunting data sensitif sebelum log masuk dan asingkan pembangunan daripada persekitaran pengeluaran. Memerlukan bendera ketidakpastian atau soalan penjelasan apabila input samar-samar, dan bukannya membiarkan keyakinan menggantikan bukti.
Bagaimanakah saya menguji dan menilai ejen AI supaya ia bertambah baik dari semasa ke semasa?
Bina suit senario dengan laluan gembira, kes pinggir, kegagalan alat, permintaan samar-samar dan percubaan suntikan gesaan (gaya OWASP). Skor hasil seperti kejayaan tugas, masa untuk disiapkan, pemulihan daripada ralat alat dan dakwaan tanpa bukti. Setiap kali anda menukar skema alat, gesaan, pengambilan semula atau pemformatan memori, jalankan semula suit tersebut. Jika anda tidak dapat mengujinya, anda tidak boleh menghantarnya dengan andal.
Bagaimanakah saya menggunakan ejen tanpa meningkatkan kependaman dan kos?
Corak biasa ialah pengawal tanpa status dengan stor keadaan luaran (DB/Redis), perkhidmatan alat di sebaliknya dan pembalakan/pemantauan yang kukuh (selalunya OpenTelemetry). Kawal kos dengan caching dapatan semula, ringkasan keadaan padat, model yang lebih kecil untuk penghalaan/pengekstrakan dan hadkan "pemikiran mendalam" kepada langkah yang paling sukar. Gunakan barisan untuk tugasan yang panjang supaya anda tidak membuka permintaan web. Sentiasa sertakan suis pemutus.
Rujukan
-
Institut Piawaian dan Teknologi Kebangsaan (NIST) - NIST AI RMF 1.0 (kebolehpercayaan & ketelusan) - nvlpubs.nist.gov
-
OpenAI - Output Berstruktur - platform.openai.com
-
OpenAI - Panduan panggilan fungsi - platform.openai.com
-
OpenAI - Panduan had kadar - platform.openai.com
-
OpenAI - Menjalankan API - platform.openai.com
-
OpenAI - Fungsi pembantu yang dipanggil - platform.openai.com
-
LangChain - Dokumen Ejen (JavaScript) - docs.langchain.com
-
LangChain - Dokumen alat (Python) - docs.langchain.com
-
LangChain - Gambaran keseluruhan memori - docs.langchain.com
-
arXiv - Kertas ReAct (sebab + tindakan) - arxiv.org
-
arXiv - kertas RAG - arxiv.org
-
Pustaka Pembina Perkhidmatan Web Amazon (AWS) - Tamat masa, percubaan semula dan undur dengan jitter - aws.amazon.com
-
OpenTelemetri - Primer kebolehcerapan - opentelemetry.io
-
Jalur - Permintaan Idempoten - docs.stripe.com
-
Google Cloud - Cuba semula strategi (undur + jitter) - docs.cloud.google.com
-
OWASP - 10 Teratas untuk Aplikasi Model Bahasa Besar - owasp.org
-
OWASP - LLM01 Suntikan Segera - genai.owasp.org
-
LlamaIndex - Pengenalan kepada RAG - developers.llamaindex.ai
-
Microsoft - Kernel Semantik - learn.microsoft.com
-
Microsoft AutoGen - Rangka kerja berbilang ejen (dokumentasi) - microsoft.github.io
-
CrewAI - Konsep ejen - docs.crewai.com
-
Haystack (deepset) - Dokumentasi Retriever - docs.haystack.deepset.ai