Élesben működő AI ügynökök építése: tanulságok valós projektekből

A legtöbb AI ügynök demo színház. Egy tiszta prompt, egy boldog útvonal és egy képernyőfelvétel. Az a verzió, ami fél évig fut élesben anélkül, hogy hajnali kettőkor pittyegne valakinek, nagyon máshogy néz ki.

Miután ügynököket szállítottunk operációra, kutatásra, supportra és tartalomgyártásra, mindig ugyanazokhoz a tanulságokhoz térünk vissza.

Workflow-ból induljunk, ne modellből

A rossz kérdés az, hogy „mit tud a GPT-4 nekünk csinálni”. A jó kérdés: „melyik az a workflow, ami most órákat eszik a szenior időből, és mit kellene tennünk, hogy a nagyját átadhassuk egy ügynöknek.” Először a workflow. A modell implementációs részlet.

A toolok többet érnek, mint a promptok

Egy nagyszerű prompt gyenge toolokkal magabiztos, de hallucináló ügynököt szül. Egy szerény prompt éles, jól típusozott toolokkal megbízhatót. Áldozz időt a tool felület tervezésére: tiszta nevek, szűk inputok, kiszámítható outputok, hasznos hibaüzenetek. Az ügynök csak annyira lesz jó, amennyire jó a tool, amit adsz neki.

Az eval nem opcionális

Ha nem tudod mérni, hogy az ügynök javul vagy romlik, vakon repülsz. Tíz kézzel összerakott teszteset is jobb a nullánál. Futtasd minden prompt változtatás után. Kezeld a regressziót úgy, mint egy bukó unit tesztet.

A guardrail kívülre való

Promptokkal „rávenni” a modellt, hogy viselkedjen, vesztes játszma. Tedd a kemény korlátokat oda, ahol be tudod tartatni: input validáció, allowlist a tool hívásokra, output sémák, rate limit, és emberi jóváhagyás minden visszafordíthatatlan lépéshez.

Observability vagy meg sem történt

Naplózz minden futást. Mentsd az inputot, a tool hívásokat, a modell outputját, a latency-t, a költséget. Amikor valami elromlik - és el fog -, kell a trace. LangSmith, Helicone vagy egy saját Postgres tábla mind működik. Válassz egyet és használd az első naptól.

Költség-fegyelem

A token költségek észrevétlen kúsznak. Egy workflow, ami centekbe kerül futásonként, skálán napi több százezer forintot eszik. Cache-elj agresszíven, használj kisebb modellt, ahol lehet, és tegyél kemény plafont a futásonkénti tokenre. Itt a nem látványos mérnöki munka nyer.

Szállíts szűken, aztán bővíts

Az ügynökök, amik fennmaradtak, egy dolgot csináltak az elején. Egy kutatási összegzőt. Egy support triage-t. Egy számla-kinyerőt. Bizalmat építettek azzal, hogy a szűk esetben pontosak voltak, és csak utána vettek fel többet. A „mindent tudó” ügynök szinte mindig az, amit csendben kikapcsolnak.

Az „éles minőség” nem fancyt jelent. Azt jelenti, hogy a rendszer őszinte arról, mit tud, megfigyelhető, amikor hibázik, és elég olcsó ahhoz, hogy egy évig fusson. Ezt vidd haza, a többi a folyamatos fejlesztés kérdése.

Élesben működő AI ügynökök építése: tanulságok valós projektekből

Workflow-ból induljunk, ne modellből

A toolok többet érnek, mint a promptok

Az eval nem opcionális

A guardrail kívülre való

Observability vagy meg sem történt

Költség-fegyelem

Szállíts szűken, aztán bővíts

Több a stúdióból.

Manuális ops-tól automatizált workflow-kig: ötlépéses roadmap

Core Web Vitals WordPress-en: gyakorlati playbook

Belső copilotok, amiket tényleg használnak

Hasonló problémán dolgozol?