A legtöbb AI ügynök demo színház. Egy tiszta prompt, egy boldog útvonal és egy képernyőfelvétel. Az a verzió, ami fél évig fut élesben anélkül, hogy hajnali kettőkor pittyegne valakinek, nagyon máshogy néz ki.
Miután ügynököket szállítottunk operációra, kutatásra, supportra és tartalomgyártásra, mindig ugyanazokhoz a tanulságokhoz térünk vissza.
Workflow-ból induljunk, ne modellből
A rossz kérdés az, hogy „mit tud a GPT-4 nekünk csinálni”. A jó kérdés: „melyik az a workflow, ami most órákat eszik a szenior időből, és mit kellene tennünk, hogy a nagyját átadhassuk egy ügynöknek.” Először a workflow. A modell implementációs részlet.
A toolok többet érnek, mint a promptok
Egy nagyszerű prompt gyenge toolokkal magabiztos, de hallucináló ügynököt szül. Egy szerény prompt éles, jól típusozott toolokkal megbízhatót. Áldozz időt a tool felület tervezésére: tiszta nevek, szűk inputok, kiszámítható outputok, hasznos hibaüzenetek. Az ügynök csak annyira lesz jó, amennyire jó a tool, amit adsz neki.
Az eval nem opcionális
Ha nem tudod mérni, hogy az ügynök javul vagy romlik, vakon repülsz. Tíz kézzel összerakott teszteset is jobb a nullánál. Futtasd minden prompt változtatás után. Kezeld a regressziót úgy, mint egy bukó unit tesztet.
A guardrail kívülre való
Promptokkal „rávenni” a modellt, hogy viselkedjen, vesztes játszma. Tedd a kemény korlátokat oda, ahol be tudod tartatni: input validáció, allowlist a tool hívásokra, output sémák, rate limit, és emberi jóváhagyás minden visszafordíthatatlan lépéshez.
Observability vagy meg sem történt
Naplózz minden futást. Mentsd az inputot, a tool hívásokat, a modell outputját, a latency-t, a költséget. Amikor valami elromlik - és el fog -, kell a trace. LangSmith, Helicone vagy egy saját Postgres tábla mind működik. Válassz egyet és használd az első naptól.
Költség-fegyelem
A token költségek észrevétlen kúsznak. Egy workflow, ami centekbe kerül futásonként, skálán napi több százezer forintot eszik. Cache-elj agresszíven, használj kisebb modellt, ahol lehet, és tegyél kemény plafont a futásonkénti tokenre. Itt a nem látványos mérnöki munka nyer.
Szállíts szűken, aztán bővíts
Az ügynökök, amik fennmaradtak, egy dolgot csináltak az elején. Egy kutatási összegzőt. Egy support triage-t. Egy számla-kinyerőt. Bizalmat építettek azzal, hogy a szűk esetben pontosak voltak, és csak utána vettek fel többet. A „mindent tudó” ügynök szinte mindig az, amit csendben kikapcsolnak.
Az „éles minőség” nem fancyt jelent. Azt jelenti, hogy a rendszer őszinte arról, mit tud, megfigyelhető, amikor hibázik, és elég olcsó ahhoz, hogy egy évig fusson. Ezt vidd haza, a többi a folyamatos fejlesztés kérdése.
Címkék