Bármelyik komoly AI projekt legfontosabb fájlja nem a prompt. Az eval készlet. Nélküle csak találgatod, hogy minden változtatás javított-e a rendszeren, vagy rontott. Vele valami közelít a hagyományos mérnöki munkához: visszacsatolási hurok, ami megmondja az igazat.
Miért nem teszt az, hogy „jól néz ki”
A legtöbb korai AI munkát hangulatra bírálják el. Valaki kipróbálja a promptot pár inputon, a válaszok ésszerűnek tűnnek, és élesítik. Két hét múlva egy felhasználó jelez valami furát, a csapat tweakeli a promptot, és most már senki nem tudja, hogy az eredeti esetek még működnek-e. Ez nem folyamat; ez egy lassú regressziós gép.
Az evalok ezt úgy javítják, hogy a hangulatot mérhető pontszámra cserélik. Megváltoztatod a promptot, a modellt vagy a tool definíciókat, lefuttatod az evalokat, és pontosan látod, mi javult és mi tört el.
Mi van valójában egy eval készletben
Egy hasznos eval készletnek három rétege van.
Golden esetek. Pár gondosan választott input ismert-jó outputtal. Ezeknek le kell fedniük a happy path-et, az egyértelmű edge case-eket és azokat az inputokat, amik már elbuktak éles életben. Húsz-ötven jó eset jobb, mint ezer slampos.
Rubrikák. Nyitott végű outputoknál (vázlatok, összefoglalók, tervek) ritkán van egyetlen helyes válasz. Definiálunk egy rubrikát - „a válasz a megfelelő docs-ot idézte?”, „megőrizte az ügyfél hangnemét?”, „elkerülte, hogy policy-n kívüli dolgokat ígérjen?” - és modellel értékeljük ehhez. Jól csinálva ez a humán review értékének 80%-át hozza a költség töredékéért.
Trajektória ellenőrzések. Ügynököknél a végső válasz nem elég. Azt is ellenőrizzük, hogy az ügynök ésszerű utat járt be: mely tool-okat hívta, milyen sorrendben, milyen argumentumokkal. Egy helyes válasz három felesleges tool híváson keresztül elérve még mindig probléma.
Futtasd automatikusan, minden változásnál
Az evalok lényege a hurok, nem a pontszám. Minden prompt változásnál, minden modell upgrade-nél és minden tool hozzáadásnál futtatjuk a készletet. Időben követjük a pass rate-et, és új eseteket adunk hozzá, valahányszor élesben elbukik valami. Pár hónap múlva az eval készlet a projekt legértékesebb assete lesz - értékesebb, mint maguk a promptok.
Mit nem fog el az eval
Az evalok szükségesek, de nem elégségesek. Nem fogják el a latency regressziókat, a költségrobbanásokat vagy a hosszú beszélgetésekben jelentkező viselkedési drift-et. Ezekhez éles megfigyelhetőség kell - logging, sampling, valódi forgalom egy szeletének emberi review-ja. Az evalok megmondják, hogy a rendszer elvégezheti a munkát; az éles telemetria megmondja, hogy ténylegesen elvégzi.
Hogyan segítünk
Amikor AI ügynököt szállítunk, az eval készlet vele megy. Az első iteráció során megépítjük a golden setet és a rubrika bírót, bedrótozzuk a CI-ba, hogy minden változás mérve legyen, és átadunk egy folyamatot - nem csak egy rendszert -, amit a csapat elszállásunk után is futtatni tud. Ha hamarosan élesítesz egy ügynököt, és „leteszteltük” annyit jelent, hogy pár manuális prompt egy notebookban, beszéljünk, mielőtt élesedik.
Címkék