Demonstrasiyadan kənarda agentik sistemlərin qiymətləndirilməsi

Demonstrasiyalar hər şeyi gözəl göstərir. Burada istifadəyə verməzdən əvvəl həqiqətən apardığımız qiymətləndirmələri təqdim edirik.

Yaxşı demonstrasiya sistemin bir dəfə uğurlu olduğunu sübut edir. Yaxşı qiymətləndirmə isə sistemin sizin seçmədiyiniz daxiletmələr üzərində, sizin idarə etmədiyiniz şərtlərdə təkrar-təkrar uğurlu işlədiyini sübut edir. Bunlar tamamilə fərqli iddialardır və komandalar ikincisinə ehtiyac olduğu halda birincisinin əsasında məhsulu istifadəyə verirlər.

Birinci təbəqə: qızıl ssenarilər

Hər agentik proses üçün məhsulun idarə etməli olduğu qızıl ssenarilər toplusu var. Hər birini başdan-sona izləyirik, tam keçidi qeyd edirik və yeni icraları əsas xəttə qarşı müqayisə edirik. Hər hansı bir qızıl ssenari pisləşərsə, istehsala çıxış dayandırılır.

İkinci təbəqə: əks-mövqe daxiletmələri

Qızıl ssenarilər geriləmə problemlərini aşkar edir, lakin yeni nasazlıqları aşkar etmir. Bunun üçün davamlı genişlənən əks-mövqe toplusu saxlayırıq: agenti keçmişdə işdən çıxarmış daxiletmələr, ehtimal etdiyimiz risklər və modelin düşüncə tərzini istismar etmək üçün xüsusi hazırlanmış nümunələr. Bu toplu yalnız genişlənir, heç vaxt azalmır.

Yaxşı qiymətləndirmə sistemin sizin seçmədiyiniz daxiletmələr üzərində, sizin idarə etmədiyiniz şərtlərdə uğurlu işlədiyini sübut edir.

Üçüncü təbəqə: ehtiyatla model-hakim qiymətləndirməsi

Üslub, format və tamlıq kimi rubrik qiymətləndirmələri üçün model əsaslı qiymətləndirmələrdən istifadə edirik, lakin heç vaxt tək başına yox. Hər model çıxışı insan tərəfindən yoxlanılır və ya rubrika güvənilənə qədər kontrol təmin olunur. Modellər zamanla yoldan çıxır; insanlar bunu vaxtında aşkar edir.

Dördüncü təbəqə: istehsal təkrarı

Sonuncu və ən vacib təbəqə: real istehsal izlərini toplayır, həssas məlumatları çıxarır və namizəd versiyalara qarşı yenidən icra edirik. Uzun müddətdə əhəmiyyət kəsb edən yeganə qiymətləndirmə toplusu istifadəçilərinizin sizin üçün yaratdığı toplusudur.