Yaxşı demonstrasiya sistemin bir dəfə uğurlu olduğunu sübut edir. Yaxşı qiymətləndirmə isə sistemin sizin seçmədiyiniz daxiletmələr üzərində, sizin idarə etmədiyiniz şərtlərdə təkrar-təkrar uğurlu işlədiyini sübut edir. Bunlar tamamilə fərqli iddialardır və komandalar ikincisinə ehtiyac olduğu halda birincisinin əsasında məhsulu istifadəyə verirlər.

Birinci təbəqə: əsas ssenarilər

Hər agentik proses üçün məhsulun idarə etməli olduğu əsas ssenarilər toplusu var. Hər birini başdan-sona izləyirik, tam keçidi qeyd edirik və yeni icraları əsas xəttə qarşı müqayisə edirik. Hər hansı bir əsas ssenari pisləşərsə, canlıya çıxış dayandırılır.

İkinci təbəqə: hücum daxiletmələri

Əsas ssenarilər geriləmə problemlərini aşkar edir, lakin yeni nasazlıqları aşkar etmir. Bunun üçün davamlı genişlənən hücum daxiletmələri toplusu saxlayırıq: agenti keçmişdə işdən çıxarmış daxiletmələr, ehtimal etdiyimiz risklər və modelin düşüncə tərzini istismar etmək üçün xüsusi hazırlanmış nümunələr. Bu toplu yalnız genişlənir, heç vaxt azalmır.

Yaxşı qiymətləndirmə sistemin sizin seçmədiyiniz daxiletmələr üzərində, sizin idarə etmədiyiniz şərtlərdə uğurlu işlədiyini sübut edir.

Üçüncü təbəqə: ehtiyatla model-hakim qiymətləndirməsi

Üslub, format və tamlıq kimi rubrik qiymətləndirmələri üçün model əsaslı qiymətləndirmələrdən istifadə edirik, lakin heç vaxt tək başına yox. Hər model çıxışı insan tərəfindən yoxlanılır və ya rubrika güvənilənə qədər kontrol təmin olunur. Modellər zamanla yoldan çıxır; insanlar bunu vaxtında aşkar edir.

Dördüncü təbəqə: canlı izlərin təkrarı

Sonuncu və ən vacib təbəqə: real canlı izləri toplayır, həssas məlumatları çıxarır və namizəd versiyalara qarşı yenidən icra edirik. Uzun müddətdə əhəmiyyət kəsb edən yeganə qiymətləndirmə toplusu istifadəçilərinizin sizin üçün yaratdığı toplusudur.

Agshin Rajabov · Founder, Emotix

Emotix təsisçisi. Məhsul dizaynı sahəsində 16 illik təcrübəsi var, əvvəllər Deutsche Bank, Electronic Arts, Acun Medya və HotHead Games şirkətlərində senior rollarda çalışıb.

Daha çox →

← Bütün yazılar

RSS X-də paylaş LinkedIn-də paylaş

Demonstrasiyadan kənarda agentik sistemlərin qiymətləndirilməsi

#Birinci təbəqə: əsas ssenarilər

#İkinci təbəqə: hücum daxiletmələri

#Üçüncü təbəqə: ehtiyatla model-hakim qiymətləndirməsi

#Dördüncü təbəqə: canlı izlərin təkrarı

Oxşar yazılar

Niyə lokal AI botlar Azərbaycan dilində uğursuz olur, və yaxşısı necə görünür

Məhsul prompt deyil

“AI-first” niyə artıq səhv yanaşmadır

Birinci təbəqə: əsas ssenarilər

İkinci təbəqə: hücum daxiletmələri

Üçüncü təbəqə: ehtiyatla model-hakim qiymətləndirməsi

Dördüncü təbəqə: canlı izlərin təkrarı