Agent Evaluation v Microsoft Copilot Studio je v GA

Když agent selže, nejde jen o špatnou odpověď.

Jak kvalitu svých AI agentů měřit opakovaně, objektivně a bez domněnek? Agent Evaluation v Copilot Studio přináší přesně to - systematické testování, které odhalí slabiny dřív, než se projeví v provozu.

Zjistěte, jak funguje v praxi.

Agent Evaluation v Microsoft Copilot Studio je v GA. Co to reálně znamená pro kvalitu agentů

Agent Evaluation v Copilot Studio jsou nyní obecně dostupné. Na první pohled to může vypadat jako další analytická funkce navíc. Ve skutečnosti jde o jednu z nejdůležitějších věcí, které dnes kolem enterprise agentů dává smysl řešit. Jakmile má agent opustit fázi experimentu a začít obsluhovat reálné dotazy, přestává stačit dojem z několika ručních testů. Potřebujete opakovatelné vyhodnocení, porovnatelné výsledky a možnost poznat, jestli se agent po změně promptu, znalostní báze nebo konektoru zlepšil, nebo naopak zhoršil.

Právě tohle Agent Evaluation řeší. V Copilot Studio umožňuje vytvářet testovací sady, spouštět nad nimi automatizované evaluace a hodnotit odpovědi podle více metod najednou. Výsledek není jen jedno procento úspěšnosti, ale sada signálů, ze kterých jde poznat, kde agent funguje dobře, kde selhává a co přesně se změnilo mezi jednotlivými verzemi. Důležité je i to, že je tato schopnost integrovaná přímo v produktu.

Proč je to důležité právě teď

Většina týmů dnes zvládne postavit funkčního agenta poměrně rychle. Mnohem těžší je ale dlouhodobě udržet jeho kvalitu. Agent se mění, přibývají témata, upravují se instrukce, mění se zdroje znalostí a do toho vstupují různé identity, oprávnění a konektory. Ruční test chat je na začátku užitečný, ale ve chvíli, kdy potřebujete kvalitu řídit systematicky, narazíte. Jeden člověk nikdy nebude testovat stejně důsledně a stejně opakovatelně jako připravená sada scénářů.

To je přesně moment, kde dává Agent Evaluation smysl. Přináší automatizované a strukturované testování, které pomáhá odhalovat problémy dřív, snižuje riziko špatných odpovědí a umožňuje sledovat kvalitu i v čase. Pro praxi je podstatné, že nejde jen o test před publikací. Stejnou testovací sadu můžete spouštět opakovaně po každé změně a porovnávat výsledky mezi běhy. Tím se z testování nestává jednorázová kontrola, ale součást životního cyklu správy agenta.

Co Agent Evaluation v Copilot Studio vlastně dělá

Základní jednotkou je test case. To může být jedna otázka a jedna odpověď, ale také celá konverzace. Test case může obsahovat i očekávanou odpověď, proti které se výstup agenta porovnává. Více test case scénářů tvoří test set, tedy testovací sadu. Tu lze vytvořit ručně, importem nebo automaticky vygenerovat. Microsoft navíc nabízí rychlé generování malé sady otázek a také rozsáhlejší generování až do stovky otázek podle znalostních zdrojů nebo definovaných témat agenta.

To je prakticky velmi důležité. U většiny projektů totiž není problém spustit evaluaci, ale připravit kvalitní testovací data. Quick question set může být dobrý první signál, jestli agent vůbec drží základní směr. Full question set už pomáhá pokrýt širší spektrum znalostí a typických témat. Pořád ale platí, že automaticky vygenerovaná sada není náhrada za cílené business scénáře. Dobře poslouží jako základ, ne jako jediný zdroj pravdy.

Jaké metody hodnocení jsou k dispozici

Copilot Studio umožňuje nad jednou testovací sadou kombinovat více metod vyhodnocení. To je správný přístup, protože kvalitu agenta obvykle nelze rozumně popsat jednou metrikou. Microsoft zmiňuje několik základních hodnoticích přístupů, například obecnou kvalitu odpovědi, sémantickou shodu s očekávanou odpovědí, přítomnost klíčových slov, textovou podobnost, exact match a vyhodnocení použití capability. Vedle toho je k dispozici i možnost custom graderů v klasifikačním režimu, kde si organizace promítne do hodnocení vlastní pravidla, interní standardy nebo konkrétní compliance požadavky.

Tohle má velký praktický dopad. Exact match je užitečný jen tam, kde opravdu čekáte přesně definovanou formulaci. Keyword presence pomůže u odpovědí, kde musí zaznít určitý údaj nebo povinné upozornění. Semantic meaning je vhodnější tam, kde má agent prostor odpovědět přirozeně, ale stále chcete hlídat věcnou správnost. Capability usage je zajímavé ve chvíli, kdy vás nezajímá jen text odpovědi, ale i to, zda agent použil správný nástroj nebo správnou akci. A custom grader je cesta pro firmy, které potřebují měřit něco specifičtějšího než jen obecnou kvalitu.

V praxi bych se vyhnul tomu, aby tým sledoval jen jedno číslo. U agentů téměř vždy potřebujete vrstvený pohled. Agent může mít vysokou sémantickou shodu, ale přitom vynechávat důležitou povinnou informaci. Nebo naopak odpoví formálně správně, ale nepoužije správnou capability a výsledek nebude provozně spolehlivý. Právě kombinace více metod dává vyhodnocení smysl.

Co je na tom z enterprise pohledu nejzajímavější

Microsoft Agent Evaluation se neprofiluje jen jako pomůcka pro fázi tvorby, ale jako nástroj pro provoz a governance. Každý běh evaluace vytváří strukturovaný a auditovatelný záznam. Ten zahrnuje použitou testovací sadu, zvolený uživatelský profil, datum, délku běhu i výsledky jednotlivých graderů pro každý test case. Výsledky jsou verzované a dostupné v historii, takže lze sledovat vývoj kvality v čase a porovnávat jednotlivé běhy mezi sebou.

To je přesně typ věci, který v reálném nasazení často chybí. Když se někdo za dva měsíce zeptá, na základě čeho jste agenta pustili do produkce, nestačí říct, že vypadal dobře v test chatu. Potřebujete doložit, jaké scénáře jste testovali, jaké metody jste použili a s jakým výsledkem. Pro regulovanější prostředí nebo obecně pro interní kontrolu kvality je tohle mnohem důležitější než samotné marketingové označení GA.

Druhá zajímavá věc je identity-based evaluation. Evaluace může běžet pod konkrétním uživatelským profilem, takže agent je testován ve stejném kontextu přístupu ke znalostem, nástrojům a konektorům, jaký má daná identita v produkci. To je velmi podstatné, protože u mnoha agentů není problém samotný prompt, ale rozdílné chování podle oprávnění a kontextu uživatele. Výsledky tak lépe odpovídají realitě než sterilní test v izolovaném prostředí.

Třetí podstatný prvek je API přístup. Využití API přístupu otevírá cestu pro CI/CD scénáře, kde se evaluace stane součástí release pipeline. Jakmile se mění prompt, přidává knowledge source nebo upravuje capability, dává smysl spustit sadu regresních testů ještě před publikací.

Co výsledky skutečně říkají a co ne

Tady je potřeba být přesný. Agent Evaluation měří correctness a performance ve smyslu kvality a relevance odpovědí vůči zvoleným testům a metodám. Není to ale náhrada za responsible AI, content safety ani bezpečnostní governance. Microsoft přímo upozorňuje, že agent může projít evaluací a přesto v jiném kontextu vygenerovat nevhodnou odpověď. Evaluace tedy nepokrývá etické a safety otázky jako celek a nenahrazuje filtry ani další kontrolní vrstvy.

To je důležitý korektiv proti přehnaným očekáváním. Pokud někdo Agent Evaluation pochopí jako důkaz, že je agent bezpečný a připravený na jakýkoli provozní scénář, bude zklamaný. Správně je brát to jako kvalitní mechanismus pro systematické ověřování očekávaného chování v definovaných scénářích. Je to zásadní kus skládačky, ale ne celá skládačka.

Agent Evaluation versus Test Chat

Microsoft správně rozlišuje mezi test chatem a agent evaluation. Test chat je dobrý pro interaktivní ověřování, exploraci a rychlé pochopení chování agenta. Umožňuje vám vést session po více zprávách a reagovat na vývoj konverzace. Je to ideální nástroj pro ladění, když chcete něco rychle vyzkoušet nebo pochopit, proč se agent chová určitým způsobem.

Agent Evaluation naopak přináší opakovatelnost, hromadné spuštění scénářů a objektivnější porovnání mezi verzemi. Umí testovat jednu otázku i celou konverzaci v rámci test case, ale nad průběhem máte menší operativní kontrolu než v interaktivním chatu. Je tedy více nežli vhodné používat obojí. A to je i moje doporučení z praxe. Test chat je vhodný pro tvorbu a ladění. Agent Evaluation je vhodné pro systematickou kontrolu kvality, regresi a rozhodnutí, jestli je změna připravená do provozu.

Na co si dát pozor při zavádění

Největší riziko není technické, ale metodické. Tým si snadno vytvoří test set, který vypadá reprezentativně, ale ve skutečnosti pokrývá jen pohodlné nebo ukázkové scénáře. Pak dostane hezké skóre a falešný pocit jistoty. Microsoft proto zdůrazňuje, že ještě před spuštěním evaluací je potřeba definovat, co pro daného agenta znamená úspěch a které scénáře jsou nejdůležitější z hlediska business výstupů. Bez toho budou i přesné metriky málo užitečné.

Druhá věc je interpretace výsledků. Agregované skóre je dobré pro rychlý přehled, ale rozhodující je možnost otevřít konkrétní test case, vidět plnou odpověď agenta, výsledek a vysvětlení od jednotlivých graderů, očekávanou odpověď a také použité znalostní zdroje. Teprve tady začíná skutečná práce. Výsledky nejsou jen report. Jsou to vstupy pro triage, úpravu instrukcí, změnu zdrojů, úpravu capability a regresní kontrolu po opravě.

Jak bych s tím začal v praxi

Nezačínal bych široce. První krok by měl být úzký, ale důsledný. Vybral bych 15 až 30 scénářů, které mají skutečný provozní dopad. Typicky otázky s vysokou frekvencí, odpovědi s právním nebo procesním významem, scénáře napojené na akce a případy, kde agent pracuje s oprávněními nebo více zdroji znalostí. Na nich bych nastavil dvě až tři vhodné hodnoticí metody a vytvořil první referenční baseline. Ta je důležitější než absolutní skóre v prvním týdnu.

Pak bych test set rozdělil na dvě vrstvy. Jedna vrstva by byla stabilní regresní sada, která se spouští po každé významné změně. Druhá vrstva by byla průběžně rozšiřovaná podle nových zjištění z provozu, incidentů a chybových vzorů. Tím se evaluace nestane statickou formalitou, ale živým mechanismem, který se učí spolu s agentem.

A nakonec bych výsledky neponechal jen makerovi. Jakmile má agent reálný dopad na procesy, měla by evaluace vstupovat i do governance. Ne kvůli byrokracii, ale kvůli tomu, že kvalita odpovědí dnes přímo ovlivňuje důvěru uživatelů, adopci i provozní náklady. Když agent začne odpovídat hůř, velmi rychle se to projeví v supportu i reputaci celého řešení.

Závěr

GA verze Agent Evaluation v Microsoft Copilot Studio je důležitá hlavně proto, že posouvá testování agentů z roviny ručního ověřování do opakovatelného a auditovatelného procesu. Neřeší všechno a rozhodně nenahrazuje bezpečnostní, compliance ani responsible AI kontrolu. Ale přesně tam, kde dnes většina organizací naráží na problém s kvalitou, regresí a důvěrou v chování agenta, přináší velmi praktický základ.

Za mě je to jedna z těch funkcí, které nejsou navenek tak atraktivní jako nové capability, ale v reálném nasazení mají větší dopad než mnoho viditelnějších novinek. Kdo to s enterprise agenty myslí vážně, neměl by Agent Evaluation brát jako volitelný doplněk. Měl by ho brát jako standardní součást návrhu, rolloutu i průběžné správy.

Zdroje

https://techcommunity.microsoft.com/blog/copilot-studio-blog/agent-evaluation-in-microsoft-copilot-studio-is-now-generally-available/4507392

https://learn.microsoft.com/en-us/microsoft-copilot-studio/analytics-agent-evaluation-intro

Agent Evaluation v Microsoft Copilot Studio je v GA

Když agent selže, nejde jen o špatnou odpověď.

O autorovi

Ondřej Výšek