90,9 % v Harvey BigLaw Bench: jak číst AI benchmarky

Když Anthropic 12. května 2026 vydal Claude Opus 4.7, mezi prvními čísly, která letí prezentací, bylo: 90,9 % na Harvey BigLaw Bench, nejvyšší skóre v historii Claude modelů. Číslo zní pěkně, citoval ho i CEO Harvey Winston Weinberg. Pro partnera kanceláře, který čte oznámení s kávou v ruce, ale začíná na stejné otázce: „Co to vůbec měří, a proč by mě to mělo zajímat?"

Krátká odpověď: protože je to dnes nejbližší věc, jakou máme k nezávislému měření kvality AI v právu. A dlouhá odpověď je o tom, jak benchmarky používat, aniž byste jim věřili příliš.

Co Harvey BigLaw Bench měří

Harvey je nejvíc fundovaný legal‑AI startup na světě, postavený na Claude API a Anthropic infrastruktuře. BigLaw Bench je jejich interní (ale veřejně publikovaná) testovací sada, která napodobuje typické úkoly seniorního advokáta v americké velké kanceláři: revize smluv, právní rešerše, analýzu memorand, sepisování podání, M&A due diligence. Klíčové je, že úkoly jsou hodnoceny lidskými právníky z Harvey, ne automatickou metrikou.

Skóre 90,9 % znamená, že v téhle sadě úkolů Claude Opus 4.7 dodal výstup, který hodnotitel označil jako „použitelný bez zásadního přepracování" v 90,9 % případů. Pro srovnání: ranější verze Claude se pohybovaly v rozmezí 78–86 %, GPT‑4 v 77–82 %, GPT‑5 v hodnotách kolem 85–88 %. Frontier modely se v právním sektoru drží blízko sebe, ale Claude Opus 4.7 je dnes na špičce.

Důležitý detail: žádný „právní model" neexistuje

Anthropic nevyvíjí samostatný „právní model". Claude Opus 4.7 je obecný frontier model, který v BigLaw Benchi vyhrál proti specializovaným pokusům. Mark Pike (Associate General Counsel Anthropic a produktový vedoucí Claude for Legal) to na Legal Summitu shrnul: „If you had told me a few years ago that the best model in the world for doing legal work would also be the best model in the world for coding, I would have been surprised. But it turns out that if you give these models access to the same tools that lawyers use, that's what helps make them good at legal work."

Důvod, proč obecný model vítězí proti specializaci, leží v tom, co BigLaw Bench měří, schopnost obecného právního uvažování, ne memorování doktríny. Věrnost citací, schopnost udržet kontext napříč dlouhými dokumenty a přesně sledovat instrukce, to jsou obecné schopnosti uvažování. Praktický důsledek: každé zlepšení frontier modelu se v právní praxi projeví okamžitě, ne přes mezikrok specializovaného doladění.

Proč na tom záleží: tři důvody

1 Není to skóre v testu z práva, je to simulace praxe

Hodně AI benchmarků pro právo měří, jestli model umí odpovědět na otázku z americké bar exam. To je užitečné pro nábor stážistů, ne pro nasazení. BigLaw Bench měří úkoly, které dostane seniorní advokát v úterý ráno, ne otázky z testu. Pokud Claude zvládá ty první v 90 %, ten zbytek 10 % je obrazem toho, kde ještě potřebuje dohled, ne kde selhává.

2 Harvey nemá důvod nadhodnocovat Claude

Harvey je zákazník Anthropic, jejich tok zpracování je postavený na Claude API a za každý dotaz platí. Když si vlastní benchmark publikují, mají motivaci být přísní, protože kdyby skóre nesedělo s reálným výkonem, jejich vlastní klienti by si toho všimli první. Vlastní srovnávací testy průběžně provádí i Eve, Solve Intelligence a Legora, všichni výsledky publikují a všichni v nich Claude vyhrává. Když si nejlepší legal‑tech firmy světa nezávisle vyberou stejný model, signál je důvěryhodnější než jakákoli marketingová prezentace.

3 Měří se to, co skutečně bolí, citace a ukotvení v datech

Specificky se BigLaw Bench dívá na věrnost citací a ukotvení v datech, tj. jestli model odkazuje na skutečné případy a jestli jeho argumentace skutečně vychází z dokumentů, které dostal jako vstup. Tohle je přesně to, co stojí za tím známým ústavním nálezem z prosince 2025, kdy pražský advokát citoval 12 neexistujících rozsudků. Citace Eve: „Claude wins our internal bake‑offs every time on the metrics that matter for legal work, particularly grounding and citation faithfulness." Když si vyberete model, ve kterém nejvyšší starostí je halucinace odkazu, ušetříte si později pokutu.

Co benchmark neměří, a proč to musíte vědět

Pro českou kancelář má BigLaw Bench dvě omezení, která stojí za to znát:

Testuje americký právní rámec. Common law, Bluebook citace, Westlaw rešerše, americké precedenty. Jazyk je angličtina. Pokud váš tým dělá českou advokacii, výsledek 90,9 % neznamená totéž skóre na judikatuře NS ČR nebo na obchodním zákoníku.
Měří frontier model na izolovaných úkolech, ne celý pracovní postup. Claude Opus 4.7 v Cordinelu nikdy nepoužíváme nahý. Pracuje s vaším playbookem, vaším DPA, vaší znalostní bází, vašimi postupy. Reálná kvalita výstupu je výsledkem modelu plus kontextu, který mu poskytneme. Stejný model se stejným promptem v dobře nakonfigurovaném prostředí dodá výrazně lepší výstup než ve „vanilla" chatu.

Praktický důsledek: 90,9 % v BigLaw Benchi je strop, který Claude umí v ideálních podmínkách. Pro reálné nasazení ve vaší kanceláři platí jiná čísla, která musíme změřit interně, na vašich úlohách, vašich datech, vaším benchmarkem. To je součást toho, co u klientů děláme.

Jak číst benchmark prakticky: tři otázky

Když příště uvidíte AI dodavatele chlubit se číslem, položte si tři otázky.

i Kdo benchmark vytvořil a co měřil?

BigLaw Bench dělá Harvey, který je zároveň zákazníkem Anthropic. To je transparentní, ale i tady platí, že číslo má větší váhu, když ho potvrdí třetí strana. Anthropic publikoval také výsledky na Vals AI Legal Benchmark (Stanford) a LegalBench (Princeton), oba ukazují Claude Opus 4.7 v top tříce. Pokud chce dodavatel argumentovat skóre z testu, který sám napsal a sám hodnotil, je to PR, ne benchmark.

ii Měří to, co reálně potřebujete?

Pokud děláte M&A, zajímá vás benchmark na due diligence a analýzu disclosure schedules. Pokud děláte litigaci, zajímají vás citace, vyhledávání v přepisech a příprava výslechů. Pokud děláte ochranu osobních údajů, revize DPA a triage DSAR. „Top skóre v legal AI benchmarku" bez specifikace, co se měří, je marketingová věta.

iii Jaká je „cena" za to skóre?

Claude Opus 4.7 je prémiový model, na úkolu typu rešerše stojí 5–8 Kč na dotaz proti 0,30 Kč u levnějšího Claude Haiku. V reálném postupu směřujeme nejcitlivější úkony na Opus a rutinu na Haiku. Optimalizace nákladů je část naší práce; benchmark sám o sobě o tom nic neříká.

Benchmark je užitečný signál, ne důkaz. 90,9 % Opus 4.7 znamená, že frontier modely od Anthropic jsou dnes v legalu nejlépe hodnocené nezávislými testy. Co to znamená pro vaši kancelář, se ukáže až v den, kdy vidíte první výstup na vlastní úloze.

Pokud se ptáte „Která AI je pro nás nejlepší?", správnější otázka je: „Která AI v naší konfiguraci dodá výstup, který náš seniorní advokát podepíše bez výhrad?" Tu otázku benchmark zodpovídá jen částečně, zbytek je práce, kterou děláme při zaškolení.

Autor

Ondřej Cidlina

Právo · Finance · Aplikovaná AI pro právní praxi

Co Harvey BigLaw Bench měří

Důležitý detail: žádný „právní model" neexistuje

Proč na tom záleží: tři důvody

Co benchmark neměří, a proč to musíte vědět

Jak číst benchmark prakticky: tři otázky

Související články

Průvodce AI nástroji pro advokáty 2026

Anthropic Legal Summit 2026: pět myšlenek pro partnery AK

Lawyer-builder: netechničtí právníci staví AI

Kde jsou právníci na křivce AI adopce