Świerszczyk Eval

Moja czteroletnia córka ostatnio lubuje się w rozwiązywaniu łamigłówek ze Świerszczyka - bardzo lubi znajdywać różnice. Jednym z rodzajów łamigłówek w czasopiśmie jest przypisanie imion do przedstawionych postaci na podstawie niebezpośredniego opisu.

Świerszczyk 02/2024. Podpisz portrety kotów, wiedząc, że: Lisiczka i Tygrys są rude. Myszka dostała imię po ulubionej zabawce. Elegant i Felek lubią się stroić, a Felek nawet dopasował garderobę do koloru swoich oczu. Dominik siedzi z lewej strony Tygrysa i słucha jego śpiewu.

Córka, pomijając, że nie umie czytać - radzi sobie z tym nieźle. Nie twierdzę, że osiąga 100% ale myślę, że takie 60-80% trafności jest. Zastanowiłem się więc - jak poradziłaby sobie z tym Sztuczna Inteligencja?

Evals czyli jak mierzyć umiejętności Sztucznej Inteligencji

Ostatnio odbyły się premiery dwóch nowych modeli GPT-4o oraz Claude 3.5 Sonnet. Firmy promując swoje rozwiązania często przedstawiają porównania jakości na podstawie ustandaryzowanych testów by udowodnić, że teraz to oni są najlepsi.

Obrazek z anthropic.com

Przedstawia on tabelę pokazującą jak model radzi sobie w różnych testach - Evals. Evals to skrót od "evaluations" czyli testu oceniające zdolności modeli AI. Przypominają egzaminy dla sztucznej inteligencji. Mierzą różne aspekty: od prostych zadań po złożone rozumowanie. To jak mapa postępu w świecie AI - wskazuje, gdzie jesteśmy i dokąd zmierzamy. Bez Evals trudno byłoby porównywać modele i kierować ich rozwojem.

Głównym problemem przy tworzeniu Evals jest uniknięcie "ściągania" bowiem AI mogło już "widzieć" dane testowe podczas treningu. To jak dać uczniowi egzamin, który zna na pamięć - mało miarodajne, prawda? Istotny jest też balans między prostotą a złożonością - zbyt proste testy są nieistotne, zbyt trudne - bezużyteczne. Powinny być nowatorskie, ale nie abstrakcyjne, wymagające, ale wykonalne. To prawdziwa sztuka projektowania testów dla maszyn myślących.

Dlaczego Świerszczyk Eval?

Większość testów obecnie pozycjonuje AI na poziomie późne liceum - studia. Więc chyba nie powinno być problemów ze Świerszczykiem?

Świerszczyk Eval skupia się jednak na multimodalności. Multimodalność w kontekście AI to zdolność modelu do przetwarzania i integrowania informacji z różnych źródeł lub formatów (np. tekst, obraz, dźwięk) w celu zrozumienia kontekstu i generowania odpowiedzi, co pozwala na bardziej kompleksowe i naturalne interakcje z użytkownikiem. Ostatnio publikowane modele mocny nacisk kładą na ten aspekt a dostępne testy chyba nie kładą na to jeszcze tak wielkiej wagi.

W Świerszczyk Eval poziomy trudności są jak warstwy cebuli. Najpierw AI musi "zobaczyć" obrazek i odczytać tekst. Potem przychodzi czas na zrozumienie instrukcji i powiązanie ich z postaciami. A na koniec opisanie która postać ma jakie imię by było to zrozumiałe dla czytelnika.

Metodologia

Test był przeprowadzany w konsoli a nie w chacie - to oferuje możliwie "czysty" dostęp do modelu bez dodatkowego systemowego prompta dostarczanego przez Chat. W konsoli korzystam z modelu z którego każdy developer będzie korzystał budując swoje rozwiązanie, więc uznałem, że to ma największy sens.

Prompt składał się z obrazka i tekstu "wykonaj polecenie" - więc myślę, że był bardzo oszczędny.

Testowane modele to:

  • Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
  • Anthropic Claude-3-Opus-20240229
  • OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
  • OpenAI gpt-4-turbo-2024-04-09

Wyniki

Anthropic Claude-3-5-sonnet-20240620

3.5 Sonnet radził sobie nieźle, ale kompletnie wysypał się na gołębiach - które, przyznam, mi też sprawiły największą trudność 😅. Claude w tym przypadku nie zrozumiał instrukcji - zamiast ją wykonać opisał jedynie obrazek - i to po angielsku (gdzie niemal wszystkie inne testy pozostałych modeli były odpowiadane po polsku)

Claude Sonnet natomiast otrzymuje nieformalną nagrodę za czytelność odpowiedzi - były zwięzłe oraz precyzyjnie pokazywał gdzie znajduje się dana postać.

Anthropic Claude-3-Opus-20240229

Model Opus 3 za którym przepadam - oddał grę walkowerem. Nie rozumiał instrukcji i ograniczył się do oszczędnego opisania obrazka.

OpenAI GPT4o-2024-05-13

GPT 4o to najnowszy model od OpenAI który skupia się na multimodalności, więc spodziewałem się tutaj przebojowych wyników. I faktycznie - lider zestawienia. Świetnie poradził sobie w ostatnich zadaniach. Tu bardzo wpływa na wynik jasność komunikacji. Zadanie z ptakami było, moim zdaniem, najtrudniejsze do odszyfrowania ze względu na nieregularność prezentacji ptaków (na lewej stronie dwa rzędy a na prawej - trzy). Co ciekawe, żaden model nie wprowadził precyzyjnego opisu tej części strony (np. brak mowy o rzędzie środkowym).

OpenAI gpt-4-turbo-2024-04-09

GPT 4 Turbo to starszy model znany z ChatGPT. Zaskakująco solidny wynik! Ciekawe, drobne błędy - jak ten, że w przykładzie z wiewiórkami błędnie policzył ich liczbę.

Jest niedosyt na poziomie tłumaczenia co gdzie jest - zostawiało to pole do interpretacji. Niekiedy następowały konflikty logiczne. Np "Sroka Marta: nad Dariuszem (trzeci od prawej na górze" - miejsce nad Dariuszem nie jest miejscem wskazanym w nawiasie. W tym konkretnym wypadku poszedłem modelowi troche na ręke i wpisałem Martę w ostatnie wolne pole - okazało się, że była to poprawna odpowiedź.

Byłem wybaczający - np "Dariusz: ptak z czerwoną czapeczką (pierwszy od prawej na górze)" - jak sprawdzimy, dzięcioł Dariusz jest pierwszy od prawej w środkowym rzędzie prawej strony. Ale w tym wypadku uznałem odpowiedź bo "czerwona czapka" jest bardzo trafną charakterystyką szukanego obiektu.

Materiały źródłowe

Link do Arkuszy Google ŚwierszczykEval zawierających

  • zdjęcia zadań z magazynu Świerszczyk 02/2024
  • tabelki z kluczem odpowiedzi (mam nadzieję, że nie pomyliłem się nigdzie 😅)
  • tabelki z odpowiedziami wybranych modeli oraz zrzuty ekranu ich odpowiedzi

Wynik końcowy

Prezentuje się następująco. Przyznam szczerze, że jestem zaskoczony - trzymałem kciuki za Claude'a, ale OpenAI pokazało solidną robotę też w poprzedniej generacji. Opus prawdopodobnie był skupiony na tekście. OpenAI zdaje się mocno pilnować jakości w każdym aspekcie.

  1. 39,47% - OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
  2. 23,68% - OpenAI gpt-4-turbo-2024-04-09
  3. 18,42% - Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
  4. 0% - Anthropic Claude-3-Opus-20240229

To troche potwierdza słowa Sama Altmana, prezesa OpenAI pytanego o to, czego możemy się spodziewać od GPT5

It will be smarter

Będzie lepszy pod każdym względem - być może nie będzie to tektoniczna zmiana, ale przez to, że model jest ogólny, dotyka wszystkich aspektów, to w każdym z nich będzie lepszy. Ten test świetnie dotyka tego aspektu - model musi znaleźć tekst, zrozumieć go, zrozumieć logiczne konstrukcje. Ale też odczytać symbole związane z postaciami czy interakcje między nimi. Jeśli model nie potrafi odróżnić gruszki od żołędzia to nie poradzi sobie z zadaniem.

Wrap up

To oczywiście podejście popularno-naukowe by nie powiedzieć - humorystyczne - nie mam pojęcia jak tworzyć dobre testy Sztucznej Inteligencji. Widzę, że metodyka liczenia punktów była bardzo subiektywna i być może niekiedy krzywdząca. Natomiast clue pozostaje aktualne - uważam, że ciekawym jest mierzenie możliwości modelu na zadaniach dla dzieci.

Myślę, że pokazuje to też ciekawe wyzwania przed rozwojem Sztucznej Inteligencji jeśli myślimy o delegowaniu na nią ludzkich zadań. Dziś idzie to w stronę skrajnie autystycznego osobnika - wybitnego eksperta w bardzo wąskiej dziedzinie któremu umyka szerokie spektrum innych aspektów związanych z pracą czy życiem.