Świerszczyk Eval

Magazyn Świerszczyk 02/2024, Wydawnictwo Nowa Era

Moja czteroletnia córka ostatnio lubuje się w rozwiązywaniu łamigłówek ze Świerszczyka - bardzo lubi znajdywać różnice. Jednym z rodzajów łamigłówek w czasopiśmie jest przypisanie imion do przedstawionych postaci na podstawie niebezpośredniego opisu.

Świerszczyk 02/2024. Podpisz portrety kotów, wiedząc, że: Lisiczka i Tygrys są rude. Myszka dostała imię po ulubionej zabawce. Elegant i Felek lubią się stroić, a Felek nawet dopasował garderobę do koloru swoich oczu. Dominik siedzi z lewej strony Tygrysa i słucha jego śpiewu.

Córka, pomijając, że nie umie czytać - radzi sobie z tym nieźle. Nie twierdzę, że osiąga 100% ale myślę, że takie 60-80% trafności jest. Zastanowiłem się więc - jak poradziłaby sobie z tym Sztuczna Inteligencja?

Evals czyli jak mierzyć umiejętności Sztucznej Inteligencji

Ostatnio odbyły się premiery dwóch nowych modeli GPT-4o oraz Claude 3.5 Sonnet. Firmy promując swoje rozwiązania często przedstawiają porównania jakości na podstawie ustandaryzowanych testów by udowodnić, że teraz to oni są najlepsi.

Przedstawia on tabelę pokazującą jak model radzi sobie w różnych testach - Evals. Evals to skrót od "evaluations" czyli testu oceniające zdolności modeli AI. Przypominają egzaminy dla sztucznej inteligencji. Mierzą różne aspekty: od prostych zadań po złożone rozumowanie. To jak mapa postępu w świecie AI - wskazuje, gdzie jesteśmy i dokąd zmierzamy. Bez Evals trudno byłoby porównywać modele i kierować ich rozwojem.

Głównym problemem przy tworzeniu Evals jest uniknięcie "ściągania" bowiem AI mogło już "widzieć" dane testowe podczas treningu. To jak dać uczniowi egzamin, który zna na pamięć - mało miarodajne, prawda? Istotny jest też balans między prostotą a złożonością - zbyt proste testy są nieistotne, zbyt trudne - bezużyteczne. Powinny być nowatorskie, ale nie abstrakcyjne, wymagające, ale wykonalne. To prawdziwa sztuka projektowania testów dla maszyn myślących.

Dlaczego Świerszczyk Eval?

Większość testów obecnie pozycjonuje AI na poziomie późne liceum - studia. Więc chyba nie powinno być problemów ze Świerszczykiem?

Świerszczyk Eval skupia się jednak na multimodalności. Multimodalność w kontekście AI to zdolność modelu do przetwarzania i integrowania informacji z różnych źródeł lub formatów (np. tekst, obraz, dźwięk) w celu zrozumienia kontekstu i generowania odpowiedzi, co pozwala na bardziej kompleksowe i naturalne interakcje z użytkownikiem. Ostatnio publikowane modele mocny nacisk kładą na ten aspekt a dostępne testy chyba nie kładą na to jeszcze tak wielkiej wagi.

W Świerszczyk Eval poziomy trudności są jak warstwy cebuli. Najpierw AI musi "zobaczyć" obrazek i odczytać tekst. Potem przychodzi czas na zrozumienie instrukcji i powiązanie ich z postaciami. A na koniec opisanie która postać ma jakie imię by było to zrozumiałe dla czytelnika.

Metodologia

Test był przeprowadzany w konsoli a nie w chacie - to oferuje możliwie "czysty" dostęp do modelu bez dodatkowego systemowego prompta dostarczanego przez Chat. W konsoli korzystam z modelu z którego każdy developer będzie korzystał budując swoje rozwiązanie, więc uznałem, że to ma największy sens.

Prompt składał się z obrazka i tekstu "wykonaj polecenie" - więc myślę, że był bardzo oszczędny.

Testowane modele to:

Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
Anthropic Claude-3-Opus-20240229
OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
OpenAI gpt-4-turbo-2024-04-09

Wyniki

Anthropic Claude-3-5-sonnet-20240620

3.5 Sonnet radził sobie nieźle, ale kompletnie wysypał się na gołębiach - które, przyznam, mi też sprawiły największą trudność 😅. Claude w tym przypadku nie zrozumiał instrukcji - zamiast ją wykonać opisał jedynie obrazek - i to po angielsku (gdzie niemal wszystkie inne testy pozostałych modeli były odpowiadane po polsku)

Claude Sonnet natomiast otrzymuje nieformalną nagrodę za czytelność odpowiedzi - były zwięzłe oraz precyzyjnie pokazywał gdzie znajduje się dana postać.

Anthropic Claude-3-Opus-20240229

Model Opus 3 za którym przepadam - oddał grę walkowerem. Nie rozumiał instrukcji i ograniczył się do oszczędnego opisania obrazka.

OpenAI GPT4o-2024-05-13

GPT 4o to najnowszy model od OpenAI który skupia się na multimodalności, więc spodziewałem się tutaj przebojowych wyników. I faktycznie - lider zestawienia. Świetnie poradził sobie w ostatnich zadaniach. Tu bardzo wpływa na wynik jasność komunikacji. Zadanie z ptakami było, moim zdaniem, najtrudniejsze do odszyfrowania ze względu na nieregularność prezentacji ptaków (na lewej stronie dwa rzędy a na prawej - trzy). Co ciekawe, żaden model nie wprowadził precyzyjnego opisu tej części strony (np. brak mowy o rzędzie środkowym).

OpenAI gpt-4-turbo-2024-04-09

GPT 4 Turbo to starszy model znany z ChatGPT. Zaskakująco solidny wynik! Ciekawe, drobne błędy - jak ten, że w przykładzie z wiewiórkami błędnie policzył ich liczbę.

Jest niedosyt na poziomie tłumaczenia co gdzie jest - zostawiało to pole do interpretacji. Niekiedy następowały konflikty logiczne. Np "Sroka Marta: nad Dariuszem (trzeci od prawej na górze" - miejsce nad Dariuszem nie jest miejscem wskazanym w nawiasie. W tym konkretnym wypadku poszedłem modelowi troche na ręke i wpisałem Martę w ostatnie wolne pole - okazało się, że była to poprawna odpowiedź.

Byłem wybaczający - np "Dariusz: ptak z czerwoną czapeczką (pierwszy od prawej na górze)" - jak sprawdzimy, dzięcioł Dariusz jest pierwszy od prawej w środkowym rzędzie prawej strony. Ale w tym wypadku uznałem odpowiedź bo "czerwona czapka" jest bardzo trafną charakterystyką szukanego obiektu.

Materiały źródłowe

Link do Arkuszy Google ŚwierszczykEval zawierających

zdjęcia zadań z magazynu Świerszczyk 02/2024
tabelki z kluczem odpowiedzi (mam nadzieję, że nie pomyliłem się nigdzie 😅)
tabelki z odpowiedziami wybranych modeli oraz zrzuty ekranu ich odpowiedzi

Wynik końcowy

Prezentuje się następująco. Przyznam szczerze, że jestem zaskoczony - trzymałem kciuki za Claude'a, ale OpenAI pokazało solidną robotę też w poprzedniej generacji. Opus prawdopodobnie był skupiony na tekście. OpenAI zdaje się mocno pilnować jakości w każdym aspekcie.

39,47% - OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
23,68% - OpenAI gpt-4-turbo-2024-04-09
18,42% - Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
0% - Anthropic Claude-3-Opus-20240229

To troche potwierdza słowa Sama Altmana, prezesa OpenAI pytanego o to, czego możemy się spodziewać od GPT5

It will be smarter

Będzie lepszy pod każdym względem - być może nie będzie to tektoniczna zmiana, ale przez to, że model jest ogólny, dotyka wszystkich aspektów, to w każdym z nich będzie lepszy. Ten test świetnie dotyka tego aspektu - model musi znaleźć tekst, zrozumieć go, zrozumieć logiczne konstrukcje. Ale też odczytać symbole związane z postaciami czy interakcje między nimi. Jeśli model nie potrafi odróżnić gruszki od żołędzia to nie poradzi sobie z zadaniem.

Wrap up

To oczywiście podejście popularno-naukowe by nie powiedzieć - humorystyczne - nie mam pojęcia jak tworzyć dobre testy Sztucznej Inteligencji. Widzę, że metodyka liczenia punktów była bardzo subiektywna i być może niekiedy krzywdząca. Natomiast clue pozostaje aktualne - uważam, że ciekawym jest mierzenie możliwości modelu na zadaniach dla dzieci.

Myślę, że pokazuje to też ciekawe wyzwania przed rozwojem Sztucznej Inteligencji jeśli myślimy o delegowaniu na nią ludzkich zadań. Dziś idzie to w stronę skrajnie autystycznego osobnika - wybitnego eksperta w bardzo wąskiej dziedzinie któremu umyka szerokie spektrum innych aspektów związanych z pracą czy życiem.