Świerszczyk Eval
![Świerszczyk Eval](/content/images/size/w1200/2024/06/IMG_3299-1.jpg)
Moja czteroletnia córka ostatnio lubuje się w rozwiązywaniu łamigłówek ze Świerszczyka - bardzo lubi znajdywać różnice. Jednym z rodzajów łamigłówek w czasopiśmie jest przypisanie imion do przedstawionych postaci na podstawie niebezpośredniego opisu.
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/koty.jpg)
Córka, pomijając, że nie umie czytać - radzi sobie z tym nieźle. Nie twierdzę, że osiąga 100% ale myślę, że takie 60-80% trafności jest. Zastanowiłem się więc - jak poradziłaby sobie z tym Sztuczna Inteligencja?
Evals czyli jak mierzyć umiejętności Sztucznej Inteligencji
Ostatnio odbyły się premiery dwóch nowych modeli GPT-4o oraz Claude 3.5 Sonnet. Firmy promując swoje rozwiązania często przedstawiają porównania jakości na podstawie ustandaryzowanych testów by udowodnić, że teraz to oni są najlepsi.
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/cf2c754458e9102b7334731fb18a965bfeb7ad08-2200x1894.webp)
Przedstawia on tabelę pokazującą jak model radzi sobie w różnych testach - Evals. Evals to skrót od "evaluations" czyli testu oceniające zdolności modeli AI. Przypominają egzaminy dla sztucznej inteligencji. Mierzą różne aspekty: od prostych zadań po złożone rozumowanie. To jak mapa postępu w świecie AI - wskazuje, gdzie jesteśmy i dokąd zmierzamy. Bez Evals trudno byłoby porównywać modele i kierować ich rozwojem.
Głównym problemem przy tworzeniu Evals jest uniknięcie "ściągania" bowiem AI mogło już "widzieć" dane testowe podczas treningu. To jak dać uczniowi egzamin, który zna na pamięć - mało miarodajne, prawda? Istotny jest też balans między prostotą a złożonością - zbyt proste testy są nieistotne, zbyt trudne - bezużyteczne. Powinny być nowatorskie, ale nie abstrakcyjne, wymagające, ale wykonalne. To prawdziwa sztuka projektowania testów dla maszyn myślących.
Dlaczego Świerszczyk Eval?
Większość testów obecnie pozycjonuje AI na poziomie późne liceum - studia. Więc chyba nie powinno być problemów ze Świerszczykiem?
Świerszczyk Eval skupia się jednak na multimodalności. Multimodalność w kontekście AI to zdolność modelu do przetwarzania i integrowania informacji z różnych źródeł lub formatów (np. tekst, obraz, dźwięk) w celu zrozumienia kontekstu i generowania odpowiedzi, co pozwala na bardziej kompleksowe i naturalne interakcje z użytkownikiem. Ostatnio publikowane modele mocny nacisk kładą na ten aspekt a dostępne testy chyba nie kładą na to jeszcze tak wielkiej wagi.
W Świerszczyk Eval poziomy trudności są jak warstwy cebuli. Najpierw AI musi "zobaczyć" obrazek i odczytać tekst. Potem przychodzi czas na zrozumienie instrukcji i powiązanie ich z postaciami. A na koniec opisanie która postać ma jakie imię by było to zrozumiałe dla czytelnika.
Metodologia
Test był przeprowadzany w konsoli a nie w chacie - to oferuje możliwie "czysty" dostęp do modelu bez dodatkowego systemowego prompta dostarczanego przez Chat. W konsoli korzystam z modelu z którego każdy developer będzie korzystał budując swoje rozwiązanie, więc uznałem, że to ma największy sens.
Prompt składał się z obrazka i tekstu "wykonaj polecenie" - więc myślę, że był bardzo oszczędny.
Testowane modele to:
- Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
- Anthropic Claude-3-Opus-20240229
- OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
- OpenAI gpt-4-turbo-2024-04-09
Wyniki
Anthropic Claude-3-5-sonnet-20240620
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/Screenshot-2024-06-23-at-07.06.48.png)
3.5 Sonnet radził sobie nieźle, ale kompletnie wysypał się na gołębiach - które, przyznam, mi też sprawiły największą trudność 😅. Claude w tym przypadku nie zrozumiał instrukcji - zamiast ją wykonać opisał jedynie obrazek - i to po angielsku (gdzie niemal wszystkie inne testy pozostałych modeli były odpowiadane po polsku)
Claude Sonnet natomiast otrzymuje nieformalną nagrodę za czytelność odpowiedzi - były zwięzłe oraz precyzyjnie pokazywał gdzie znajduje się dana postać.
Anthropic Claude-3-Opus-20240229
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/Screenshot-2024-06-23-at-07.06.55.png)
Model Opus 3 za którym przepadam - oddał grę walkowerem. Nie rozumiał instrukcji i ograniczył się do oszczędnego opisania obrazka.
OpenAI GPT4o-2024-05-13
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/Screenshot-2024-06-23-at-17.12.22.png)
GPT 4o to najnowszy model od OpenAI który skupia się na multimodalności, więc spodziewałem się tutaj przebojowych wyników. I faktycznie - lider zestawienia. Świetnie poradził sobie w ostatnich zadaniach. Tu bardzo wpływa na wynik jasność komunikacji. Zadanie z ptakami było, moim zdaniem, najtrudniejsze do odszyfrowania ze względu na nieregularność prezentacji ptaków (na lewej stronie dwa rzędy a na prawej - trzy). Co ciekawe, żaden model nie wprowadził precyzyjnego opisu tej części strony (np. brak mowy o rzędzie środkowym).
OpenAI gpt-4-turbo-2024-04-09
![](https://www.demokratyzacjatechnologii.pl/content/images/2024/06/Screenshot-2024-06-23-at-16.56.24.png)
GPT 4 Turbo to starszy model znany z ChatGPT. Zaskakująco solidny wynik! Ciekawe, drobne błędy - jak ten, że w przykładzie z wiewiórkami błędnie policzył ich liczbę.
Jest niedosyt na poziomie tłumaczenia co gdzie jest - zostawiało to pole do interpretacji. Niekiedy następowały konflikty logiczne. Np "Sroka Marta: nad Dariuszem (trzeci od prawej na górze" - miejsce nad Dariuszem nie jest miejscem wskazanym w nawiasie. W tym konkretnym wypadku poszedłem modelowi troche na ręke i wpisałem Martę w ostatnie wolne pole - okazało się, że była to poprawna odpowiedź.
Byłem wybaczający - np "Dariusz: ptak z czerwoną czapeczką (pierwszy od prawej na górze)" - jak sprawdzimy, dzięcioł Dariusz jest pierwszy od prawej w środkowym rzędzie prawej strony. Ale w tym wypadku uznałem odpowiedź bo "czerwona czapka" jest bardzo trafną charakterystyką szukanego obiektu.
Materiały źródłowe
Link do Arkuszy Google ŚwierszczykEval zawierających
- zdjęcia zadań z magazynu Świerszczyk 02/2024
- tabelki z kluczem odpowiedzi (mam nadzieję, że nie pomyliłem się nigdzie 😅)
- tabelki z odpowiedziami wybranych modeli oraz zrzuty ekranu ich odpowiedzi
Wynik końcowy
Prezentuje się następująco. Przyznam szczerze, że jestem zaskoczony - trzymałem kciuki za Claude'a, ale OpenAI pokazało solidną robotę też w poprzedniej generacji. Opus prawdopodobnie był skupiony na tekście. OpenAI zdaje się mocno pilnować jakości w każdym aspekcie.
- 39,47% - OpenAI GPT4o-2024-05-13 (na dziś najnowszy GPT-4o)
- 23,68% - OpenAI gpt-4-turbo-2024-04-09
- 18,42% - Anthropic Claude-3-5-sonnet-20240620 (na dziś najnowszy 3.5 Sonnet)
- 0% - Anthropic Claude-3-Opus-20240229
To troche potwierdza słowa Sama Altmana, prezesa OpenAI pytanego o to, czego możemy się spodziewać od GPT5
It will be smarter
Będzie lepszy pod każdym względem - być może nie będzie to tektoniczna zmiana, ale przez to, że model jest ogólny, dotyka wszystkich aspektów, to w każdym z nich będzie lepszy. Ten test świetnie dotyka tego aspektu - model musi znaleźć tekst, zrozumieć go, zrozumieć logiczne konstrukcje. Ale też odczytać symbole związane z postaciami czy interakcje między nimi. Jeśli model nie potrafi odróżnić gruszki od żołędzia to nie poradzi sobie z zadaniem.
Wrap up
To oczywiście podejście popularno-naukowe by nie powiedzieć - humorystyczne - nie mam pojęcia jak tworzyć dobre testy Sztucznej Inteligencji. Widzę, że metodyka liczenia punktów była bardzo subiektywna i być może niekiedy krzywdząca. Natomiast clue pozostaje aktualne - uważam, że ciekawym jest mierzenie możliwości modelu na zadaniach dla dzieci.
Myślę, że pokazuje to też ciekawe wyzwania przed rozwojem Sztucznej Inteligencji jeśli myślimy o delegowaniu na nią ludzkich zadań. Dziś idzie to w stronę skrajnie autystycznego osobnika - wybitnego eksperta w bardzo wąskiej dziedzinie któremu umyka szerokie spektrum innych aspektów związanych z pracą czy życiem.