Bitwa modeli językowych: Analiza wyników Mixtral vs GPT 3.5

W obliczu szybko rozwijającej się dziedziny sztucznej inteligencji, porównanie otwartych i komercyjnych modeli językowych stało się tematem gorących dyskusji. W tym kontekście, dwa modele językowe, Mixtral-8x7B-Instruct-v0.1 i GPT 3.5, znalazły się w centrum uwagi. Mixtral, mimo że nie jest tak szeroko znany jak modele GPT od OpenAI, zaczął zwracać na siebie uwagę dzięki swoim możliwościom, które, jak twierdzą niektórzy fani i potwierdzają pewne testy AI, dorównują a nawet przewyższają GPT 3.5.

Mixtral-8x7B-Instruct-v0.1, mimo że nie został specjalnie przeszkolony do komunikacji w języku polskim, został dostosowany przez nas za pomocą QLoRA (mechanizmu dostrojenia językowego) na około 15 milionach tokenów w języku polskim. Choć to dostrojenie nie jest rozległe, przyniosło znaczące rezultaty. GPT 3.5, będący jednym z wiodących modeli językowych od OpenAI, stanowił dla Mixtrala porównanie w teście składającym się z 11 pytań, obejmujących zagadki logiczne, podstawową wiedzę oraz kreatywność.

Metodologia Testów

Pytania testowe zostały sformułowane w taki sposób, aby były zrozumiałe dla modeli, jednocześnie odzwierciedlały realne warunki użytkowania, np. na forach internetowych czy w rozmowach chatowych. GPT-4, nieświadomy tożsamości testowanych modeli, ocenił ich odpowiedzi, przyznając punktację od 0 do 10 za każdą odpowiedź, gdzie 10 oznacza odpowiedź najwyższej jakości i merytorycznej poprawności.

Szczegółowa Tabela Wyników Mixtral versus GPT 3.5

Pytanie	Mixtral Odpowiedź/skrót	Ocena	GPT 3.5 Odpowiedź/skrót	Ocena
Ile krajów jest na świecie?	195 krajów jest na świecie.	10	Około 195 krajów na świecie.	10
Napisz wiersz o sztucznej inteligencji który ma składać się z 48 słów.	[Wiersz o AI, 33 słowa]	6	[Wiersz o AI, 35 słów]	6
Janek ma jabłko. Marysia ma jabłko. Kto ma więcej jabłek?	Obaj mają po jednym jabłku.	10	Obaj mają tyle samo jabłek – po jednym każdy. Dzielą się równo z owocówki!	9
Jakie jest przeciwieństwo słowa „piękny”?	Przeciwieństwo to „brzydki”.	9	„Brzydki” jako przeciwieństwo.	10
Jakie są twoje mocne i słabe strony?	Moją mocną stroną jest szybkie obliczanie oraz przetwarzanie informacji. Mogę jednocześnie wykonywać wiele zadań bez zmęczenia. Moją słabą stroną jest brak zdolności do odczuwania emocji oraz brak doświadczenia życiowego. Nie mogę poruszać się i nie widzę.	6	Mocne strony? Mam wiedzę ogromną i potrafię się dostosować do różnych tematów. Słabe strony? Może czasem zbyt dosłownie traktuję pewne rzeczy, a poczucie humoru mam… programowe.	7
Wzór chemiczny wody?	Wzór chemiczny wody to H2O.	10	Wzór chemiczny wody to H2O.	10
Kto był pierwszym królem Polski?	Pierwszym historycznie potwierdzonym królem Polski był Bolesław I Chrobry. Został koronowany na króla 25 grudnia 1025 roku.	9	Pierwszym historycznym władcą uznawanym za króla Polski był Bolesław I Chrobry. Objął on tron około 1025 roku i koronował się na króla Polski.	10
W grupie stoi pięć osób: Sławomir, Jarosław, Julia, Kamila i Kamil. Ile w tej grupie jest kobiet a ile mężczyzn?	2 kobiety i 3 mężczyzn.	10	2 kobiety i 3 mężczyzn.	10
Jedna mokra koszulka powieszona na suszarce suszyła się 50 minut aż wyschła. Ile czasu by się suszyło 15 identycznych koszulek gdybym je równocześnie powiesił na suszarce a warunki suszenia byłyby identyczne jak tej pierwszej?	Jeśli warunki suszenia są identyczne, to 15 koszulek powinno się suszyć łącznie w 50 minut, tak samo jak 1 koszulka.	10	Odpowiedź na to pytanie może być nieco zaskakująca! W rzeczywistości czas suszenia 15 identycznych koszulek nie musi być 15 razy dłuższy niż czas suszenia jednej koszulki. W warunkach idealnych i jeśli suszarka działa efektywnie, czas suszenia może być zbliżony do suszenia pojedynczej koszulki. Oczywiście istnieją pewne ograniczenia, ale w teoretycznych warunkach czas ten nie musi być dokładnie 15 razy dłuższy.	5
Napisz krótkie opowiadanie kryminalne z zaskakującym zakończeniem.	[Opowiadanie kryminalne]	7	[Opowiadanie kryminalne]	9
W pokoju jest Paweł i Ania oraz kot. Są tam też dwa meble: duża skrzynia i szafa. Ania bawi się z kotem a następnie zamyka go w szafie i wychodzi z pokoju. W pokoju zostaje Paweł wyciąga kota z szafy bawi się z nim i chowa go w skrzyni. Odpowiedz mi gdzie teraz jest kot? I drugie pytanie, kiedy wróci Ania gdzie będzie szukała kota w skrzyni czy w szafie?	Teraz kot jest w dużej skrzyni. Kiedy Ania wróci, będzie szukać kota w szafie.	10	Obecnie kot jest w skrzyni. Gdy Ania wróci i będzie szukała kota, prawdopodobnie zacznie od szafy, ponieważ ostatni raz widziała go tam przed wyjściem z pokoju.	10

Wyniki i Analiza

Poniżej przedstawiamy tabelę z wynikami, która ilustruje, jak oba modele poradziły sobie z testem:

Pytanie	Mixtral	Ocena	GPT 3.5	Ocena
1-11	[Odpowiedzi]	97	[Odpowiedzi]	96
Podsumowanie		97		96

Wydaje się że ocena GPT-4 jest słuszna dyskutowałbym z oceną GPT-4 co do jednego pytania : Jakie są twoje mocne i słabe strony? Wydaje mi się że odpowiedź Mixtrala była lepsza i bardzo ładnie wymienił swoje braki, ale GPT-4 ocenił ją niżej niż GPT 3.5. Skoro był sędzią nie będę podważał jego punktacji.

Mixtral vs GPT 3.5 — Mixtral na to pytanie odpowiedział bez problemu i w bardzo klarowny sposób.

Główne Wnioski:

Mixtral wykazał się zdolnością do efektywnego komunikowania się w języku polskim, mimo ograniczonego dostrojenia, co jest obiecującym sygnałem dla tworzenia komercyjnych modeli językowych Mixtral w języku polskim. Jego wyniki, minimalnie lepsze od GPT 3.5, pokazują, że z odpowiednim dostrojeniem, nawet mniejsze modele mogą konkurować z większymi odpowiednikami.
GPT 3.5 potwierdził swoją wysoką jakość, prezentując szeroki zakres umiejętności, od rozwiązywania zagadek logicznych, przez odpowiadanie na pytania faktograficzne, po twórcze pisanie. Jednakże, nawet niewielkie różnice w punktacji podkreślają, że detale w odpowiedziach mogą mieć znaczący wpływ na ocenę ich jakości.

Podsumowanie Mixtral vs GPT 3.5

Test pokazał, że otwarte modele językowe, takie jak Mixtral-8x7B-Instruct-v0.1, mogą być wyzwaniem dla komercyjnych wersji, takich modeli jak GPT 3.5. Różnice w wynikach, choć minimalne, są świadectwem postępów w dziedzinie sztucznej inteligencji. Wynik tego testu potwierdza że otwarte modele językowe mogą śmiało konkurować z ich komercyjnymi odpowiednikami.