Co się dzieje z PLLuM?
Od kilku miesięcy na oficjalnej stronie projektu PLLuM — czyli „pierwszego” dużego, otwartego modelu językowego w języku polskim — panuje cisza. Ostatni wpis datowany jest na 20 czerwca 2024 roku. Tymczasem mamy już 3 stycznia 2025 roku, a model miał zostać udostępniony do końca 2024 roku. W tym czasie powstał model Bielik 11B, któremu można przyznać palmę pierwszeństwa wśród polskich modeli językowych. Jednak wracając do PLLuM, jest to projekt znacznie poważniejszy, za którym stoi sześć uczelni i który ma wsparcie państwa. Co dalej z PLLuM? Czy projekt utknął w martwym punkcie, czy prace trwają w ukryciu? Dla tych, którzy nie wiedzą, czym jest PLLuM, zacznijmy od początku.
Czym jest PLLuM?
PLLuM (Polish Large Language Universal Model) to inicjatywa mająca na celu opracowanie dużego, otwartego modelu językowego w języku polskim. Projekt jest finansowany ze środków Ministra Cyfryzacji w ramach dotacji celowej nr 1/WI/DBiI/2023, pn. „Odpowiedzialny rozwój otwartego dużego modelu językowego PLLuM w celu wspierania technologii przełomowych w sektorze publicznym i gospodarczym, w tym otwartego, polskojęzycznego inteligentnego asystenta petenta”.
Wartość finansowania wynosi 14 504 392 zł, co w skali międzynarodowych projektów związanych z dużymi modelami językowymi nie jest kwotą imponującą, wręcz bardzo małą. Jednak nie do końca, gdyż kilka dni temu ukazał się model DeepSeek-V3 o imponującej liczbie parametrów — 671 miliardów — który dorównuje pod wieloma aspektami największym modelom komercyjnym. DeepSeek-V3 został wytrenowany za 6 milionów dolarów, co w świecie AI jest kwotą wręcz śmieszną. Dodatkowo, model ten świetnie radzi sobie z językiem polskim i jest ogólnodostępny.
Wracając jednak do PLLuM, zgodnie z informacjami ze strony pllum.org.pl umowę podpisano 22 stycznia 2024 roku, a sam model miał zostać opublikowany jeszcze w tym samym roku.
Co z modelem?
Z założeń projektu wynika, że PLLuM miał mieć szerokie zastosowanie: od wsparcia technologii przełomowych w sektorze publicznym (np. polskojęzyczny inteligentny asystent petenta), po rozwiązania gospodarcze i komercyjne (np. chatboty do obsługi klienta). Mimo iż temat wydaje się istotny dla sektora publicznego, poziom transparentności pozostawia wiele do życzenia.
- Brak aktualizacji: Na oficjalnej stronie pllum.org.pl od 20 czerwca 2024 roku nie pojawiły się żadne informacje o postępach prac.
- Brak szczegółów technicznych: Nie ujawniono architektury modelu, docelowej liczby parametrów ani planowanych testów, które mogłyby pokazać skalę przedsięwzięcia.
- Mała komunikacja zewnętrzna: Choć projekt jest finansowany ze środków państwowych, nie widać żadnych oficjalnych raportów z realizacji, co zwykle stanowi standard w tak dużych inicjatywach badawczo-rozwojowych.
Czy doczekamy się PLLuM?
Trudno jednoznacznie stwierdzić, czy PLLuM napotkał poważne trudności, czy też prace toczą się za zamkniętymi drzwiami i dopiero przy finale zostaną ujawnione a to tylko małe opóźnienie. Faktem pozostaje, że:
- Harmonogram przewidywał wydanie modelu do końca 2024 roku.
- Od pół roku nie opublikowano żadnego komunikatu o postępach.
- Finansowanie publiczne (14,5 mln zł) sugeruje, że instytucje państwowe powinny sprawnie informować o stanie prac oraz planach dalszego rozwoju.
Dodatkowo, w materiałach projektowych podkreśla się znaczenie tego modelu dla rodzimej gospodarki i administracji, co tym bardziej rodzi pytania o brak bieżącego dialogu z opinią publiczną.
PLLuM zapowiadał się obiecująco, jednak w świetle obecnej ciszy trudno mówić o sukcesie w zakresie komunikacji z odbiorcami i interesariuszami. W przypadku projektów o takim znaczeniu — również z perspektywy rozwoju technologii w języku polskim — brak rzetelnych i regularnych informacji wywołuje niepokój co do losów całego przedsięwzięcia.
Miejmy nadzieję, że wkrótce pojawią się oficjalne wieści i model zostanie jednak zaprezentowany, nawet jeśli z lekkim opóźnieniem. Dopóki jednak nie zostaną ujawnione jakiekolwiek konkretne informacje, pytanie „Co z PLLuM?” pozostaje bez odpowiedzi. Oczywiście trzymamy kciuki w doprowadzeniu projektu do finału.
Źródła:
Na stronie Uniwersytetu im. Adama Mickiewicza w Poznaniu jest info o wydarzeniu Data on Campus #2 z końcówki października 2024:
https://wmi.amu.edu.pl/wydarzenia-wydzialu/data-on-campus-2-cala-prawda-o-polskich-llm-ach
Z wywiadu z prof. Maciejem Piaseckim wynika, że odbiorcą modelu jest Ministerstwo Cyfryzacji, i to pewnie tam zapadnie decyzja o jego prezentacji czy upublicznieniu.
Polecam obejrzeć nagranie tego wydarzenia: https://www.youtube.com/watch?v=xDKCbdDFyiM, gdzie w pierwszej części twórcy PLLuM omawiają (w dużym uproszczeniu) tworzenie tego modelu oraz jego dalszy rozwój.