Co się dzieje z PLLuM? Nowe informacje
W poprzednim artykule zastanawialiśmy się nad losem projektu PLLuM (Polish Large Language Universal Model) i brakującymi informacjami na temat jego postępów. Nasze pytania i obawy były w pełni uzasadnione, gdyż od czerwca 2024 roku na oficjalnej stronie projektu panowała cisza. Jednakże 9 stycznia 2025 roku na stronie projektu opublikowano obszerny artykuł podsumowujący zakończenie prac nad PLLuM, który odpowiada na większość nurtujących nas pytań.
Co osiągnięto w ramach projektu?
W ramach projektu PLLuM stworzono całą rodzinę modeli językowych, obejmujących:
Modele o wielkości od 7 do 70 miliardów parametrów, w tym największy polskojęzyczny model językowy w historii.
Modele Mixture of Experts (MoE) o konfiguracji 8×7 miliardów parametrów, co pozwala na wydajne przetwarzanie danych i skalowanie do zadań o różnej złożoności.
Model RAG (Retrieval Augmented Generation) o wielkości 8 miliardów parametrów, który łączy zdolności generacyjne z możliwością wyszukiwania kontekstów w czasie rzeczywistym. Jest to obecnie najbardziej zaawansowany generator tego typu w Polsce.
Model LLaMA 70B, którego dostrojenie przeprowadzono w trakcie projektu. Artykuł nie ujawnia jednak, o którą wersję tego modelu chodzi, co pozostawia pewne pole do spekulacji.
Udostępnienie modeli
Modele stworzone w ramach PLLuM będą udostępniane na zasadach otwartych licencji, z uwzględnieniem różnych poziomów dostępności:
Dane częściowo otwarte: 150 miliardów tokenów, z czego 28 miliardów spełnia wymogi licencyjne pozwalające na wykorzystanie komercyjne.
Zbiór instrukcji: 40 tysięcy organicznych instrukcji, w tym 3,5 tysiąca dialogów wieloturowych, które mogą być wykorzystane do trenowania modeli na konkretne zadania.
Korpus preferencji: 18 tysięcy pobudzeń, co daje nawet 110 tysięcy par odpowiedzi preferowanych i odrzuconych, idealnych do doskonalenia modeli w zakresie generowania odpowiedzi zgodnych z oczekiwaniami użytkownika.
Zgodnie z informacjami opublikowanymi na stronie projektu, od listopada 2024 roku modele z rodziny PLLuM oraz prototyp inteligentnego asystenta były testowane przez Ministerstwo Cyfryzacji. W grudniu dwa w pełni otwarte modele z rodziny PLLuM, Llama-PLLuM-8B oraz PLLuM-12B, zostały przekazane Ministerstwu. Modele te zostaną upublicznione tak szybko, jak Ministerstwo Cyfryzacji wystawi odpowiednie licencje, ponieważ to ono jest właścicielem wytworzonych w projekcie modeli.
Inne modele, w tym modele naukowe uczone na pełnym zbiorze danych (150 mld tokenów) oraz modele otwarte do zastosowań komercyjnych o rozmiarach 8x7B i 70B, zostaną opublikowane przez Konsorcjum w pierwszym kwartale 2025 roku, po podpisaniu odpowiednich porozumień z Ministerstwem. Liczymy, że stanie się to już w styczniu.
Dlaczego PLLuM jest ważny?
Projekt PLLuM nie tylko stanowi przełom w dziedzinie polskojęzycznych modeli językowych, ale również pokazuje, że przy odpowiedniej organizacji i wykorzystaniu zasobów możliwe jest stworzenie zaawansowanych narzędzi technologicznych na skalę krajową. Modele te mogą mieć szerokie zastosowanie w sektorze publicznym i komercyjnym, od chatbotów obsługujących klientów po inteligentnych asystentów. Nie możemy się doczekać, aż będziemy mogli przetestować te modele i zobaczyć ich działanie w praktyce. W szczególności interesują nas możliwości adaptacji RAG do aplikacji w sektorze publicznym i narzędzia Shparag, które może usprawnić tworzenie systemów RAG-owych.
W pierwszym kwartale 2025 roku planowane jest również opublikowanie białej księgi (ang. white paper), w której opisane zostaną wszystkie etapy prac nad modelami PLLuM. Dokument ten może być niezwykle cennym źródłem wiedzy dla naukowców i inżynierów zajmujących się sztuczną inteligencją.
Projekt PLLuM to krok milowy w kierunku uniezależnienia się od zagranicznych rozwiązań i wprowadzenia Polski na mapę nowoczesnych technologii językowych. Trzymamy kciuki za dalsze rozwijanie potencjału, jaki oferuje ten projekt.
Na podstawie: