Co się dzieje z PLLuM? Nowe informacje

W poprzednim artykule zastanawialiśmy się nad losem projektu PLLuM (Polish Large Language Universal Model) i brakującymi informacjami na temat jego postępów. Nasze pytania i obawy były w pełni uzasadnione, gdyż od czerwca 2024 roku na oficjalnej stronie projektu panowała cisza. Jednakże 9 stycznia 2025 roku na stronie projektu opublikowano obszerny artykuł podsumowujący zakończenie prac nad PLLuM, który odpowiada na większość nurtujących nas pytań.

Co osiągnięto w ramach projektu?

W ramach projektu PLLuM stworzono całą rodzinę modeli językowych, obejmujących:

Modele o wielkości od 7 do 70 miliardów parametrów, w tym największy polskojęzyczny model językowy w historii.
Modele Mixture of Experts (MoE) o konfiguracji 8×7 miliardów parametrów, co pozwala na wydajne przetwarzanie danych i skalowanie do zadań o różnej złożoności.
Model RAG (Retrieval Augmented Generation) o wielkości 8 miliardów parametrów, który łączy zdolności generacyjne z możliwością wyszukiwania kontekstów w czasie rzeczywistym. Jest to obecnie najbardziej zaawansowany generator tego typu w Polsce.
Model LLaMA 70B, którego dostrojenie przeprowadzono w trakcie projektu. Artykuł nie ujawnia jednak, o którą wersję tego modelu chodzi, co pozostawia pewne pole do spekulacji.
Udostępnienie modeli

Modele stworzone w ramach PLLuM będą udostępniane na zasadach otwartych licencji, z uwzględnieniem różnych poziomów dostępności:

Dane częściowo otwarte: 150 miliardów tokenów, z czego 28 miliardów spełnia wymogi licencyjne pozwalające na wykorzystanie komercyjne.
Zbiór instrukcji: 40 tysięcy organicznych instrukcji, w tym 3,5 tysiąca dialogów wieloturowych, które mogą być wykorzystane do trenowania modeli na konkretne zadania.
Korpus preferencji: 18 tysięcy pobudzeń, co daje nawet 110 tysięcy par odpowiedzi preferowanych i odrzuconych, idealnych do doskonalenia modeli w zakresie generowania odpowiedzi zgodnych z oczekiwaniami użytkownika.
Zgodnie z informacjami opublikowanymi na stronie projektu, od listopada 2024 roku modele z rodziny PLLuM oraz prototyp inteligentnego asystenta były testowane przez Ministerstwo Cyfryzacji. W grudniu dwa w pełni otwarte modele z rodziny PLLuM, Llama-PLLuM-8B oraz PLLuM-12B, zostały przekazane Ministerstwu. Modele te zostaną upublicznione tak szybko, jak Ministerstwo Cyfryzacji wystawi odpowiednie licencje, ponieważ to ono jest właścicielem wytworzonych w projekcie modeli.

Inne modele, w tym modele naukowe uczone na pełnym zbiorze danych (150 mld tokenów) oraz modele otwarte do zastosowań komercyjnych o rozmiarach 8x7B i 70B, zostaną opublikowane przez Konsorcjum w pierwszym kwartale 2025 roku, po podpisaniu odpowiednich porozumień z Ministerstwem. Liczymy, że stanie się to już w styczniu.

Dlaczego PLLuM jest ważny?

Projekt PLLuM nie tylko stanowi przełom w dziedzinie polskojęzycznych modeli językowych, ale również pokazuje, że przy odpowiedniej organizacji i wykorzystaniu zasobów możliwe jest stworzenie zaawansowanych narzędzi technologicznych na skalę krajową. Modele te mogą mieć szerokie zastosowanie w sektorze publicznym i komercyjnym, od chatbotów obsługujących klientów po inteligentnych asystentów. Nie możemy się doczekać, aż będziemy mogli przetestować te modele i zobaczyć ich działanie w praktyce. W szczególności interesują nas możliwości adaptacji RAG do aplikacji w sektorze publicznym i narzędzia Shparag, które może usprawnić tworzenie systemów RAG-owych.

W pierwszym kwartale 2025 roku planowane jest również opublikowanie białej księgi (ang. white paper), w której opisane zostaną wszystkie etapy prac nad modelami PLLuM. Dokument ten może być niezwykle cennym źródłem wiedzy dla naukowców i inżynierów zajmujących się sztuczną inteligencją.

Projekt PLLuM to krok milowy w kierunku uniezależnienia się od zagranicznych rozwiązań i wprowadzenia Polski na mapę nowoczesnych technologii językowych. Trzymamy kciuki za dalsze rozwijanie potencjału, jaki oferuje ten projekt.

Na podstawie:

https://pllum.org.pl/blog/posts/zakonczenie-projektu-pllum

1 komentarz do “Co się dzieje z PLLuM? Nowe informacje”

Janek

7 lutego 2025 o 17:59

Jakieś to dziwaczne, zbiurokratyzowane. Dlaczego nie ma ogólnodostępnej, albo dostępnej dla 10 tys. testerów BETY tego systemu.
10 tys. ludzi by się przyczyniało do rozwoju bazy, trenowania SI i już wdrażało system, wprowadzało w obieg kultury.
Zle wróży całemu projektowi.
Janek
Odpowiedz