Mistral udostępnia model Mixtral 8x22B

Mistral, renomowana francuska korporacja działająca w branży technologii sztucznej inteligencji, ostatnio ujawniła Mixtral 8x22B – swój najnowszy model generatywny. Model ten szybko zyskał uznanie w środowisku AI, a jego dostępność na platformie Hugging Face tylko potęguje zainteresowanie. Jako wstępnie wyszkolona generatywna mieszanka ekspertów (MoE), Mixtral 8x22B dysponuje imponującymi 176 miliardami parametrów, z czego aktywnych w określonych zadaniach jest około 40 miliardów. Ten model, będący ewolucją jednego z najlepszych modeli licencjonowanych na Apache 2.0 – Mixtral 8x7B, stanowi znaczący krok naprzód w dziedzinie AI.

Kluczowe Cechy Mixtral 8x22B:

Wysoka Pojemność Obliczeniowa: Model oferuje długość kontekstu wynoszącą 65 tysięcy tokenów, co pozwala na generowanie bardziej spójnych i długich tekstów.
Możliwość Dostosowania: Podstawowa wersja modelu może być dalej dostrojona do specyficznych zastosowań i potrzeb, otwierając drogę do tworzenia wysoko specjalizowanych wariantów.
Wymagania Sprzętowe: Aby uruchomić model w pełnej precyzji (fp16), potrzebne jest około 260 GB VRAM, natomiast wersje skwantyzowane do 4 bitów wymagają około 73 GB pamięci.
Licencja: Mixtral 8x22B jest dostępny na licencji Apache 2.0, co ułatwia korzystanie z modelu w różnych projektach i aplikacjach.

Porównanie z innymi Modelami:

Wstępne testy porównawcze pokazują, że nawet w swojej podstawowej formie, Mixtral 8x22B przewyższa możliwości GPT-3.5, co jest obiecującym wskaźnikiem jego potencjału. Istnieje przekonanie, że odpowiednio dostrojone wersje Mixtral 8x22B mogą stanowić wyzwanie nawet dla GPT-4, jednego z najbardziej zaawansowanych obecnie dostępnych modeli generatywnych.

Dostępność i Użycie:

Model jest dostępny na platformie Hugging Face, co znacznie ułatwia badaczom i programistom eksperymentowanie oraz implementację. Mistral zapewnił również zestaw narzędzi i wytycznych mających na celu optymalizację zużycia pamięci, w tym wykorzystanie obliczeń o niższej precyzji oraz zastosowanie techniki Flash Attention 2 – elementów kluczowych dla uruchamiania modelu na urządzeniach z ograniczoną ilością VRAM. Wersje modelu w formacie GGUF, które można uruchomić przy użyciu procesora, są już dostępne na Hugging Face. Aby jednak skorzystać z tej opcji, konieczne jest dysponowanie znaczącą ilością pamięci RAM.

Przyszłe Perspektywy:

Biorąc pod uwagę skalę i możliwości Mixtral 8x22B, istnieje duże zainteresowanie przyszłymi dostrojonymi wersjami modelu. Wersje skwantyzowane, oferujące kompromis między wydajnością a wymaganiami sprzętowymi, już cieszą się popularnością w społeczności, co sugeruje, że Mistral może kontynuować rozwój w tej przestrzeni.

Ostatecznie, nowy model od Mistral reprezentuje znaczący krok naprzód w dziedzinie modeli języka naturalnego, oferując zarówno wyjątkową moc obliczeniową, jak i elastyczność w dostosowywaniu do konkretnych zastosowań. Jego pojawienie się na rynku stanowi zapowiedź nowej ery w rozwoju sztucznej inteligencji.