Mixtral – Przełom w Modelach Językowych
W ostatnim czasie, większość dużych modeli językowych (LLMs) opierała się na podobnych architekturach neuronowych. Przykłady takich modeli to Falcon, Mistral czy Llama 2, które wykorzystują połączenie modułów samo-uwagi i MLP. Jednakże, firma Mistral AI, twórca Mistral 7B, wprowadziła na rynek nowy model językowy o nazwie Mixtral-8x7B, wykorzystujący rzadką mieszankę 8 modeli ekspertów.
Mixtral-8x7B zawiera łącznie 46,7 miliarda parametrów, ale dzięki swojej architekturze, model ten może być efektywnie wykorzystywany na sprzęcie konsumenckim. Inference, czyli proces wnioskowania w Mixtral-8x7B, jest znacznie szybszy niż w innych modelach o podobnej wielkości, jednocześnie przewyższając je pod względem wydajności w większości zadań.
Co to jest rzadka mieszanka ekspertów?
Rzadka mieszanka ekspertów (SMoE) to typ architektury sieci neuronowej zaprojektowany w celu poprawy efektywności i skalowalności tradycyjnych modeli. Koncepcja mieszanki ekspertów została wprowadzona, aby umożliwić modelowi naukę różnych części przestrzeni wejściowej przy użyciu wyspecjalizowanych podsieci „ekspertów”. W Mixtral znajduje się 8 takich podsieci ekspertów.
Warto zaznaczyć, że nazwa „8x7B” modelu jest nieco myląca. Model ma łącznie 46,7 miliarda parametrów, co jest niemal 10 miliardów parametrów mniej, niż wynikałoby to z 8x7B. W Mixtral-8x7B kilka modułów, takich jak te do samo-uwagi, jest współdzielonych z 8 podsieciami ekspertów.
Dlaczego Mixtral jest wydajniejszy?
Każda podsieć ekspertów jest odpowiedzialna za obsługę określonego regionu lub aspektu danych wejściowych, a sieć bramek (lub router) decyduje, jak bardzo każdy ekspert przyczynia się do końcowej predykcji. W przypadku Mixtral, jednocześnie aktywne są tylko 2 eksperty, co oznacza wykorzystanie jedynie 13 miliardów parametrów w trakcie wnioskowania, stąd większa wydajność w porównaniu z innymi modelami o podobnej wielkości.
Zalety rzadkiej aktywacji:
Efektywność obliczeniowa: Aktywacja tylko niektórych ekspertów zmniejsza koszt obliczeniowy oceny całej puli ekspertów dla każdego wejścia.
Efektywność parametrów: Pozwala modelowi bardziej efektywnie alokować swoje parametry.
Generalizacja: Rzadka aktywacja może zachęcać model do nauki bardziej specjalistycznych i szczegółowych cech dla różnych regionów przestrzeni wejściowej.
Jak używać Mixtral-8x7B?
Mixtral jest już obsługiwany przez Hugging Face Transformers (od wersji 4.36.0) oraz bitsandbytes. Model można kwantyzować, aby dostosować go do sprzętu konsumenckiego.
Obsługuje również FlashAttention 2, co pomaga zmniejszyć zużycie pamięci podczas wnioskowania i dostrajania z długimi sekwencjami (do 32k tokenów).
Na komputerze potrzebny jest co najmniej jeden GPU z 16 GB pamięci VRAM, na przykład 2 NVIDIA RTX 4060 16 GB, aby płynnie uruchomić model.
Podsumowanie
Rzadka mieszanka ekspertów to efektywna architektura modeli, która umożliwia szybsze wnioskowanie niż standardowe modele o podobnej wielkości. Mimo że Mixtral wykorzystuje tylko około 1/4 swoich parametrów podczas wnioskowania, nadal wymaga załadowania wszystkich parametrów do pamięci.
Jednym ze sposobów na zmniejszenie zapotrzebowania na pamięć w LLM jest kwantyzacja. Na przykład, możemy użyć bitsandbytes NF4 do kwantyzacji Mixtral do 4-bitów. Wówczas możliwe jest uruchomienie lub dostrojenie Mixtral na sprzęcie konsumenckim, ale potrzebne są co najmniej dwa GPU.