GSPO: Nowy Kierunek w Szkoleniu Ogromnych Modeli Językowych
Podczas rozwijania dużych modeli językowych kluczowym wyzwaniem pozostaje skuteczne uczenie ich rozumienia i realizacji ludzkich preferencji. Tradycyjne metody jak PPO (Proximal Policy Optimization) czy GRPO (Group Relative Policy Optimization), stosowane w RLHF (Reinforcement Learning from Human Feedback), napotykały istotne ograniczenia, szczególnie przy trenowaniu złożonych architektur typu Mixture-of-Experts (MoE). W odpowiedzi na te wyzwania zespół Qwen opracował GSPO (Group Sequence Policy Optimization) – podejście redefiniujące podstawy optymalizacji w RLHF.
Ograniczenia Poprzednich Rozwiązań
PPO i GRPO koncentrowały się na optymalizacji na poziomie pojedynczych tokenów, podczas gdy nagrody w RLHF przyznawane są za całe sekwencje odpowiedzi. Ta fundamentalna rozbieżność generowała problemy:
- Niestabilność gradientów: Mikro-optymalizacje tokenów powodowały szum uczący i trudności z konwergencją
- Problemy w architekturach MoE: Dynamiczna aktywacja ekspertów przy każdym tokenie prowadziła do załamań procesu treningowego
- Złożoność implementacyjna: Konieczność budowy osobnego modelu krytyka zwiększała wymagania sprzętowe i komplikowała proces
Mechanizm Działania GSPO
GSPO wprowadza trzy kluczowe innowacje:
- Optymalizacja na poziomie sekwencji: Całe odpowiedzi stają się podstawową jednostką optymalizacji zamiast pojedynczych tokenów
- Grupowe ważenie sekwencji: Przypisywanie wag całym grupom odpowiedzi zapewnia stabilniejszy sygnał uczący
- Eliminacja modelu krytyka: Bezpośrednie porównania grup sekwencji zastępują potrzebę dodatkowej sieci wartości
Potwierdzone Zalety
Stabilność w architekturach MoE
Dzięki traktowaniu sekwencji jako niepodzielnej całości, GSPO eliminuje problemy dynamicznej aktywacji ekspertów. Testy Qwen wykazały pełną stabilność bez dodatkowych poprawek typu „Routing Replay”.
Usprawnienie procesu uczenia
Przejście na poziom sekwencji redukuje szum gradientowy średnio o 60%. W testach porównawczych GSPO osiągało lepsze wyniki niż GRPO przy tych samych zasobach obliczeniowych.
Uproszczenie infrastruktury
Brak modelu krytyka przekłada się na:
– 40% redukcję zużycia pamięci GPU
– 30% krótszy czas treningu
– Uproszczenie kodu i procesu wdrożeniowego
Skuteczność w praktyce
Podczas treningu modelu Qwen3-30B-A3B-Base GSPO wykazało:
– Wyższą zgodność z preferencjami użytkowników w testach AIME’24
– Lepsze wyniki na benchmarkach LiveCodeBench i CodeForces
– Pełną stabilność przy długich sekwencjach odpowiedzi
Wnioski i Perspektywy
GSPO reprezentuje istotny postęp w metodologii RLHF, szczególnie dla:
– Zespołów pracujących z architekturami MoE
– Projektów wymagających stabilnego treningu dużych modeli
– Implementacji gdzie istotna jest redukcja kosztów obliczeniowych
Testy Qwen potwierdzają, że podejście sekwencyjne nie tylko rozwiązuje problemy poprzednich metod, ale otwiera nowe możliwości skalowania zaawansowanych systemów AI. GSPO staje się istotnym elementem toolkitów do trenowania następnej generacji modeli językowych.