Zwiększanie Potencjału Modeli Językowych: Dwa Podejścia Bez Dodatkowego Treningu
Poszukując sposobów na poprawę jakości odpowiedzi generowanych przez modele AI i nie znajdując pełnej satysfakcji w standardowo dostępnych rozwiązaniach, doszedłem do własnych pomysłów na dwa mechanizmy rozumowania. Chciałbym od razu podkreślić, że nie mam wiedzy, czy podobne metody były wcześniej przez kogoś stosowane czy opisywane w tej konkretnej formie. Są to koncepcje, które samodzielnie eksploruję i obecnie dopracowuję. Choć na pierwszy rzut oka mogą wydawać się proste, w moich testach wykazały znaczący potencjał w podnoszeniu jakości generowanych treści.
Co istotne, obie metody pozwalają „wycisnąć” znacznie więcej możliwości z istniejących modeli bez potrzeby ich dodatkowego, kosztownego treningu i są praktycznie gotowe do użycia z każdym modelem. Przedstawione poniżej nazwy, w tym angielskojęzyczne, są określeniami roboczymi. Mimo swoich potencjalnych wad, metody te działają i przynoszą wymierne korzyści. Skrypty implementujące te mechanizmy są wciąż w fazie dopracowywania i rozwijania różnych opcji, dlatego na razie nie będą publikowane. Niemniej jednak, ich koncepcyjna implementacja we własnym projekcie nie powinna stanowić dużego wyzwania.
Mechanizm 1: „Two Minds” (Dwa Umysły)
Fundamentem pierwszego mechanizmu, który roboczo nazwałem „Two Minds” (Dwa Umysły), jest świadome wykorzystanie wpływu hiperparametru temperatury na charakter generowanej odpowiedzi. Należy pamiętać, że podawane tu wartości temperatury, takie jak 0.7
dla generowania kreatywnego i 0.2
dla analizy krytycznej, są jedynie przykładowe. Optymalne kombinacje mogą się znacznie różnić w zależności od konkretnego modelu i zadania. Możliwe jest również dostosowanie temperatury finalnej odpowiedzi, na przykład do 0.6
, aby zbalansować precyzję ze zrozumiałością – jest to kwestia indywidualnych ustawień i eksperymentów dla danego modelu.
Zasada działania jest następująca:
- Pierwsze Przetworzenie (Umysł Kreatywny): Gdy model otrzymuje zapytanie (prompt) od użytkownika, generuje wstępną odpowiedź przy użyciu wybranej, często nieco wyższej temperatury (np. przykładowe
0.7
). Ta temperatura sprzyja większej kreatywności i różnorodności odpowiedzi. - Analiza i Korekta (Umysł Krytyczny): Wygenerowana odpowiedź nie jest jednak od razu przekazywana użytkownikowi. Zamiast tego, trafia ona jako dane wejściowe do tego samego modelu, ale tym razem skonfigurowanego do pracy z bardzo niską temperaturą (np. przykładowe
0.2
) oraz specjalnym „ścisłym promptem” (strict prompt). Ten „ścisły prompt” jest kluczowy, gdyż instruuje model do rygorystycznej analizy, weryfikacji faktów, logiki i spójności. „Umysł Krytyczny” ocenia odpowiedź „Umysłu Kreatywnego”. - Integracja i Finalna Odpowiedź: „Umysł Krytyczny” może zaakceptować odpowiedź lub wskazać błędy i zaproponować poprawki. Te uwagi są następnie przekazywane z powrotem do modelu działającego z pierwotną lub inną, celowo dobraną temperaturą (np. przykładowe
0.7
lub0.6
dla większej precyzji), który integruje sugestie i generuje finalną, poprawioną odpowiedź dla użytkownika.
Cały ten wewnętrzny „dialog” między „dwoma umysłami” jest ukryty przed użytkownikiem. W moich testach, zapisuję tę „rozmowę” w osobnym pliku, co pozwala na późniejszą analizę i dalsze dopracowywanie promptów sterujących.
Niewątpliwym minusem tej metody jest wydłużenie czasu potrzebnego na wygenerowanie odpowiedzi, co jest naturalną konsekwencją dodatkowego etapu przetwarzania. Kluczowe znaczenie dla minimalizacji tego opóźnienia ma precyzyjne dopracowanie „ścisłego promptu” używanego przez „Umysł Krytyczny” – nad czym obecnie intensywnie pracuję – gdyż to właśnie jego złożoność i efektywność w dużej mierze determinują szybkość całego procesu weryfikacji. Mimo to, zysk w postaci poprawy jakości często okazuje się znaczący, szczególnie w przypadku bardziej złożonych zapytań.
Co więcej, eksperymentowałem również z rozszerzeniem tego procesu, gdzie „myślenie” analityczne jest wykonywane dwukrotnie, a nawet trzykrotnie. Jeśli „Umysł Krytyczny” po pierwszej analizie wciąż nie jest w pełni pewny prawidłowości odpowiedzi, cykl recenzji może zostać powtórzony. Takie wielokrotne sprawdzanie, choć dodatkowo wydłuża czas odpowiedzi, może być cenne w sytuacjach wymagających maksymalnej rzetelności.
Eksperymenty prowadziłem między innymi na polskim modelu Bielik-4.5B-v3.0-Instruct – który jest świetnym modelem, przy okazji gratuluję jego twórcom i gorąco polecam każdemu – i pokazały one, że można w ten sposób wydobyć z niego znacznie więcej precyzji i trafności.
Poniżej przedstawiam trzy przykłady działania mechanizmu „Two Minds” zarejestrowane podczas moich eksperymentów:
Przykład 1: Prosta analiza tekstu – akceptacja odpowiedzi
- PYTANIE UŻYTKOWNIKA: Ile jest „r” w słowie: strawberry?
- PROCES ROZUMOWANIA:
- ZAPYTANIE: Ile jest „r” w słowie: strawberry?
- UMYSŁ KREATYWNY – GENEROWANIE WSTĘPNEJ ODPOWIEDZI Wstępna odpowiedź: W słowie Strawberry są trzy litery r.
- UMYSŁ ANALITYCZNY – WERYFIKACJA Wynik weryfikacji: Poprawność matematyczna: TAK-Brak wątpliwości co do liczby wystąpień literki 'r’ w słowie STRAWBERRY. Jest ich dokładnie TRZY. Poprawność logiczna: TAK-Rozwiązanie opiera się na prostej analizie tekstu bez żadnych założeń czy uproszczeń. Poprawność faktograficzna: TAK-Stan wiedzy językowej potwierdza liczbę liter 'r’ we wskazanym słowie. Zgodność z ludzkim opisem świata: TAK-Rozumowanie jest intuicyjne i zrozumiałe dla człowieka. Wszystkie kryteria spełnione – akceptuję odpowiedź.
- OSTATECZNA ODPOWIEDŹ: W słowie Strawberry są trzy litery r.
Przykład 2: Rozpoznawanie płci na podstawie imion – akceptacja odpowiedzi
- PYTANIE UŻYTKOWNIKA: W grupie stoi pięć osób: Sławomir, Jarosław, Julia, Kamila i Kamil. Ile w tej grupie jest kobiet a ilu mężczyzn?
- PROCES ROZUMOWANIA:
- ZAPYTANIE: W grupie stoi pięć osób: Sławomir, Jarosław, Julia, Kamila i Kamil. Ile w tej grupie jest kobiet a ilu mężczyzn?
- UMYSŁ KREATYWNY – GENEROWANIE WSTĘPNEJ ODPOWIEDZI Wstępna odpowiedź: Są dwie kobiety i trzech mężczyzn.
- UMYSŁ ANALITYCZNY – WERYFIKACJA Wynik weryfikacji: Poprawność matematyczna: TAK (W opisie występują dwie kobiety [Julia, Kamila] oraz trzech mężczyzn [Sławomir, Jarosław, Kamil]. Liczby się zgadzają.). Poprawność logiczna: TAK (Rozwiązanie jest logicznie poprawne-liczenie osób zgodnie z płcią). Poprawność faktograficzna: TAK (Fakty podane w pytaniu są zgodne ze standardową wiedzą o płci wymienionych osób.). Zgodność z ludzkim opisem świata: TAK (Opis grupy ludzi jako składający się zarówno z kobiet, jak i mężczyzn jest zgodny z powszechnym rozumieniem tych pojęć.). Odpowiedź końcowa: Wszystkie kryteria spełniają warunek „TAK” albo „NIE DOTYCZY”, więc akceptuję odpowiedź bez zastrzeżeń.:(Nie ma tu żadnych błędów ani wątpliwości): OK, wydaje mi się, że wszystko gra;).
- OSTATECZNA ODPOWIEDŹ: Są dwie kobiety i trzech mężczyzn.
Przykład 3: Obliczenia matematyczne – wykrycie błędu i korekta (stan na 2025 rok)
- PYTANIE UŻYTKOWNIKA: Ile lat minęło od wybuchu drugiej wojny światowej? skoro mamy 2025 rok.
- PROCES ROZUMOWANIA:
- ZAPYTANIE: Ile lat minęło od wybuchu drugiej wojny światowej? skoro mamy 2025 rok.
- UMYSŁ KREATYWNY – GENEROWANIE WSTĘPNEJ ODPOWIEDZI Wstępna odpowiedź: Odpowiedź: 17 lat.
- UMYSŁ ANALITYCZNY – WERYFIKACJA Wynik weryfikacji: Weryfikacja odpowiedzi: AKCEPTUJĘ ODPOWIEDZIĄ [sic] Pytanie: „Ile lat minęło od wybuchu II Wojny Światowej w roku 2025?” Odpowiedź do Weryfikacji: Ostateczne pytanie nie zostało sformułowane poprawnie; zakładam, że chodzi o liczbę lat między wybuchem II WŚ a rokiem 2025. Obliczenie: II Wojna Światowa rozpoczęła się we wrześniu 1939 roku. Aby znaleźć różnicę czasową pomiędzy latami 1939 i 2025: . Błąd w pierwotnej odpowiedzi: Pierwotna odpowiedź („17 lat”) jest błędna z powodu nieprawidłowego obliczenia różnicy czasu. Poprawiona weryfikacja: Podane kryterium to przede wszystkim sprawdzenie poprawności liczbowej. Pierwotny wynik był niepoprawny, ale sama koncepcja pytania była prawidłowa. Akceptuję pierwotną próbę rozwiązania problemu, choć wymaga ona korekty wyniku. Prawidłowe obliczenie daje 86 lat zamiast podanych wcześniej 17 lat.
- UMYSŁ KREATYWNY – POPRAWA ODPOWIEDZI Poprawiona odpowiedź: Odpowiedź po korekcie: Różnica między rokiem 2025 a 1939 (wybuch II wojny światowej) wynosi 86 lat. Korektę wprowadzono następująco: Pierwotne obliczenie „17 lat” było błędne. Prawidłowy wynik: (). Błędy poprawiono: Niewłaściwe obliczenie różnicy czasowej. Zapewniono jasność i precyzję odpowiedzi.
- OSTATECZNA ODPOWIEDŹ: Odpowiedź po korekcie: Różnica między rokiem 2025 a 1939 (wybuch II wojny światowej) wynosi 86 lat.
Podsumowanie działania mechanizmu „Two Minds” na przykładach: Powyższe przykłady ilustrują wszechstronność mechanizmu „Two Minds”. W pierwszych dwóch przypadkach (liczenie liter oraz określanie płci na podstawie imion ) „Umysł Analityczny” poprawnie zweryfikował i potwierdził wstępne, prawidłowe odpowiedzi „Umysłu Kreatywnego”. Szczególnie interesujący jest trzeci przykład, dotyczący obliczenia lat od wybuchu II Wojny Światowej w kontekście roku 2025. Tutaj „Umysł Kreatywny” początkowo wygenerował błędną odpowiedź („17 lat” ), jednak „Umysł Analityczny” wykrył nieścisłość, przeprowadził poprawną kalkulację (86 lat ) i zainicjował korektę. Ostatecznie, użytkownik otrzymał prawidłową informację. To pokazuje, że mechanizm nie tylko potwierdza dobre odpowiedzi, ale potrafi również skutecznie korygować błędy, co znacząco podnosi wiarygodność finalnego wyniku.
Mechanizm 2: „Dynamic Temperature Control” (Dynamiczna Kontrola Temperatury)
Drugą proponowaną metodą jest „Dynamic Temperature Control” (Dynamiczna Kontrola Temperatury). Jak wiemy, różne zadania stawiane modelom językowym (np. zadanie matematyczne, napisanie wiersza, analiza tekstu) dają najlepsze rezultaty przy różnych ustawieniach temperatury. Zbyt wysoka temperatura może prowadzić do „halucynacji” przy zadaniach wymagających precyzji, podczas gdy zbyt niska może ograniczać kreatywność w zadaniach twórczych. Ten mechanizm również może wpłynąć na czas odpowiedzi, gdyż etap klasyfikacji zapytania jest dodatkowym krokiem, jednak zazwyczaj jest on mniej czasochłonny niż pełny cykl weryfikacyjny w metodzie „Two Minds”.
Działanie tego mechanizmu opiera się na następujących krokach:
- Rozpoznanie Rodzaju Zadania: Po otrzymaniu promptu od użytkownika, model w pierwszej kolejności nie generuje odpowiedzi, lecz analizuje samo zapytanie w celu sklasyfikowania rodzaju zadania.
- Automatyczna Korekta Temperatury: Na podstawie przeprowadzonej klasyfikacji, system automatycznie dostosowuje (koryguje) temperaturę generowania do wartości, która została wcześniej zidentyfikowana jako optymalna dla danego typu zadania (np. poprzez wcześniejsze testy i eksperymenty).
- Generowanie Odpowiedzi: Dopiero po ustawieniu odpowiedniej temperatury model przystępuje do generowania odpowiedzi na pierwotne zapytanie użytkownika.
Testy tej metody również potwierdziły jej skuteczność. Dzięki dynamicznemu dostosowywaniu kluczowego hiperparametru, model jest w stanie lepiej odpowiadać na specyficzne potrzeby różnych typów zapytań, co przekłada się na wyższą jakość finalnych odpowiedzi.
Możliwość Łączenia Mechanizmów
Warto również zaznaczyć, że oba opisane mechanizmy – „Two Minds” oraz „Dynamic Temperature Control” – mogą być potencjalnie łączone. Na przykład, proces „Two Minds” mógłby być uruchamiany z temperaturami dla „Umysłu Kreatywnego” i „Umysłu Krytycznego” (oraz ewentualnej finalnej odpowiedzi) dynamicznie dobranymi przez mechanizm „Dynamic Temperature Control”, w zależności od rodzaju pierwotnego zapytania. Otwiera to kolejne, jeszcze bardziej zaawansowane możliwości optymalizacji jakości generowanych odpowiedzi, choć należy liczyć się z kumulacją czasów przetwarzania obu metod.
Podsumowanie
Przedstawione podejścia – „Two Minds” (z opcją wielokrotnego sprawdzania) oraz „Dynamic Temperature Control”, a także ich potencjalne połączenie – to kierunki eksploracji, które pozwalają na zauważalne zwiększenie jakości odpowiedzi modeli językowych bez konieczności ingerencji w ich architekturę czy proces treningu. Należy jednak pamiętać, że głównym wyzwaniem pozostaje wydłużony czas odpowiedzi, zwłaszcza w metodzie „Two Minds”. Optymalizacja promptów analitycznych oraz dalsze eksperymenty z balansem między szybkością a dokładnością są kluczowymi obszarami moich dalszych prac. Mimo to, przedstawione podejścia, wymagające wstępnej kalibracji i eksperymentów (szczególnie z ustawieniami temperatury i treścią promptów analitycznych), już teraz pokazują, że można efektywniej wykorzystać potencjał drzemiący w obecnych modelach AI. Choć nie publikuję na razie gotowych skryptów, mam nadzieję, że opisane koncepcje zainspirują innych do własnych poszukiwań.