Meta Prezentuje Llama 2 Long -nowy model językowy o długim kontekście
Meta miło zaskoczyła świat sztucznej inteligencji, prezentując Llama 2 Long, model AI, który zyskał przewagę nad konkurencyjnymi modelami AI, takimi jak OpenAI’s GPT-3.5 Turbo i Claude 2, w generowaniu odpowiedzi na długie zapytania użytkowników1.
Od Llama 2 do Llama 2 Long
Przeobrażenie z Llama 2 do Llama 2 Long było możliwe dzięki ciągłemu procesowi uczenia z dłuższymi sekwencjami treningowymi oraz zestawem danych, gdzie teksty długie były nadreprezentowane. Takie podejście do prezentowania modelu umożliwiło lepsze radzenie sobie z długimi sekwencjami tekstowymi, co stanowi znaczący postęp w obsłudze zapytań o wysokim charakterze od użytkowników2.
Innowacje w Kodowaniu Pozycji
Kluczową zmianą było zastosowanie modyfikacji w zakodowaniu pozycji, znanej jako Rotary Positional Embedding (RoPE). Pozwoliło to na efektywniejsze mapowanie tokenów na grafie 3D, co jest kluczowe dla zachowania zrozumienia kontekstu w dłuższych sekwencjach tekstowych2.
Przełom w Generowaniu Odpowiedzi
Dzięki swoim unikatowym zdolnościom, nowy model osiągnął lepsze wyniki niż GPT-3.5 Turbo i Claude 2 w generowaniu odpowiedzi na zapytania użytkowników z długim kontekstem. Model ten oferuje okna kontekstowe do 32,768 tokenów, co w niektórych zadaniach już przewyższa ogólną wydajność GPT-3.5 Turbo2.
Llama 2 Long zyskała uznanie w otwartoźródłowej społeczności AI, co potwierdza, że inicjatywy otwartoźródłowe mogą skutecznie konkurować z modelami „pay to play” oferowanymi przez dobrze finansowane startupy. To duże uznanie dla podejścia Meta do AI generatywnej i świadczy o ciągłej innowacji w tej dynamicznie rozwijającej się dziedzinie2. Llama 2 Long to nie tylko triumf technologiczny, ale także zapowiedź fascynującej przyszłości AI. Jej zdolność do przezwyciężania ograniczeń dotychczasowych modeli AI w dłuższym kontekście tekstowym podkreśla potencjał na dalsze badania i innowacje, które mogą przekształcić sposób, w jaki modele AI rozumieją i reagują na złożone zapytania użytkowników, otwierając drzwi do nowych możliwości w interakcji ludzko-maszynowej.
Na podstawie: https://aibot.info/2023/10/12/llama-2-long-nowy-model-llama-2-od-meta/