Podsumowanie tygodnia w sztucznej inteligencji

W ramach nowego cyklu artykułów przedstawiam najważniejsze wydarzenia związane ze sztuczną inteligencją. Technologia AI rozwija się w tak niesamowitym tempie, że trudno nadążyć za wszystkimi nowościami, nie mówiąc już o przetestowaniu wszystkich innowacji. Oto najważniejsze wydarzenia tego tygodnia według mojej subiektywnej oceny:

1. Luma Labs AI – Dream Machine

Luma Labs AI zaprezentowała swój najnowszy model przetwarzania tekstu i obrazu na wideo, nazywany Dream Machine. Ten model potrafi stworzyć 5-sekundowe wideo, które można wielokrotnie przedłużać o kolejne 5 sekund, co umożliwia tworzenie długich sekwencji wideo. Technologia robi ogromne wrażenie, a efekty testów są imponujące.

2. Claude Sonnet 3.5 od Anthropic AI

Nowy model Claude Sonnet 3.5 od Anthropic AI zdobywa świetne recenzje od wczoraj. Wiele osób twierdzi, że przewyższa wszelkie dostępne wersje ChatGPT-4, co czyni go jednym z najważniejszych graczy na rynku AI.

3. Nvidia – Model 340B

Nvidia udostępniła potężny model 340B w trzech wersjach: podstawowej, nagradzającej i instruującej. Model ten, przeszkolony w ponad 50 językach i 40 językach kodowania, wyróżnia się gęstością danych i szerokimi możliwościami zastosowania.

4. Model Samba

Udostępniono hybrydowy model Samba o nieograniczonej długości kontekstu, łączący technologie Mamba, MLP, Sliding Window Attention i układanie MLP. Największa wersja, Samba-3.8B, wyróżnia się w testach takich jak MMLU, GSM8K i HumanEval, radząc sobie doskonale z zadaniami o długim kontekście przy minimalnym dostrajaniu.

5. Runway – Gen-3 Alpha

Runway, nowojorska firma, zaprezentowała swój najnowszy i najbardziej zaawansowany model AI do generowania wideo – Gen-3 Alpha. Model ten umożliwia tworzenie wysokiej jakości, realistycznych klipów wideo o długości 10 sekund, z dużą precyzją i różnorodnymi emocjami oraz ruchami kamery. Jest to pierwsza w serii nowych modeli szkolonych na nowoczesnej infrastrukturze, co znacząco poprawia jakość i spójność generowanych treści.

6. ReNO: Reward-based Noise Optimization

Technika ReNO, czyli Reward-based Noise Optimization, poprawia modele Text-to-Image (T2I) podczas inferencji, wykorzystując sygnały z modeli nagród opartych na preferencjach ludzkich do optymalizacji bazowego szumu.

7. Partnerstwo OpenAI i Apple

OpenAI i Apple ogłosiły partnerstwo, które integruje ChatGPT z systemami iOS, iPadOS i macOS. Umożliwia to użytkownikom dostęp do możliwości ChatGPT, w tym rozumienia obrazów i dokumentów, bez konieczności przełączania się między narzędziami.

8. ElevenLabs – Nowy model dźwięku AI

Firma ElevenLabs zaprezentowała nowy model dźwięku AI, który może generować różnorodne głosy, melodie i efekty dźwiękowe na podstawie wskazówek tekstowych. Dzięki współpracy z biblioteką audio Shutterstock, platforma ElevenLabs umożliwia szybkie i skalowalne tworzenie wysokiej jakości dźwięków, co usprawnia proces projektowania dźwięku.

9. BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

Zespół Snap Research zastosował nową technikę kwantyzacji, zmniejszając rozmiar modelu Stable Diffusion UNet z 1.72 GB do 219 MB, co przyspiesza jego działanie na sprzęcie konsumenckim.

10. VideoLLM-online

VideoLLM-online to wielojęzyczny model do strumieniowego przesyłania wideo. Umożliwia on interakcję w czasie rzeczywistym podczas transmisji strumieniowej, osiągając wysokie prędkości na GPU RTX 3090 i A100. Model ten proaktywnie aktualizuje odpowiedzi, rejestrując zmiany aktywności i pomagając w kolejnych krokach w czasie rzeczywistym.

Podsumowanie

Ten tydzień był wyjątkowo bogaty w nowości ze świata sztucznej inteligencji. Od przełomowych modeli wideo i dźwięku, przez innowacje w przetwarzaniu tekstu i obrazu, po zaawansowane techniki kwantyzacji i strumieniowania wideo – rozwój AI nie zwalnia tempa, przynosząc coraz to nowsze i bardziej zaawansowane rozwiązania. Czekamy z niecierpliwością na kolejne tygodnie pełne innowacji i niespodzianek.