CUDA-L1: Automatyczna optymalizacja kodu GPU z 17.7× przyspieszeniem
Narzędzie, które przekształca istniejący, już zoptymalizowany kod CUDA, osiągając średnie przyspieszenie rzędu 17.7 razy, nie jest teoretycznym konceptem. CUDA-L1, zautomatyzowany framework oparty na uczeniu przez wzmacnianie (RL), dokonał tego na 250 rzeczywistych kernelach z zestawu testowego KernelBench, działających na karcie NVIDIA A100. System ten stanowi istotny krok w automatyzacji optymalizacji obliczeń GPU. W odróżnieniu od …