K Prize: Rzeczywistość weryfikuje możliwości AI w programowaniu
Świat sztucznej inteligencji, przyzwyczajony do triumfalnych doniesień o zdobywanych benchmarkach, otrzymał niedawno porcję zdrowej pokory. Pierwsza edycja K Prize – nowego, rygorystycznego konkursu badającego zdolność AI do rozwiązywania autentycznych problemów programistycznych – zakończyła się wymownym rezultatem: zaledwie 7,5% poprawnych odpowiedzi. Ten wynik stanowi zimny prysznic dla optymizmu podszywanego wynikami takimi jak 75% w SWE-Bench. Skąd …