Whisper - rewolucyjny model rozpoznawania mowy (ASR)

Whisper – rewolucyjny model rozpoznawania mowy (ASR)

Niedawno OpenAI ogłosił Whisper nowy model ASR co wielu ludzi zajmujących się rozpoznawaniem mowy doprowadziło do euforii. Powód tej ekscytacji jest jeden nowy ASR od OpenAI jest znacznie lepszy w rozpoznawaniu mowy niż wszystkie dotychczasowe systemy komercyjne. Do tego Whisper jest udostępniony z otwartym kodem źródłowym na licencji MIT. Hugging Face przygotował już wersję demonstracyjną, z której możesz korzystać na swoim komputerze lub smartfonie.

Model jest wielojęzyczny umożliwia nie tylko rozpoznawanie mowy, ale identyfikację języka oraz tłumaczenia. OpenAI wyszkolił nowy ASR w 97 językach. Oczywiście języki różnią się jakością rozpoznawania ze względu na ilość dostępnych danych w danym języku. Przykładowo język chiński został przeszkolony na 23,5 tys. godzin natomiast język hiszpański na 11,1 tys. godzin.

Istotną cechą Whisper jest jego wielozadaniowość, umożliwia nie tylko rozpoznawanie mowy, ale również wykonywani tłumaczeń czy też identyfikację języka. Model wyszkolony przez OpenAI został przeszkolony na olbrzymiej liczbie danych, bo obejmuje aż 680 000 godzin audio-tekstowych. Nie ma co się dziwić OpenAI zawsze nie rozdrabniał się, jeżeli chodzi o wielkości modeli.

Co najistotniejsze dla fanów sztucznej inteligencji, możesz pobrać Whisper na swój komputer i bawić się kodem. Wymagania nie są powalające jak na model AI, bo największy model wymaga 10 GB VRAM, natomiast najmniejszy wymaga 1 GB VRAM i do tego jest 32 razy szybszy, jednak kosztem zdecydowanie gorszej jakości w rozpoznawaniu mowy. Poniżej link do pobrania modelu: https://github.com/openai/whisper