AudioLM nowy model Google zdolny do generowania muzyki

AudioLM to nowy model Google, zdolny do generowania muzyki w tym samym stylu co odtworzony mu wcześniej fragment jakiegoś utworu. Nowy model potrafi generować bardzo złożone dźwięki instrumentów jak i głosu ludzkiego. AudioLM został przeszkolony na obszernych danych dźwiękowych, które obejmowały nie tylko muzykę, ale także ludzkie głosy. Model po szkoleniu potrafi generować zdania jakby wypowiadał je człowiek. Jest on wstanie zasymulować akcent mówiącego i dodawać pauzy oraz wykrzykniki. Oczywiście przez sama konstrukcję modelu generowane zdania często nie maja żadnego sensu, ale pod względem naśladowania mowy ludzkiej są na wysokim poziomie.

Jest znaczna różnica w przeprowadzonym szkoleniu AudioLM a szkoleniem modeli które służą do generowania obrazów. Model od Google nie wymaga transkrypcji ani etykietowania. Autorzy po prostu zgromadzili bazę danych dźwięków/ mowy i muzyki/ i dodali ją bezpośrednio do modelu.

Model został przeszkolony na 60 000 godzin mowy w j. angielskiej i 40 000 godzin muzyki wykonywanej na pianinie.

Posłuchajcie sami możliwości nowego modelu:

Więcej informacji na temat nowego modelu Google znajdziecie w opracowaniu: https://arxiv.org/pdf/2209.03143.pdf