Aktorzy głosowi stracą pracę, niebawem zastąpi ich AI

Aktorzy głosowi stracą pracę, niebawem zastąpi ich AI.

W tytule tym nie ma chrzty przesady, rozpoczęła się nowa era cyfrowych głosów dla czat botów, reklam, asystentów głosowych i gier. Nowe startupy podbijają rynki usług medialnych ofertami ekspresyjnych, zrównoważonych i a przede wszystkim bardzo realistycznych głosów. Oferowane głosy są praktycznie są nie do odróżnienia od głosów naturalnych. W pewnym sensie są to prawdziwe głosy lektorów którymi to głosami została „nakarmiona” AI oczywiście za zgodą lektorów. Wyszkolone w ten sposób AI jest wstanie powiedzieć wszystko nawet to czego lektor, od którego AI się uczyła nie powiedział.

Głosy AI stały się szczególnie atrakcyjne dla firm, które oferują wirtualnych agentów obsługi klienta czy też asystentów wbudowanych w samochody czy też urządzenia inteligentne. Potrzebują niekiedy miesięcznie produkować setek godzin mowy a za pomocą głosu AI przestaje to być problematyczne. Nowa technologia to wielkie korzyści do takiej również branży jak gry video, bo pozwala obniżyć koszty produkcji i przyspieszy ich powstawanie.

Technologia wydaje się niewiarygodna, bo nokautuje najlepsze syntezatory mowy typu Ivona, a do tego jest tania i w zasięgu tak naprawdę każdego średniozaawansowanego użytkownika komputerów. Żeby stworzyć swój własny syntetyczny głos wystarczy kilkadziesiąt godzin nagrania lektora, mocny komputer z dobrą kartą graficzną Nvidii z dużą ilością Vram / minimum 12GB/ i trochę umiejętności w Python oraz Pytorch lub Tensorflow. Po paru dniach szkolenia/ czas szkolenia w zależności od mocy karty graficznej/, możecie mieć swój własny syntetyczny głos. Dla zainteresowanych odsyłam do technologii Tacotron 2 i Waveglow gdzie znajdziecie wszystkie niezbędne materiały do przeprowadzenia takiego szkolenia AI.

Jednak oczywiście startupy które oferują tę technologię są na wyższym poziomie możliwości niż to co oferuje Tacotron 2 czy Waveglow. Jednak nie zmienia to faktu, że w domowych warunkach możecie stworzyć głos AI przewyższający najlepsze syntezatory mowy.

Oczywiście jak każda technologia niesie ona też za sobą dużo niebezpieczeństw np. użycia jej do przestępstw co zresztą już się dzieje. Zapewne też nastąpi wysyp manipulacji związanych z polityką. Połączenie tej technologii z technologią umożliwiającą podmieniać twarz w czasie rzeczywistym/ przykład poniżej/ stwarza poważne nowe zagrożenia manipulacji opinią publiczną na zupełnie nowym poziomie.

https://www.youtube.com/watch?v=NDJ72v1uKpw

Nie ma co ukrywać technologia ta jest coraz bardziej dopracowana i tania więc aktorzy głosowi, którzy utrzymują się z użyczania głosów do gier czy audiobooków powinni zaczynać się martwić o swoją przyszłość w tej branży.