Od dwóch miesięcy podcast „Ukraine In Brief” Jarosława Kuźniara powstaje z użyciem sztucznej inteligencji przy wykorzystaniu głosu dziennikarza. Kuźniar, redaktor naczelny Voice House uważa, że to nowa jakość na rynku audio. – Jeżeli chodzi o sferę audio, to poziom AI jest już tak dobry, że nie wiem, co jeszcze można by tam poprawić – mówi.
„Ukraine In Brief” to seria krótkich podcastów produkowanych od początku wojny w Ukrainie przez Voice House – studio Jarosława Kuźniara. Każdy odcinek, trwający 2-3 minuty, jest skrótem najważniejszych informacji dotyczących wojny. Do tej pory powstało 351 takich odcinków. Do początku lutego informacje czytał Jarosław Kuźniar. Obecnie robi to sztuczna inteligencja, wykorzystująca jego głos, co jest podkreślane w informacji na końcu każdego odcinka.
Kuźniar: „Największe wrażenie robi naturalność”
– Poznałem możliwości AI dla dźwięku i filmu już jakiś czas temu, ale to był zupełnie inny poziom niż dziś. Było więcej strachu, że odbiorcy pomyślą: to oszustwo. Dziś słuchacze poinformowani i przygotowani na nowości mówią nam: chcemy więcej – mówi Jarosław Kuźniar, redaktor naczelny Voice House.
– Nowe rozwiązania sprawiają, że można nabrać wątpliwości, czy faktycznie za „AIJarkiem”, którego słychać w podcaście, stoi technologia, czy to mój prawdziwy głos. W Voice House mogliśmy nakarmić technologię naszych partnerów z Eleven Labs trzystoma odcinkami „Ukraine In Brief”, które przeczytałem wcześniej. To pomogło – mówi Kuźniar. Jego zdaniem sztuczna inteligencja dostała bardzo dużą dawkę nie tylko jego głosu, ale również tonu, tempa, energii czy emocji.
Jak podkreśla, w przypadku „Ukraine In Brief” czy „Ekonomicznie In Brief” teksty mają charakter newsowy. – Nie ma tu miejsca na zabawę intonacją, tonem, ja nigdzie w głosie się nie uśmiecham, bo też w tych konkretnych „briefach” nie ma miejsca na śmiech – wyjaśnia szczegóły Jarosław Kuźniar. – AI dostała bardzo konkretną dawkę mnie, niemal roczną, więc mogła nauczyć się wszystkiego. Teraz, gdy redakcja opracowuje tekst i wysyła go do narzędzia, które przygotowuje nagranie, jedyny problem, jaki się pojawia, to nazwy miast, firm, nazwiska czy skróty, z którymi AI nie potrafi sobie czasem poradzić.
Ostatnio wyzwanie pojawiło się przy zapisie nazwy sieci Leroy Merlin. – Ani razu nie czytałem wcześniej tej nazwy, więc AI nie wiedziała, jak to za mnie zrobić. Ale poprawiliśmy to – wskazuje dziennikarz.
W jego ocenie największe wrażenie robi wysoka naturalność, z jaką sztuczna inteligencja interpretuje czytane teksty. – Kiedy słuchamy kolejnych odcinków, to tam, gdzie ma być kropka – jest kropka, tam gdzie ma być przecinek – jest przecinek. Tam, gdzie intonacja ma się domykać w zdaniu – domyka się do pauzy. To jest chyba przewaga naszego narzędzia – mówi.
AI zarówno zagrożeniem, jak i wyzwaniem
Doświadczenia Kuźniara i jego Voice House pozwalają zadać pytanie, czy AI nie zagrozi pracy serwisantów radiowych.
– Kiedy patrzę na rynek audio, filmowy, kinowy czy dubbingowy, sam czuję trwogę jako osoba, która głosem zarabia – przyznaje Kuźniar. – To potężne wyzwanie dla aktorów, lektorów i wszystkich, którzy swoim głosem pracują. Przecież wystarczy nasza dotychczasowa działalność, żeby nasz głos zatrzymać i to zatrzymać w takim momencie, w którym on się nie postarzeje. Wystarczy spojrzeć na Hollywood. Aktorzy już dziś podpisują umowy, w których zgadzają się, by ich głos był multiplikowany cyfrowo. Dla mnie to zarówno zagrożenie, jak i wyzwanie. Dlatego eksperymentuję z AI.
Jarosław Kuźniar przyznaje jednak, że nie widzi zagrożenia dla żywego radia. – Oczywiście łatwo sobie wyobrazić, że maszyna jest wypuszczana wprost na antenę, nawet w takim żywym radiu. Ale tu, na live, jeszcze długo obroni się realny człowiek, autor. Natomiast w przypadku nagrań lektorskich czy podcastów – pole do popisu dla maszyny jest ogromne – wskazuje.
Jego zdaniem to spore wyzwanie dla ludzi nagrywających powtarzalne audycje. – Jest ich dziś sporo – wystarczy popatrzeć na podcastową ofertę „The Economist”, „Financial Times” czy „The New York Times”. Wszędzie tam, gdzie chodzi o czytanie serwisów albo tekstów pisanych, żywy narrator jest niepotrzebny. Jego głos tak, ale sam człowiek już nie musi przychodzić do studia, siadać i nagrywać, bo tym się zajmie technologia – mówi szef Voice House.
Zdaniem Kuźniara to dobrze, że w Polsce od jakiegoś czasu media eksperymentowały z AI przy wiadomościach sportowych i prognozie pogody. To technologia, której nie wypada lekceważyć. Dziś nie ma już co się chować z takimi eksperymentami. Jednak, jak wskazuje, maszyny wciąż nie nauczyły się pisać tekstów na poziomie akceptowalnym dla odbiorców.
– Tekstom AI brakuje lekkości, poczucia humoru, pewnej inteligencji, jakiej wymagamy od autora. Natomiast jeżeli chodzi o sferę audio, a mam przykłady technologii z Polski, USA, Wielkiej Brytanii, a nawet z Ukrainy, poziom umiejętności AI jest już tak dobry, że nie wiem, co jeszcze można by tam poprawić – podsumowuje Jarosław Kuźniar.