Generatywna sztuczna inteligencja jest wszędzie. W ciągu ostatniego roku, dzięki postępowi w algorytmach zamiany tekstu na obraz wprowadzonych przez grupy takie jak OpenAI i Stability AI, powstało wiele imponujących dzieł sztuki generowanych przez AI. Obserwujemy wzmożony wyścig start-upów próbujących teraz opracować aplikacje dla nowego modelu językowego, w którym maszyna jest w stanie tworzyć nowy tekst, obraz i film na podstawie prostych danych wprowadzanych przez człowieka.
Jednym z takich start-upów jest Movio, wykorzystujący generatywną sztuczną inteligencję wraz z innymi platformami uczenia maszynowego, takimi jak GAN, do tworzenia filmów przedstawiających mówiące ludzkie awatary. Platforma jest obsługiwana za pomocą interfejsu typu „przeciągnij i upuść”, jak np. w Canvie. Użytkownicy będą musieli najpierw wybrać szablon, a następnie dodać hiperrealistycznego awatara, który będzie narratorem filmu, z mową generowaną przez wprowadzanie tekstu. Jego wygląd i głos można będzie zmienić jednym kliknięciem.
Baza użytkowników Movio liczy obecnie setki tysięcy, a liczba subskrybentów zbliża się do 1000. Do tej pory start-up zebrał około 9 milionów dolarów finansowania od inwestorów, w tym IDG, Sequoia Capital China, a ostatnio Baidu Ventures. Josh Xu, współzałożyciel i dyrektor generalny Movio, poznał swojego partnera i CPO Lianga Wanga, weterana ByteDance i muzycznej sieci społecznościowej Smule, kiedy obaj studiowali na Carnegie Mellon University.
„Robimy to, co robią Jasper i Copy.ai, ale z produkcją wideo.” – powiedział Xu, odnosząc się do dwóch czołowych pomocników treści AI – „Filmy mają moc, wyobraź sobie, co by było, gdyby marketerzy zamiast zwykłego tekstu, mogli wysyłać e-maile z awatarami mówiących ludzi”.
W zeszłym roku firma Movio, wówczas Surreal, zrobiła świetny użytek z technologii deepfake. W tym czasie firma miała siedzibę w Shenzhen, raju hardware znanym również z tętniącego życiem przemysłu e-commerce opartego na eksporcie — większość sprzedawców Amazon pochodzi właśnie stąd. Sprzedawcy używali Movio do tworzenia filmów promocyjnych z udziałem zsyntetyzowanych ludzi („synthesized humans” – ultra realistycznych wizerunków ludzkich, tworzonych za pomocą zaawansowanych technik renderowania), eliminując potrzebę zatrudniania prawdziwych modeli.
Firma Movio niedawno przeniosła się do Los Angeles, gdzie Josh Xu pracował wcześniej przez 6 lat jako inżynier Snap. Startup liczy na pozyskanie tych marketerów, którzy w narzędziach AI widzą znaczącą pomoc w ich pracy.
Movio może na razie tworzyć tylko „gadające głowy”, ale pracuje nad tym, aby jego algorytmy mogły generować ruch całego ciała, co pozwoli firmie zbliżyć się do celu, jakim jest bycie „uniwersalną platformą do produkcji wideo AI”.
Jeśli chodzi o stronę finansową produkcji, startup pobiera od użytkowników opłaty za długość filmów, która jest skorelowana z przesyłanym przez nich skryptem, a także opłatę premium – dotyczy ona tych, którzy używają spersonalizowanych twarzy, co według Xu jest szczególnie popularne w przypadku „szkolenia korporacyjnego”. Movio otworzyło również swój interfejs API na strony internetowe innych firm, z których niektóre używają jego silnika do tworzenia wyskakujących awatarów obsługi klienta.
„Wideo generowane przez sztuczną inteligencję to tylko niewielki segment w branży AIGC [AI generated content, treść generowana przez sztuczną inteligencję – przyp. aut.]. Widzieliśmy, jak wiele może zdziałać zamiana tekstu na obraz i spodziewam się, że zamiana tekstu na wideo przyniesie jeszcze większe zamieszanie, gdy już będzie gotowa” — powiedział Xu.