Корисна брехня. Коронавірус відкрив діпфейкам дорогу у великий бізнес

Великі компанії починають виводити діпфейки в розряд нового рекламного інструменту

Автор журналу Wired Тому Саймонайт у своїй статті звернув увагу на те, як технології створення діпфейків завойовують ринок реклами і як цьому допомогла пандемія Covid-19.

WPP, гігант на ринку реклами, цього місяця розішле незвичайні корпоративні навчальні відео десяткам тисяч співробітників по всьому світу. Людина з цих роликів буде звертатися до персоналу на їхній рідній мові і на імʼя, розповідаючи про деякі ключові поняття у сфері штучного інтелекту. При цьому самі відео стануть серйозною демонстрацією можливостей штучного інтелекту (ШІ): особа і слова будуть синтезовані за допомогою софту.

WPP такими їх не називає, проте ці навчальні відео можна вважати діпфейками - такий термін застосовується до фото або відео, створених за допомогою ШІ і які виглядають абсолютно реалістично. Вони більше відомі як інструмент для харасменту, використовуються в порно або для створення двійників. Також образи, створювані ШІ, зараз використовуються великими корпораціями для створення навчальних роликів.

І все ж неймовірні відео WPP, створені за технологією лондонського стартапу Synthesia, не ідеальні. Головний технолог WPP Стефан Преторіус каже, що просодія героя ролика може збитися, що є найбільш дратівливим недоліком, який журналісти Wired особисто бачили в чорновому варіанті ролика. Однак можливість персоналізувати і локалізувати відео робить його більш цікавим, ніж звичайне корпоративне послання, говорить він. "Технологія швидко прогресує", - додав Преторіус.

Діпфейковий продукт також дешевший і його можна швидко створити. Цю перевагу ще більше актуалізував карантин, введений у зв'язку з Covid-19, через який зйомка звичайних роликів стала справою ризикованою. За словами Преторіуса, для всіх співробітників WPP в рамках цієї масштабної навчальної кампанії може знадобитися 20 різних сценаріїв, кожен з яких обійдеться в десятки тисяч доларів. "З Synthesia у нас можуть бути різноманітні аватари, буде вказано ваше ім'я, підрозділ і мову, і все це може коштувати $100 тис.", - сказав він. Навчальна кампанія, яка проводиться цього літа, обмежена англійською, іспанською та мандаринською мовами. Преторіус сподівається цього року розіслати ролики з 20 модулями по 5 хвилин кожний 50 тис. співробітників.

Термін deepfakes походить від імені користувача або групи користувачів Reddit, які в 2017 р. виклали серію порнографічних роликів, які за допомогою ШІ замінили обличчя порноактрис на обличчя голлівудських зірок. Використаний ними код опублікували в мережі, і тепер для кожного доступні різні ШІ-відео і технології генерації зображень. З допомогою діпфейків "нападають" на активістів і вже змусили турбуватися законодавців і власників соцмереж, яких турбує проблема політичної дезінформації. Хоча вони також використовуються for fun - наприклад, щоб вставити обличчя Ніколаса Кейджа у фільми, в яких він не знімався.

Діпфейки, використовувані, щоб збуджувати когось, а також для харасменту або розваги, часто містять в собі помітні помилки. Зараз же стартапи працюють над технологією ШІ, яка може в перспективі стати заміною класичним корпоративним повідомленнями або рекламним зображенням. Вони перетворюються на синтетичні медіа і стають все популярнішими. Так, нещодавно відоме агентство з пошуку талантів CAA підписало контракт з Lil Miquela, створеним машиною Instagram-інфлюенсером, у якого більше 2 млн передплатників.

А ШІ Rosebud спеціалізується на створенні постерів, які використовуються в онлайн-торгівлі чи маркетингу. У минулому році компанія випустила підбірку 25 тис. зображень людей, яких ніколи не існувало, а також виклала інструментарій для коригування облич на кожному знімку. Зовсім недавно вона також запустила сервіс, який дозволяє надягати одяг зі сфотографованих манекенів, на віртуальних, але все ж цілком реалістичних моделей.

Як розповіла генеральна директорка і засновниця Rosebud Ліша, її компанія може допомогти невеликим брендам, чиї ресурси обмежені, створювати більші портфоліо зображень з великою різноманітністю облич. "Якщо ви - бренд, який хоче розповісти якусь візуальну історію, раніше вам потрібна була велика креативна команда або ж доводилося купувати фото", - зазначає вона. Тепер же можна запустити алгоритми і створити своє портфоліо.

Фото-стартап JumpStory з Хойбʼєрга (Данія) також експериментував з технологією Rosebud. І вже побудував бізнес на основі власної технології ШІ, з допомогою якої створюється бібліотека найбільш яскравих зображень. Використовуючи технологію Rosebud, JumpStory протестувала функцію, яка дозволяла б клієнтам декількома клацаннями миші змінювати обличчя на стоковій фотографії, в тому числі змінювати етнічну приналежність людини - завдання, яке за інших обставин було б непрактичним або вимагало б чималою роботи у Photoshop.

За словами гендиректора JumpStory Джонатана Лоу, компанія вирішила не включати цю функцію, вважаючи за краще акцентувати увагу на достовірності своїх зображень. Але технологія вражала. "Якщо йдеться про портрет, то вона працює чудово", - сказав Лоу. У той же час результати, за його словами, зазвичай не настільки хороші, якщо обличчя на зображенні гірше видно, наприклад, при зйомці в повний зріст.

Synthesia, лондонський стартап, який ініціював діпфейк-проект WPP, створює відео з синтезованими особами для корпоративних клієнтів, включаючи Accenture і SAP. У минулому році з допомогою нейромережі Девід Бекхем записав звернення, присвячене боротьбі з малярією на декількох мовах, включаючи хінді, арабську і кіньяруанда, на яких говорять мільйони людей в Руанді.

Генеральний директор і співзасновник Synthesia Віктор Ріпарбеллі упевнений в неминучості повсюдного використання синтезованих відео, бо такі відео, на відміну від традиційних методів, більш цікаві споживачеві і компаніям. "Наша позиція: а давайте виключимо камеру з рівняння", - зазначив він. За словами Ріпарбеллі, інтерес до його технологій зріс з тих пір, як через Covid-19 звичайна відеозйомка стала неможливою і деяким компаніям довелося створити нові навчальні програми для співробітників.

На створення відео за допомогою технології Synthesia може піти кілька секунд. Досить вибрати аватар зі списку, вказати сценарій і натиснути кнопку з написом "Створити відео". Аватари компанії списані з реальних людей, чиї гонорари залежать від того, скільки відео зроблено з їхнім зображенням. Після обробки запису зі справжньою людиною алгоритми Synthesia можуть генерувати нові відеокадри і підігнати міміку і артикуляцію під синтезований голос, який може говорити на більш ніж двох десятках мов. Клієнти також можуть створювати свої власні аватари, відправляючи кілька хвилин запису з реальною людиною, а також коригуючи навколишню обстановку і голос.

Ріпарбеллі й інші люди, які працюють над комерціалізацією діпфейків, стверджують, що вони обережні у своїх діях і не намагаються просто заробити по-швидкому. Приміром, Synthesia опублікувала в інтернет список етичних норм, а також повідомила, що вивчає своїх клієнтів і їхні сценарії. Для чого потрібна формальна згода людини, перш ніж її зовнішність буде синтезована. Також виключається політичний контент. У Rosebud теж є свої, нехай менш деталізовані етичні вимоги, які зобов'язують її перешкоджати негативному використанню синтезованих зображень.

За словами гендиректора Rosebud, її технологія повинна приносити більше користі, ніж шкоди. Вона зазначила, що вона є підмогою для більш широкої маси людей в конкуруванні на ринку, не вкладаючи в це величезні бюджети, і повинна стимулювати розвиток стандартів краси. Технологія її компанії може створювати моделей з небінарним гендером, а також зображення людей різних національностей. "Багато клієнтів, з якими я працюю, є бізнесменами з числа представників меншин, які хочуть створювати зображення, що відповідали б їхній клієнтській базі", - сказала Лі, яка працювала моделлю більше 10 років, перш ніж отримати ступінь доктора наук з статистики і машинного навчання в Берклі і стати венчурним капіталістом.

Професора Суббарао Камбхампаті з Університету штату Арізона, що спеціалізується на ШІ, вразила ця технологія. Але також він вказав на те, що клієнти Rosebud можуть використовувати різні синтезовані моделі замість реальних представників меншин. "Це може привести нас до помилкового почуття виконаного обовʼязку - як спектакль без зміни реальності", - говорить він.

По мірі того, як створені нейромережею зображення стають мейнстрімом в корпораціях, саме великі бренди та їхні рекламні агентства будуть впливати на ставлення людей до цієї технології. За словами Преторіуса з WPP, його компанія зараз працює над безліччю способів використання зображень, створених ШІ, наприклад, для створення портрета в стилі Рембрандта і цифрових моделей, які не відрізняються від реальних людей. "Технічно створити це ми можемо, але до просування на ринок ми рухаємося дуже повільно", - зазначив він. Зараз головний юрисконсульт компанії розробляє перелік етичних стандартів для синтетичних моделей та інших зображень, у тому числі коли і як інформувати про те, що зображення насправді не те, чим здається.