Штучний інтелект – практика, що розганяє міфи

Якщо не помиляюся, це уже третя публікація на дану тему. Першою була «Нейромережі у фото та відео», наступною «Штучний інтелект та фотографія». Проте цього разу вперше хочу поділитися враженнями про використання штучного інтелекту на практиці. І хоча практика була більше пов’язана з відео, та все ж і для фотографів буде цікавою.

Передісторія.

Буквально на днях ми презентували нову відео роботу – музичний відеокліп на пісню «Дихай, цілуй, відчувай» співака Я-Река. Так от це відео зняте з допомогою штучного інтелекту. Спочатку за задумом сценариста це мали бути натурні зйомки, проте через логістичні проблеми і короткий дедлайн було підтримано ідею спробувати скористатися новомодним на той час штучним інтелектом. Отож були поставлені 2 вимоги:

Ресурс штучного інтелекту має бути безкоштовним, або умовно безкоштовним
Штучний інтелект має вміти генерувати відео.

Фінансова доступність – перша проблема

З того моменту розпочалися пошуки. Було перепробувано коло 18 різних ресурсів. Чесно скажу навіть не вірив що їх так багато. Проте з них нашим вимогам підійшов 1-2. І уся проблема в тому, що більшість з них платні, без можливості апробації в безкоштовному режимі. І як на мене це перша проблема, яка суттєво гальмуватиме розвиток таких технологій. Все таки перед тим як щось нове купувати – має бути проба.

Загалом скажу, робота вийшла непоганою, але цей досвід розвіяв багато міфів та неоправданих очікувань про штучний інтелект. Про першу проблему якраз згадав вище, але рухаємось далі.

Промт – друга проблема.

І саме ця проблема перекриває шлях до широкого застосунку штучного інтелекту. Що таке промт: це опис чи текстовий сценарій, а може точніше інструкція ресурсу що треба саме згенерувати. Ви думаєте що напишете просто і машина вас зрозуміла? Не тут то було. Справді деякі кадри та сцени генерувалися з першого промта, а деякі дуже прості не виходили через 15-20 спроб. Чому?

А тому що тут не все так просто. Очевидно оскільки штучний інтелект це як не як програмний продукт, то і інструкції йому маєте давати алгоритмічною мовою. Що це таке зараз пояснювати не буду, але якщо б усі володіли алгоритмічним мисленням – ми б усі були програмісти. Ні звісно цьому можна навчитися. Хтось такі речі схоплює на льоту, комусь на розуміння цього потрібні роки. Але по факту писати ефективні промти не кожному дано. Звісно найкращими фахівцями з промту будуть саме програмісти, бо для них це як лузати насіння.

Ну і тут ще й друга випливає друга побічна проблема – інструкцій про те що розуміє даний ресурс штучного інтелекту знайти наразі дуже складно.

Взагалі ця проблема стосується генерації не лише відео, але й очевидно фото. Ось один момент із практики. Нам у кліпі було потрібно згенерувати сцену коли головна героїня закриває книжку, яку читала і піднімається з-за стола. Чомусь цю просту сцену ресурс ніяк не хотів розуміти. Кожен раз отримували дівчинку, «яка просто читає книгу». Звичайно якщо один промт незрозумілий, його треба перефразувати і зробити більш логічнішим. Перепробували 15 варіантів – жоден не спрацював. В останніх дійшло до курйозу. Пишу: «Крупний план: кінець книги рука закриває книгу». В результаті отримуємо кадр з фільму жахів: відрубана рука в крові лежить на останній сторінці книги.

Тобто ми споживачі отримали дуже сирий продукт у якому розробники зробили все щоб нам було що найважче користуватися.

Божественна рандомність – третя проблема.

Ні в якому роді не збираюся богохулити а лише торкнутися такого естетичного питання : а що можна вважати штучним інтелектом? Насамперед це здатність приймати самостійно рішення і здатність з нічого генерувати щось. Тобто навіть те ж відео чи ті ж фото. А на практиці маємо інструментарій, який генерує картинки переставлянням і варіюванням закладених у нього шаблонів. Скажімо що відео, що фото на перший погляд виглядають гарно, але коли спробуєте згенерувати 10-20-30 варіантів зрозумієте, що між ними є щось спільне.

Нам довелося під час роботи над кліпом згенерувати приблизно 190 кадрів. Що хочу сказати стилістика, колористика і навіть довільна героїня у нас виходила дуже стандартною. З одного боку це добре, оскільки нам і була потрібна одна героїня у кадрах, але з іншого боку вона одна, а де ж те пресловуте генерування з нічого. Навіть скажу вам пробували реальну людину з фото згенерувати у відео – проте та ставала подібною на нашу героїню.

Отож до божественної волі і рандомного генерування там ще дуже і дуже далеко. Більше скажу навіть звичні популярні сюжети вдаються занадто шаблонно і зі скрипом. Ще один кумедний випадок з роботи над кліпом ілюструє це. Коли робота була ніби вже змонтована і скидую її переглянути співавторці пісні, через певний час Анна Мараховська телефонує з Харкова з заувагою що в одному простому кадрі у нашої героїні не 2 а 4 ноги. Справді коли знайшли той фрагмент – придивляємося, там мало того, що аж 4 ноги, вони ще й анатомічно невірно розташовані.

Штучний інтелект сьогодні – то з чим ми маємо справу?

Одразу хочу уточнити що не маю на меті когось розчарувати чи якось принизити значущість новітніх технологій. Лишень намагаюся розвіяти міфи і зрештою звами зрозуміти з чим маємо справу. Справді, можливо платні ресурси більш реалістичніші, мають більшу базу варіантів та краще «розуміння» команд. Але все одно вони залишаються ресурсами які діють на закладених шаблонах. Можливо якісь з них вміють шукати інші шаблони, але все одно це установлені патерни з яких так званий «штучний інтелект» вилізти не може. І усі вірні відповіді різних чатів це результат простого пошуку (може не простого) та аналізу ну ніяк не свобідної волі, та мислення.

Тож з чим ми все таки маємо справу? Так от на мою думку ми входимо в еру мультиалгоритмичних інструментів. Якщо раніше кожна з наших команд виконувала якусь одну дію, то тепер ми маємо складніші інструменти, які швидко можуть проаналізувати певні умови і запропонувати серію дій адаптовану під наші потреби. Якщо ще простіше: колись ми малювали ручкою з пастою одного кольору, а тепер дядько з-за кордону привіз вам ручку яка одразу має в собі 12 кольорів паст. Тобто ми отримуємо ресурси з новим поколінням організації алгоритмі та вищого рівня автоматизації – і не більше. Ну а такі технології відкривають багато цікавих нових можливостей. Згадаймо лише діпфейки.

Знову ж нещодавно скористався можливостями штучного інтелекту для відео про карпатський трамвай. Для ілюстрації вирішив згенерувати трамвай що їде по горах. Цікаво вийшло і це залучило врази більше аудиторії. Ну креатив згенерований підбором даних для мого технічного завдання і не більше.

Штучний інтелект – що далі?

Ця технологія, з якою ми зараз маємо справу, ну аж ніяк не тягне щоб її називати «штучний інтелект». Вона має право на життя і на якусь свою персональну назву. Зараз в період хайпу вона буде в тренді на піку слави чим і ми намагалися скористатися при створені вищезгаданого відеокліпу, адже як не як одні з перших щось продукували з її допомогою. Але не пройде багато часу і незважаючи на надмірну реалістичність те що продуковано так званим «штучним інтелектом» і те що продуковано людським креативом з допомогою камер і навіть пензликів просто розділиться на дві ніші, кожна з яких буде мати свою вартість. Звичайно вони будуть перетинатися, а можливо на базі цієї технології з’явиться новий вид візуального мистецтва. Тобто ми у наш творчий арсенал отримали ще один вдосконалений інструмент.

А чи все таки бути штучному інтелекту.

Коли зробив наступні висновки, був дещо розчарований, адже також люблю наукову фантастику і вірю що людство здатне досягати нових вершин розвитку. Так от шукаючи відповіді на свої питання натрапив на цікаве інтерв’ю фізика-теоретика Мічіо Каку з Нью-Йоркського університету про штучний інтелект. Так от десь мабуть погоджуюсь з його думкою що при сучасних технологіях штучний інтелект з вільною думкою і здатністю само креативу просто неможливий. Йдеться про комп’ютери на півпровідниках з бінарним кодом. Проте майбутнє за квантовими комп’ютерами, а також з відкриттями стосовно того як і з чого формується матерія. Ось там напевно можливе виникнення чогось що буде мати електронну сутність.

Замість висновків

Креатив та ідеї ніхто не відміняв. Та все ж технології, які сьогодні з’явилися під брендом «штучний інтелект» у багатьох випадках можуть нам полегшити чи спростити життя прискорюючи досягнення цілей. Саме так сталося і в нашій історії з відеокліпом. Центром створення роботи була ідея і сценарій, які були створені інтелектом живих людей. А от штучний інтелект спростив і прискорив матеріалізацію ідеї в рухому картинку. Якщо б усе знімалося в реаліях, як на мене було б цікавіше бо мало б душу, але для цього потрібно було б врази більше часу та ресурсу. Близьке майбутнє вже настало.