ИЗКУСТВЕН ИНТЕЛЕКТ

: ЙОАНА ПАВЛОВА; ДЕКЕМВРИ/2022

ЙОАНА ПАВЛОВА

Тази история започва по различно време и всеки път по различен начин. Може би с „механичния турчин“ на Волфганг фон Кемпелен през XVIII век, или пък с мечтата на Ада Лавлейс от XIX век да разработи „поетична наука“. А е възможно да започва и в летните вечери на 1981 г., когато Вилем Флусер, отскоро собственик на къща във френското селце Робион, с амбиция да организира ежегодни срещи на световни интелектуалци, представя основите на теорията си за техническите образи, публикувана четири години по-късно като самостоятелна книга. Най-вероятно началото е поставено през 2014 г., когато младият изследовател Йън Гудфелоу, все още в екипа на „Гугъл“, публикува текст върху GAN или Generative adversarial network.

Без да навлизаме в подробности около концепцията за „дълбоко учене“ и веригите на Марков, в основата на GAN е предварително подготвена база данни (dataset), с чиято помощ се обучава модел, така че да може да възпроизвежда сходни резултати по зададена команда (prompt), която е най-често под формата на текст. В началото всичко това звучи прекалено теоретично, направо фантастично, но не е случайно, че именно компания с ресурсите на „Гугъл“ се оказва начело на експериментите в тази област.

Първият същински сблъсък с този феномен идва за широката публика (а и за повечето арткритици) през 2018 г., когато френският колектив Obvious създава с помощта на GAN картината „Edmond de Belamy“, продадена на търг в „Кристи“ за 432 500 щатски долара. През 2018 г. също така статичните изобраения се раздвижват – филмът „Deep Meditations“ на Мемо Актен се отправя на дълга обиколка из различни специализирани изложения за съвременно изкуство и нови медии под формата на инсталация. Актен обучава своя модел върху огромно количество свободно достъпни снимки от социалната мрежа Flickr, а останалото е „контролирана навигация на латентното пространство“ по думите на самия автор.

MEMO AKTEN – „DEEP MEDITATIONS“ (2018) AT UCCA CENTER FOR CONTEMPORARY ART, BEIJING, CN (2020) FROM MEMO AKTEN ON VIMEO

Самата идея за генеративно изкуство не е нова. Още през 60^-те години на миналия век, в епохата, когато компютърът заема цяло помещение и е скъпа технология, запазена за образователни институции и корпорации, немалко учени откриват креативния аспект на първите програмни езици. Германските математици Георг Неес и Фридер Наке, както и американските инженери А. Майкъл Нол и Кен Ноултън са сред тези вече легендарни иноватори, като впоследствие Ноултън работи с артистите Стан Вандербек и Лилиан Шварц за създаването на компютърна анимация. Най-общо, тези ранни произведения представляват геометрична поезия – ако едрият им растер не се плъзга по монохромни екрани, достъпни за очите на избрани, алтернативен вариант за тяхната директна визуализация е посредством плотер или матричен принтер. Уморени от споровете около смисъла и ролята на изкуството, които се точат от XIX век на фона на една все по-усложняваща се политически и социално-психологически среда, тези модерни творения се чувстват освободени от необходимостта да морализират, да възвисяват, или дори да изразяват определени емоции.

В края на 50^-те и началото на 60^-те години Вера Молнар, също считана днес за пионер на генеративното изкуство, съосновава групата GRAV (Groupe de recherche d’art visuel) и разработва метода на така наречената „machine imaginaire“, поради което нейната работа има огромно влияние върху развитието както на опарта, така и на кинетичното изкуство. Близо половин век след скандалния писоар на Дюшан артистите откриват радостта и свободата от едно опосредствано творчество, в което ready-made вече не е нужно да бъде конкретен обект, а технология – автономна система, която може да се програмира според предпочитанията и целите на твореца. Макар и разчитаща основно на математика, в тази така любима на XX век художествена практика има място за изненади, като елементът на случайност се крие или в несъвършенствата около материализирането на формулите с аналогови методи, или в натрупването на вариации, или в контролираната грешка.

Завръщайки се отново в началото на 2021 г., става ясно защо проектът DALL-E (комбинация от имената на персонажа WALL-E на „Пиксар“ и Салвадор Дали) на OpenAI предизвиква такъв фурор. От една страна, първата версия на DALL-E функционира с ново поколение transformers – предварително тренирани модели, които кодират и декодират данните, с които основният модел работи по всяка заявка, така че натискането на бутона, който генерира изображения по зададен текст, се превръща в завъртане на ротативка. От друга страна, макар и под контрола на „Майкрософт“, OpenAI се придържа към мотото си, че изкуственият интелект трябва да облагодетелства цялото човечество. Когато цялата налична документация и технология е достъпна онлайн, всеки потребител има възможност да комбинира свободно бази и модели, въпреки че първите скриптове за неспециалисти се появяват на Google Colab и често изискват технически ресурси отвъд рамките на безплатния акаунт, който всеки може да си създаде с отварянето на виртуална пощенска кутия към Gmail. Нова бизнес възможност за „Гугъл“.

Този романтичен период в „изкуственото изкуство“ през 2021 и началото на 2022 г. все още до голяма степен е повлиян от културата на отворения код. Всеки с програмни познания по Python може да опита да създаде свой скрипт или да даде препоръки по съществуващи проекти, като възнаграждението се случва под формата на онлайн слава (която все пак може да доведе до нови професионални възможности) и скромни суми, които доволни потребители биха могли да изпратят посредством различни платформи. Официално пандемията все още е в разгара си, NFT продажбите на виртуални произведения на изкуството тепърва набират скорост. Изображенията, генерирани с помощта на изкуствен интелект, през 2021 г. обаче все още са с ниска резолюция, до голяма степен идентични и със съмнителни естетически качества. На този етап броят на базите данни, които биха могли да се използват за генериране на изображения, също е ограничен, а и тези бази са създадени предимно от западни академични или корпоративни институции, така че изникват множество етични въпроси около гледната точка, която представят. Едно е сигурно – все повече хора биха искали достъп до този нов тип забавление.

През пролетта на 2022 г. OpenAI анонсира DALL-E 2 (https://openai.com/dall-e-2/), но правото за ползване е ограничено за богоизбрано малцинство, а списъкът за чакащи одобрение да тестват услугата набъбва до над един милион. През юли месец на пазара се появява Midjourney (https://www.midjourney.com/), чиито принцип на функциониране е малко по-различен за потребителя, който трябва да използва Discord сървър, с интерфейс, наподобяващ някогашните стаи за чат, така че всяка заявка, както и резултатът са видими за останалите потребители, които са онлайн на същия сървър. Първите двайсет и пет изображения са безплатни, след което има вариант за месечен абонамент на цената на 10 или на 30 щатски долара, с допълнителна опция за 20 долара на месец, ако потребителят желае заявките да не са достъпни за други потребители. Въпреки наглед стриктната маркетингова политика, Midjourney предлага много техническа гъвкавост за онези, които биха искали да използват техния бот на самостоятелни сървъри. Малко след стартирането, това се оказва сред най-популярните „дестинации“ на Discord, задминаваща по популярност официалните сървъри на Fortnite, Minecraft, Genshin Impact, които обединяват стотици хиляди геймъри по цял свят.

През август месец 2022 г. е премиерата на Stable Diffusion (https://huggingface.co/spaces/stabilityai/stable-diffusion), с лек и неангажиращ уеб интерфейс и платени екстри. Ентусиазмът е неизмерим, но много бързо се оказва, че техният dataset от нов тип е трениран не само на базата на милиони изображения, „намерени“ в интернет, включително и в професионалните портфолиа на множество визуални артисти, но и спрямо допълнителни параметри за (все пак субективните категории) „красота“ и „естетичност“. Общественият дебат се изостря, в Twitter и Instagram започват да се появяват физически заплахи срещу онези, които открито хвалят Stable Diffusion или произведенията, създадени с този модел. Когато в началото на септември Джейсън Алън печели награда на изложението за изкуство в Колорадо и разкрива, че е използвал Midjourney за генерирането на картината си „Théâtre d'Opéra Spatial“, медиите с радост асоциират новината със сензационни заглавия: „измамник“, „краят на изкуството“, „художниците са бесни“. Всичко това на фона на полемиката вследствие спекулациите на един (вече бивш) „Гугъл“ инженер около това дали чат бот на компанията е придобил съзнание.

В края на септември DALL-E 2 най-накрая отваря достъпа до модела си за всички, като първите опити са безплатни и това важи за всеки следващ месец до достигането на определен брой заявки, след което могат да се закупят допълнителни кредити на цената на 15 щатски долара. За разлика от „пригладените“ картинки на Midjourney и хаотичния експресионизъм на Stable Diffusion, DALL-E 2 печели почитатели с класическа композиция и внимание към детайла, особено когато prompt частта съдържа по-дълъг текст. Започват дебати около трите водещи модела и техните бизнес стратегии, дебати около това дали изкуството, създадено с помощта на изкуствен интелект, трябва да се регуляризира и как по-точно, дебати около правата върху тези изображения. Започват опити да се съчетаят различни елементи от Midjourney, Stable Diffusion и DALL-E 2 в комбинации с други модели и техники. Започва свръхпроизводство.

Какво общо обаче има киното с всичко това? Оказва се, че много. Онова, което повечето по-млади кинокритици и журналисти често не осъзнават, а по-възрастните са позабравили, е, че world wide web е текстов медиум – не само под формата на програмен код, но и поради съществуващата все още система от тагове, етикети, описания, коментари и прочие. Когато се подготвя един визуален dataset за бъдеща работа с определен модел, в повечето случаи изображенията са комбинирани с кратък текст, който пояснява какво се вижда, така че да се улесни процеса на „учене“ за изкуствения интелект. За да може това изображение да съществува в наличност, особено с висока резолюция и по-голям размер като файл, някой трябва да е преценил дигитализирането му или запазването му като важни. И тук стигаме до един проблем, който вече съществува от момента, в който „киното“ премина в ръцете на потребителите, но тепърва ще става все по-сериозен. Ако потърсите в интернет изображения от „Гранд хотел „Будапеща“ на Уес Андерсън, ще откриете хиляди, включително плакати, кадри от филма, моменти от снимачния процес, фестивални премиери, хумористични скечове на фенове и т.н. Ако потърсите визуални материали, асоциирани с имената на Мария Клонарис и Катерина Томадаки например, няма да откриете почти нищо.

В тази връзка бих искала да отворя една голяма скоба по отношение на българското кино, което все още страда от факта, че конвенциите за транскрибиране на имена от кирилица към латиница са се променяли на няколко пъти през годините, така че към момента например резултатите за „Rangel Valchanov“ и „Rangel Vulchanov“ са приблизително поравно. Разбира се, една съвременна търсачка като „Гугъл“, която също функционира с помощта на изкуствен интелект, може да „научи“, че става дума за една и съща личност, но липсата на държавна политика и дори интерес във връзка с най-елементарните SEO (Search Engine Optimization) трикове, тепърва ще потапя все по-надолу потенциално важна информация за сметка на други комбинации от нули и единици, които може да не са толкова релевантни, но пък са добре подготвени за информатичните нужди на ботове и алгоритми. За съжаление, едноличните усилия на Георги Дюлгеров не могат да заместят една обмислена и целенасочена кампания, която би могла да уеднакви стандартите на лингвистично ниво и да направи българското кино по-видимо за очите ако не на зрителите, то поне на съвременната технология.

АКИРА КУРОСАВА

ЧАРЛИ ЧАПЛИН

ЖАК ДЕМИ

PedroAlmodóvar.jpg

ПЕДРО АЛМОДОВАР

СЕРДЖО ЛЕОНЕ

УЕС АНДЕРСЪН

ЛОТЕ РАЙНИНГЕР

МИРА НАИР

РАНГЕЛ ВЪЛЧАНОВ

А защо „Гугъл“ би трябвало да се интересува от Рангел Вълчанов? Когато това лято британското издание „Sight & Sound“ обяви, че ще събира гласове за провеждащата се на всеки десет години класация за „Най-добрите филми на всички времена“, се подеха дежурните спорове. Разбира се, че една подобна класация отразява географския произход, образованието, класовия статут, културните особености и мобилността на участниците в нея, както и факта, че за да попаднат в престижния списък, филмите все пак трябва да са запазени и достъпни. Но пък един път стигнали до заветното класиране, заглавията на тези филми в комбинация с изображенията към тях, ще бъдат тиражирани многократно. За да генерирате изображение с изкуствен интелект, което е „в стила“ на Уес Андерсън, скриптът няма нужда да изгледа всички филми на този автор, а ще анализира единствено онова, което вече присъства в базата данни и ще представи една есенция, кореспондираща със задачата. Защото „стилът“ постепенно се превръща във водеща мярка не само по отношение на генеративното изкуство, а и на онова, с което платформи-гиганти от типа на „Нетфликс“, „Амазон“, „Дисни Плюс“, „Ейч Би О“ оперират като послание. С други думи, независимо дали става дума за многомилионна инвестиция на „Марвъл“ или за автор, който отдавна не е сред живите, но чиито филми продължават да попадат в топ 10 на всякакви класации, журналистите, критиците, публичните личности с мнение по темата се превръщат в бурмички в един нов тип механизъм, който буквално придава тежест (weight) на специфични параметри. Една допълнителна демографска справка за тези „бурмички“ е завършен маркетингов анализ.

POVEST / ATANAS DALCHEV FROM СПИСАНИЕ КИНО ON VIMEO

Бърз демографски преглед на новите консуматори на изкуствено изкуство показва, че мнозинството са млади, технически грамотни, сравнително образовани, тоест идеалната целева група на аудиовизуалната индустрия, която постоянно ги бомбардира с алгоритмични реклами за алгоритмично формулирано съдържание като сериали, видео игри, TikTok тенденции. По някаква дистопична ирония се оказва, че основният начин да се противопоставиш на това изкуствено и агресивно наложено алгоритмично съдържание е като генерираш свое собствено. Така автор и потребител се сливат в едно. Един прочувствен коментар след премиерата на Midjourney твърди следното: „Никога не съм имал какъвто и да било талант. Не мога да чертая, рисувам, пиша, да моделирам в 3D и така нататък. Затова съм обсебен от тази технология – тя е едно визуално средство да изпитам най-лудите си артистични мисли. Това е най-близкото преживяване до съвременна магия“. Разбира се, не може да се визуализира всичко, тъй като във всеки модел има заложени различни механизми за цензура, както на ниво prompt, така и след генерирането на изображението и непосредствено преди показването му на екрана. За тази игра на наивност обаче трябват две страни, като и двете са тренирани с резултата от 120 години хомеопатични дози „sex and violence“, така че осъзнават колко е условна границата между позволено и забранено. А и самият аудиовизуален бизнес отдавна е превърнал естетическото преживяване във вулгарен жаргон, към който е културно приобщена евтина работна ръка от цял свят. Ако напишете „8K“ в prompt текста, това не значи, че резултатът ще бъде действително с тази резолюция – това е по-скоро стилистичен код. Да не забравяме, че кучето на Павлов кондиционира поколения учени.

На този етап изглежда, че тези изображения, генерирани ежедневно от хиляди потребители, нямат стойност сами по себе си, освен като вид терапевтична практика.

Действително – огромна част от тази продукция, която не привлича достатъчно интерес като пост в социалните мрежи или пък няма потенциал да се превърне официално в „изкуство“ под формата на NFT транзакция / виртуална изложба, е брак, но пък ако някой вече е платил за генерирането ѝ, значи има цена. Постепенно около концепцията за prompts започва да се формира нова пазарна ниша, в която предприемчиви програмисти и куратори предлагат онлайн „пазар“ или „турнири“ под формата на специални събития, в които най-опитните prompt-автори могат да печелят от този нов тип синтактичен атлетизъм. Към това трябва да се добави и следващият етап на алгоритмично генериране за широките маси, а именно на видео, като подобни експерименти вече се правят и с цел динамично създаване на виртуална среда. Докато Марк Зукърбърг излива милиарди в празни обещания за светло бъдеще в „Мета“, на практика днес всеки разполага с що-годе достъпна технология, за да сътвори собствен виртуален свят и да го обитава, индивидуално или в компанията на други потребители.

Сама по себе си, тази есенция на човешката визуална култура е кич – първо защото е компилация от най-атрактивното за очите и второ защото е еманация на вече съществуващото, с много малък шанс за креативен, оригинален пробив отвъд ясно дефинираната класификация на стилове и жанрове, която се крие под повърхността. Част от текстовия prompt нерядко изплува в изображението като форма на летризъм, тъй като изкуственият интелект не може да асимилира всеки нюанс от човешката култура. Но той се учи, бързо и непрестанно, до такава степен, че вече е напълно обичайно автоматично генерираните резултатите да поразяват със своя фотореализъм и на свой ред да бъдат припознати от автоматичните търсачки като легитимна визуализация на конкретни събития или феномени. Докато лицето на истинския Том Круз заприличва все повече и повече на deepfake, в интернет се появяват инструкции как да разобличим подобна измама по време на видео разговор – като помолим нашия събеседник да се завърти в профил, тъй като този ъгъл от човешкото лице е по-труден за емулация, особено в реално време.

Понятията „изкуство“ и „изкушение“ имат общ старославянски корен – в този контекст едно позоваване на идеите на Жил Дельоз за нехуманното е повече от изкушаващо, но бих предпочела да завърша с цитат от Вилем Флусер, който вижда в еволюцията на техническите образи нов цивилизационен шанс: „Ако вземем за отправна точка съвременните технически изображения, откриваме две различни тенденции. Едната се движи към централно програмирано, тоталитарно общество на приемници на изображения и администратори на изображения, а другата към диалогично, телематично общество на производители на изображения и колекционери на изображения“. (превод а., стр. 4 от Into the Universe of Technical Images) Мисля, че всеки би предпочел втория вариант, но остава въпросът дали от другата страна на диалога не стои чат бот.