Novou a překvapivou formou umělé inteligence je umělá kreativita. V poslední době se objevila celá řada programů, které dokážou generovat obrazy na základě textových vstupů. Samotná kreativní AI se stala proslulou v roce 2015, kdy Google uvedl Deep Dream Generator. Ten uměl vyšperkovat vstupní obraz do podoby barevné halucinace – bylo to zajímavé, ale poněkud jednoúčelové.
Nové kreativní programy jsou založeny na moderním konceptu latentní difúze, což je proces, kdy se neuronová síť učí rozeznávat obrazy na stále více zašuměných vstupech, takže se doslova naučí vidět tvary v chaosu. Samotné tvoření probíhá opačně, totiž vygeneruje se vstup z čistého šumu, ve kterém v jednotlivých iteracích síť rozeznává tvary a nahrazuje náhodný vstup prvky, které v něm vidí. To, co je na tomto procesu ohromující, je možnost, že přesně takhle vznikají sny – náhodná aktivita spícího mozku je interpretována jako obrazy a vize.
Latentní difúze vznikla jako koncept před rokem, ale dnes už máme komerční platformy, jako je Midjourney, ale také Open Source nástroj Stable Diffusion. Ty jsou rozděleny na dvě části – samotné učení neuronové sítě probíhá na superpočítačích, kde se jí předkládají miliardy vstupů, výsledný model je možné provozovat na domácích počítačích s moderní grafickou kartou a kapacitou minimálně 8 GB RAM. Učit podobné modely zatím na domácích počítačích nejde, je to výpočetně příliš náročné.
i
Jak náročné je vytrénovat nový AI model pro Stable Diffusion?
Výše Michal uvedl, že na domácích počítačích trénovat umělou inteligenci nelze. Teoreticky to není pravda, pochopitelně lze – jenže čas, který byste k tomu potřebovali, by se počítal ve stovkách let. A to nepřeháníme.
Abychom byli konkrétnější. Na superpočítači NVIDIA DGX A100, který má 128 CPU jader, 55.296 jader a prodává se za přibližně 200.000 USD dolarů (při kurzu 21,8 Kč cca 4.36 mil. Kč) potřebuje k tréninku Stable Diffusion modelu 79 tisíc výpočetních hodin.
Jeden superpočítač NVIDIA DGX A100 by proto k tréninku modelu potřeboval 9 let. Takže teorii stranou, v reálu má Michal pravdu: na domácích počítačích trénovat model zatím nelze.
Generování obrazů probíhá tak, že systém vezme textové vstupy, které mu říkají, co by měl v šumu vidět – a také náhodně generovaný šum, ze kterého začne zpracovávat obrazový výsledek. Protože se začíná z náhodného vzoru, výsledkem je vždy unikátní obraz, i když se navzájem mohou podobat obsahy a styly. Generování je iterativní, to znamená, že vzniká více obrazů, mezi kterými si uživatel vybere ty, které se mu líbí, a ty nechá rozpracovat. Nejde tedy o plně automatický proces, kdy by AI vytvořila nejlepší možný obraz, ale spíše tvořivý nástroj, který navrhuje jednotlivé možnosti a spolu s člověkem je dotváří.
Člověk je autorem unikátních vstupů a také vybírá z možných výstupů, takže produktem kreativní AI je lidské autorské dílo. AI jako taková nemá právní subjektivitu a nemůže být autorem, zákon dnes nahlíží na produkci kreativní AI jako na výstup softwarového nástroje – podobně jako například u Adobe Photoshopu. Přestože probíhají diskuse o tom, zda autorem nemůže být síť jako taková – ne, nemůže, zákon neuznává právní subjektivitu AI a bylo by velice problematické něco takového zavádět. Právní subjektivita znamená, že na AI by se nahlíželo jako na člověka jak ve smyslu práv i povinností – a vzhledem k tomu, že zákony byly navrženy lidmi pro lidi, zahrnutí AI do současného právního systému by přineslo víc škod než užitku.
i
Autorské právo vs AI umění
Jak uvedl Michal výše, umělá inteligence nemůže být „autorem“ ve smyslu autorského zákona. Pokud ale pro tvorbu vašeho výstupu použijete konkrétního autora, nebo použijete referenční obrázek, který následně s pomocí umělé inteligence upravíte, pak se jedná o tzv. odvozené autorské dílo. Mohou tak nastat teoreticky dvě situace:
1. Pokud použijete specifický způsob zadání (prompts), který má rozhodující vliv na podobu výsledného obrázku, případně použijete svou referenční fotografii/obrázek, pak lze výstup AI považovat za tzv. „odvozené autorské dílo“. Jinými slovy, takovému obrázku náleží ochrana díla ve smyslu autorského zákona.
2. Pokud svůj obrázek založíte na obrázku někoho jiného, případně převezmete jeho způsob zadání, pak si může taková osoba (teoreticky) nárokovat svá práva s argumentem, že se jedná o „odvozené autorské dílo“.
Je otázkou, jaký postoj by k této věci zaujaly soudy. Proto výše uvedený text neberte jako nezpochybnitelnou pravdu, ale spíše jako názor. Prozatím totiž neexistuje žádný soudní precedens, alespoň v České republice. A pokud existuje nějaká objektivní pravda, pak ta, že zákon může vykládat pouze soud, nikoliv editor na Alza.cz.
Kreativní AI je dnes opravdu spíše nástrojem, který ale dokáže velice rychle a efektivně generovat vizuální obsah. Vzniká nová pozice AI umělce, což je člověk, který ve spolupráci s AI nástroji dokáže generovat obsah podle svých představ – je to role podobná například specialistovi na vyhledávání, jenom s uměleckým přesahem.
i
Midjourney vs Stable Diffusion
Povrchní srovnání výstupu z Midjourney a Stable Diffusion, které zde najdete v podobě obrázků okolo, může být zavádějící. S ovládáním Stable Diffusion nemáme takové zkušenosti, a neumíme tak naplno využít jako potenciál. Ten je obrovský. Oproti Midjourney totiž běží na vašem počítači, můžete si tedy stáhnout libovolný model, který se specializuje na vámi vybraný žánr. Již nyní na internetu najdete vyšší desítky solidních modelů – některé se specializují na anime, jiné na vojenskou techniku.
Aktuálně ale musíme podotknout, že výstup ze Stable Diffusion je výrazně méně konsistentní. Řada obrázků, která námi byla vygenerována, měla bídnou kvalitu, zatímco u Midjourney jsme se nemuseli nějak zvlášť snažit. Stable Diffusion má obrovský potenciál. Zároveň protože vše běží na vašem hardwaru, neřešíte problémy se zákazy a omezeními (což je zároveň mírně děsivé), a hlavně – je zdarma.
Jenže abyste z něj dostali konkurenceschopný výstup, musíte jít štěstí naproti, stahovat různé modely, zkoušet, experimentovat s různými kombinacemi nastavení a frázování vašeho požadavku. Pro zajímavost přikládáme i několik obrázků, které se do článku nedostaly. Najdete je zde: Stable Difusion, Midjourney.
Můžeme očekávat, že se kreativní inteligence rychle prosadí i v oblasti kreativního psaní a filmařiny, takže se poměrně rychle objeví filmy vytvářené AI a dost možná i napsané a režírované AI. Znamená to konec kreativních povolání – anebo jejich demokratizaci? To zatím nevíme – a nevíme ani, kde přesně leží limity schopností současné kreativní AI. Aktuálně se umělá inteligence zlepšuje každým dnem a svého potenciálu zdá se prozatím nedosáhla. Lze tak konstatovat, že nástroje založené na latentní difúzi přinesly až šokující pokrok. Prozatím ale vždy platilo, že každá podobná technologie má svoje limity a bude časem nahrazena lepší a výkonnější inteligencí.
V blízké budoucnosti můžeme očekávat normalizaci nasazení kreativní AI v každodenním životě a dost možná i zábavnější a hravější svět, protože výkon, se kterým je kreativní AI schopná generovat nový a nový obsah, je jednoduše ohromující. Tato technologie je jednoduše tady – a my si na ni budeme muset zvyknout – a smířit se i s tím, že další oblast, ve které se prosadí, může být úplně jiná, než jakou čekáme.
Michal Rybka
Michal Rybka je publicista a nadšenec s 20 lety zkušeností v IT a gamingu. Je kurátorem AlzaMuzea a YouTube kanálu AlzaTech. Napsal několik fantasy a sci-fi povídek, které vyšly v knižní podobě, a pravidelně pokrývá páteční obsah na internetovém magazínu PCTuning.