Stable Diffusion, Midjourney: Jak funguje umělá kreativita?

Aktualizováno 22. června 2023 • Autor: Michal Rybka

Novou a překvapivou formou umělé inteligence je umělá kreativita. V poslední době se objevila celá řada programů, které dokážou generovat obrazy na základě textových vstupů. Samotná kreativní AI se stala proslulou v roce 2015, kdy Google uvedl Deep Dream Generator. Ten uměl vyšperkovat vstupní obraz do podoby barevné halucinace – bylo to zajímavé, ale poněkud jednoúčelové.

Podivná historie AI Základní formy AI Každodenní AI Google Search: AI jako forma učení AI generuje obrázky Ovládne nás AI?

Artificial Intelligence photography in the creation of art. Vytvořeno s pomocí Midjourney. Vytvořil Václav Závada.

Co je to latentní difúze?

Nové kreativní programy jsou založeny na moderním konceptu latentní difúze, což je proces, kdy se neuronová síť učí rozeznávat obrazy na stále více zašuměných vstupech, takže se doslova naučí vidět tvary v chaosu. Samotné tvoření probíhá opačně, totiž vygeneruje se vstup z čistého šumu, ve kterém v jednotlivých iteracích síť rozeznává tvary a nahrazuje náhodný vstup prvky, které v něm vidí. To, co je na tomto procesu ohromující, je možnost, že přesně takhle vznikají sny – náhodná aktivita spícího mozku je interpretována jako obrazy a vize.

Latentní difúze vznikla jako koncept před rokem, ale dnes už máme komerční platformy, jako je Midjourney, ale také Open Source nástroj Stable Diffusion. Ty jsou rozděleny na dvě části – samotné učení neuronové sítě probíhá na superpočítačích, kde se jí předkládají miliardy vstupů, výsledný model je možné provozovat na domácích počítačích s moderní grafickou kartou a kapacitou minimálně 8 GB RAM. Učit podobné modely zatím na domácích počítačích nejde, je to výpočetně příliš náročné.

Vytvořeno s pomocí Midjourney — Jak by vypadal Midjourney, pokud by byl člověkem? Zeptali jsme se přímo Midjourney – takto zachytil sám sebe.
*Nástroj: Midjourney. Vytvořil: Václav Závada (26. 7. 2023)*

Jak náročné je vytrénovat nový AI model pro Stable Diffusion?

Výše Michal uvedl, že na domácích počítačích trénovat umělou inteligenci nelze. Teoreticky to není pravda, pochopitelně lze – jenže čas, který byste k tomu potřebovali, by se počítal ve stovkách let. A to nepřeháníme.

Abychom byli konkrétnější. Na superpočítači NVIDIA DGX A100, který má 128 CPU jader, 55.296 jader a prodává se za přibližně 200.000 USD dolarů (při kurzu 21,8 Kč cca 4.36 mil. Kč) potřebuje k tréninku Stable Diffusion modelu 79 tisíc výpočetních hodin.

Jeden superpočítač NVIDIA DGX A100 by proto k tréninku modelu potřeboval 9 let. Takže teorii stranou, v reálu má Michal pravdu: na domácích počítačích trénovat model zatím nelze.

Jak funguje generování obrázků s AI?

Generování obrazů probíhá tak, že systém vezme textové vstupy, které mu říkají, co by měl v šumu vidět – a také náhodně generovaný šum, ze kterého začne zpracovávat obrazový výsledek. Protože se začíná z náhodného vzoru, výsledkem je vždy unikátní obraz, i když se navzájem mohou podobat obsahy a styly. Generování je iterativní, to znamená, že vzniká více obrazů, mezi kterými si uživatel vybere ty, které se mu líbí, a ty nechá rozpracovat. Nejde tedy o plně automatický proces, kdy by AI vytvořila nejlepší možný obraz, ale spíše tvořivý nástroj, který navrhuje jednotlivé možnosti a spolu s člověkem je dotváří.

Člověk je autorem unikátních vstupů a také vybírá z možných výstupů, takže produktem kreativní AI je lidské autorské dílo. AI jako taková nemá právní subjektivitu a nemůže být autorem, zákon dnes nahlíží na produkci kreativní AI jako na výstup softwarového nástroje – podobně jako například u Adobe Photoshopu. Přestože probíhají diskuse o tom, zda autorem nemůže být síť jako taková – ne, nemůže, zákon neuznává právní subjektivitu AI a bylo by velice problematické něco takového zavádět. Právní subjektivita znamená, že na AI by se nahlíželo jako na člověka jak ve smyslu práv i povinností – a vzhledem k tomu, že zákony byly navrženy lidmi pro lidi, zahrnutí AI do současného právního systému by přineslo víc škod než užitku.

Autorské právo vs AI umění

Jak uvedl Michal výše, umělá inteligence nemůže být „autorem“ ve smyslu autorského zákona. Pokud ale pro tvorbu vašeho výstupu použijete konkrétního autora, nebo použijete referenční obrázek, který následně s pomocí umělé inteligence upravíte, pak se jedná o tzv. odvozené autorské dílo. Mohou tak nastat teoreticky dvě situace:

1. Pokud použijete specifický způsob zadání (prompts), který má rozhodující vliv na podobu výsledného obrázku, případně použijete svou referenční fotografii/obrázek, pak lze výstup AI považovat za tzv. „odvozené autorské dílo“. Jinými slovy, takovému obrázku náleží ochrana díla ve smyslu autorského zákona.

2. Pokud svůj obrázek založíte na obrázku někoho jiného, případně převezmete jeho způsob zadání, pak si může taková osoba (teoreticky) nárokovat svá práva s argumentem, že se jedná o „odvozené autorské dílo“.

Je otázkou, jaký postoj by k této věci zaujaly soudy. Proto výše uvedený text neberte jako nezpochybnitelnou pravdu, ale spíše jako názor. Prozatím totiž neexistuje žádný soudní precedens, alespoň v České republice. A pokud existuje nějaká objektivní pravda, pak ta, že zákon může vykládat pouze soud, nikoliv editor na Alza.cz.

Vzniká nové povolání AI umělce

Kreativní AI je dnes opravdu spíše nástrojem, který ale dokáže velice rychle a efektivně generovat vizuální obsah. Vzniká nová pozice AI umělce, což je člověk, který ve spolupráci s AI nástroji dokáže generovat obsah podle svých představ – je to role podobná například specialistovi na vyhledávání, jenom s uměleckým přesahem.

Midjourney vs Stable Diffusion

Povrchní srovnání výstupu z Midjourney a Stable Diffusion, které zde najdete v podobě obrázků okolo, může být zavádějící. S ovládáním Stable Diffusion nemáme takové zkušenosti, a neumíme tak naplno využít jako potenciál. Ten je obrovský. Oproti Midjourney totiž běží na vašem počítači, můžete si tedy stáhnout libovolný model, který se specializuje na vámi vybraný žánr. Již nyní na internetu najdete vyšší desítky solidních modelů – některé se specializují na anime, jiné na vojenskou techniku.

Aktuálně ale musíme podotknout, že výstup ze Stable Diffusion je výrazně méně konsistentní. Řada obrázků, která námi byla vygenerována, měla bídnou kvalitu, zatímco u Midjourney jsme se nemuseli nějak zvlášť snažit. Stable Diffusion má obrovský potenciál. Zároveň protože vše běží na vašem hardwaru, neřešíte problémy se zákazy a omezeními (což je zároveň mírně děsivé), a hlavně – je zdarma.

Jenže abyste z něj dostali konkurenceschopný výstup, musíte jít štěstí naproti, stahovat různé modely, zkoušet, experimentovat s různými kombinacemi nastavení a frázování vašeho požadavku. Pro zajímavost přikládáme i několik obrázků, které se do článku nedostaly. Najdete je zde: Stable Difusion, Midjourney.

Můžeme očekávat, že se kreativní inteligence rychle prosadí i v oblasti kreativního psaní a filmařiny, takže se poměrně rychle objeví filmy vytvářené AI a dost možná i napsané a režírované AI. Znamená to konec kreativních povolání – anebo jejich demokratizaci? To zatím nevíme – a nevíme ani, kde přesně leží limity schopností současné kreativní AI. Aktuálně se umělá inteligence zlepšuje každým dnem a svého potenciálu zdá se prozatím nedosáhla. Lze tak konstatovat, že nástroje založené na latentní difúzi přinesly až šokující pokrok. Prozatím ale vždy platilo, že každá podobná technologie má svoje limity a bude časem nahrazena lepší a výkonnější inteligencí.

V blízké budoucnosti můžeme očekávat normalizaci nasazení kreativní AI v každodenním životě a dost možná i zábavnější a hravější svět, protože výkon, se kterým je kreativní AI schopná generovat nový a nový obsah, je jednoduše ohromující. Tato technologie je jednoduše tady – a my si na ni budeme muset zvyknout – a smířit se i s tím, že další oblast, ve které se prosadí, může být úplně jiná, než jakou čekáme.

SmartHome Umělá inteligence

Michal Rybka

Michal Rybka je publicista a nadšenec s 20 lety zkušeností v IT a gamingu. Je kurátorem AlzaMuzea a YouTube kanálu AlzaTech. Napsal několik fantasy a sci-fi povídek, které vyšly v knižní podobě, a pravidelně pokrývá páteční obsah na internetovém magazínu PCTuning.

BIG DATA a umělá inteligence pro manažery

Elektronická kniha

329,-

Buy

Available for reading

Order Code: EK40191

Umělá inteligence jako technologická výzva autorskému právu

Kniha

599,-

Watch

Expected July 3, 2026

Order Code: FKP0390884

Apple HomePod mini white - EU - Voice Assistant

4.8 1,021×

Apple HomePod mini white - EU

Voice Assistant - Apple Home, Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, 2 ambient sound microphones, Camera, EU distribution, language used: English and German. Siri - in English, compatible Apple Home apps, iOS support, connection via WiFi 2.4 GHz and Bluetooth, open system, functioning independently, home control, camera, 2 microphones to pick up ambient sound, Supports Apple Music, woofer

3,190,-

Watch

Currently Unavailable

Order Code: JA041a1

Google Pixel 10a 256GB Fog - Mobile Phone

4.8 36×

Google Pixel 10a 256GB Fog

Mobile Phone 6,3" P-OLED 2424 × 1080, 120Hz, processor Google Tensor G4, RAM 8 GB, internal memory 256 GB, main camera 48 Mpx (f/1,7) + 13 Mpx (f/2,2), selfie camera 13 Mpx, optical (ois) and electronic (eis) stabilization, GPS, NFC, LTE, 5G, USB-C, dual SIM, water resistant IP68, unlocked, quick charging 30W, wireless charging, battery 5100 mAh, Android 16

Buy with code 2026ALZAEXTRA10 The discount code gives the option of applying a discount on a given product when entering the code in the shopping cart. 14,166,-

15,740,- 15,990,-

Buy

In stock > 5 pcs

Order Code: GPX1084c2

Amazon Echo Show 8 (3rd gen) Charcoal - Voice Assistant

4.6 16×

Amazon Echo Show 8 (3rd gen) Charcoal

Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, Headphone output, Display, Camera and Microphone mute button,.

5,399,-

Buy

In stock > 5 pcs

Order Code: ANE1046