Umělá inteligence má širokou škálu využití. Od rozpoznávání rukopisu, manipulace s obrázky a texty přes samořídící auta, rozhodování o bankovních půjčkách až po navigaci ve vesmíru. Podíváme se na některá využití, i když byste těžko hledali oblast informatiky, které se umělá inteligence alespoň trochu nedotkla.
Automatické generování titulků na YouTube nebo asistenti v mobilních telefonech (Google Assistant, Apple Siri) jsou příklady, kde dochází k rozpoznávání hlasu. Ještě dříve se tato technologie používala ve špionážních systémech, kdy nebylo možné poslouchat hodiny odposlechnutých telefonních hovorů a bylo nutné vyhledávat pomocí klíčových slov. Dnešní open-source modely, jako je například Whisper od OpenAI (který je na rozdíl od ChatGPT skutečně „otevřený“ – můžete jej spustit lokálně), umožňují rozpoznávání řeči v mnoha jazycích a lze je využít k sumarizaci schůzek, komunikaci s asistenty, titulkování videí nebo překladu mluveného slova do češtiny.
Pokud jej chcete spustit, můžete použít oficiální implementaci nebo ještě lépe verzi whisper.cpp optimalizovanou pro procesor.
V článku jsem začal s rozpoznáváním hlasu hlavně proto, že je na něm snadno vidět, jak můžeme propojit různé modely umělé inteligence. Pokud chceme vytvořit hlasového asistenta, musíme rozpoznat, co uživatel říká, pak to můžeme propojit s jazykovým modelem a odpovědí může být opět hlas, nebo dokonce vygenerovaný program, který něco udělá (například rozsvítí světla). Velkou výhodou open-source modelů je právě možnost jejich propojení a vytvoření jedinečných aplikací.
Při generování obrázků z textu máme širokou škálu možností. Asi nejoblíbenější je placená online služba MidJourney. Ta má poněkud zvláštní ovládání pomocí chatovací aplikace Discord:
Máme však také možnost nainstalovat místní model stabilní difuze, který běží na našem vlastním zařízení. Nejlépe bude fungovat na nejnovějších počítačích Mac s procesorem Apple Silicon, ale můžete jej spustit i na jiných zařízeních. Osobně používám InvokeAI, i když existuje několik možností.
Kromě jednoduchého generování obrázků umožňuje také rozšiřování obrázku (outpainting), dokreslování do existujícího obrázku, zvětšování rozlišení, korekci obličeje a mnoho dalších funkcí.
Generativní obrazkové modely však již nejsou doménou samostatných nástrojů – jsou doslova všude. Pokud používáte webový editor obrázků Canva nebo Adobe Photoshop, máte možnost vytvářet obrázky, nebo je dokonce používat při úpravě fotografií.
Výhodou otevřených obrazových modelů, jako je Stable Diffusion, je možnost jejich přeškolení pro vaše potřeby. Ať už jde o „firemní styl“ (například použití firemních barev), konkrétní použití (portréty, manga, případně váš vlastní umělecký styl) nebo zlepšení generování konkrétních objektů, drobným dotrénováním základního modelu můžete dokázat zázraky.
Služba CivitAI umožňuje sdílet dotrénované modely, takže pokud máte konkrétní potřebu, můžete si stáhnout upravené míry.
Trénování modelů však může mít i jiný účel – můžete vytvořit model, který může například přímo renderovat vás, vaši rodinu nebo kolegy. Potřebujete se vyfotit ve Versailleském paláci nebo na mezinárodní vesmírné stanici? Žádný problém. Nebo jen chcete vypadat o něco hezčí než ve skutečnosti...
Jádrem současné revoluce v oblasti umělé inteligence jsou však jazykové modely. Asi každý už slyšel o ChatGPT, což je nástroj, se kterým můžete mluvit. Novější verze (GPT-4) mají plug-in moduly a snadný přístup na web, kde mohou vyhledávat aktuální informace, které nejsou v trénovací množině.
Pokud se podíváme na většinu „AI startupů“, jedná se velmi často jen o zabalené volání ChatGPT. Podobně funguje například umělá inteligence Microsoftu (Bing), integrace do nástrojů, jako je Notion apod. Jak říká známý mem ze seriálu Scooby Doo:
Z mého pohledu jsou však zajímavější open-source jazykové modely, které můžeme spouštět na vlastním hardwaru, trénovat a vylepšovat je. A i s nimi se roztrhl pytel.
Způsoby, jakými je můžete spouštět, do značné míry závisí na vašem hardwaru a operačním systému. Jazykový model se skládá z vah, popisu architektury (jak jsou neurony propojeny) a kódu, který umožňuje odvozování.
Výběr kódu závisí na tom, co chcete dělat, a na tom, zda máte grafickou kartu. Většina modelů je nejprve vyvinuta pro grafické karty NVidia, s využitím frameworku CUDA a nejčastěji pomocí nástroje PyTorch. Většina programátorů však použije knihovnu vyšší úrovně, například transformers od Hugging Face, kde stačí na několika řádcích odkázat na model z databáze Hugging Face a spustit inferenci – transformers knihovna se postará o stažení vah, vytvoření architektury pomocí volání knihovny PyTorch.
Pokud chcete hlouběji pochopit, jak modely fungují, doporučuji podívat se na knihovnu tinygrad, která se snaží být co nejjednodušší a nejkratší. Jejím autorem je George Hotz (geohot). Něco málo si o něm také povíme u samořiditelných aut.
Pokud máte zařízení s čipy Apple M1, mohl by vás zajímat balíček llama.cpp.
Pokud jste spíše uživatel než programátor, existuje spousta nástrojů, které se starají o front-end (a případné API). Jedním z nejznámějších je program gpt4all:
Nástroj gpt4all dokonce implementuje stejné API jako ChatGPT/OpenAI, takže můžete použít jakýkoli software, který používá API OpenAI, ale s lokálním modelem.
Jak vybrat správný model? Předpokládám, že v době, kdy čtete tyto řádky, je již jakákoli odpověď zastaralá, a proto vás odkáži na „hitparádu modelů“ společnosti Hugging Face. Jednou z velmi zajímavých odnoží je model Llama vytvořený společností Meta. Nevýhodou je licencování, které je nejasné, ale určitě je určeno pouze pro nekomerční použití. Proč právě „odnož“? Základní jazykový model prostě vezme text a snaží se vygenerovat jeho pokračování. Jedná se tedy o čistý jazykový model, který není vyladěn pro sledování instrukcí nebo konverzaci. Vyladění model poměrně dost ovlivňuje. Dlouho jsem například používal model vicuna-13B-uncensored, který je natrénovaný na konverzaci, ale snaží se dávat odpovědi místo moralizujících pouček, které znáte z ChatGPT. Když se ho zeptáte na bitcoin, odpoví vám, místo aby vás varoval, jak jsou kryptoměny strašně volatilní a nebezpečné.
Mezitím například vznikl model falcon, který je použitelný i pro komerční využití a různé týmy pracují na jeho přeškolení pro různé úlohy. Společnost StabilityAI pracuje na řadě modelů StableLM. Vývoj je opravdu rychlý.
O samořiditelných automobilech se mluví už léta. Zatím však nemáme komerčně dostupné auto, které by se dokázalo samo pohybovat po jakékoli silnici. Jedná se však o velmi důležitou oblast umělé inteligence. Lidští řidiči dělají chyby, mají pomalé reakce, ztrácejí pozornost atd. Přechodem na samořízená auta bychom mohli zachránit velké množství životů..
Moderní automobily jsou vybaveny velkým množstvím elektroniky. I ty nejběžnější vozy mají senzory a kamery, které pomáhají při parkování, adaptivní tempomat (zpomalí, pokud zjistí, že před vozem jedou jiní účastníci silničního provozu pomaleji). Některá auta mají dokonce funkci asistenta jízdy v jízdním pruhu, který jemně natáčí volantem, aby udržel auto (většinou na dálnici) v jeho jízdním pruhu.
Samořízení má několik úrovní. Výše zmíněné nástroje představují první úroveň – auto pomáhá člověku-řidiči s některými funkcemi. Druhou úrovní je částečná automatizace, kdy automobil propojuje automatizaci řízení (volant) a řízení rychlosti. Takový vůz již v určitých situacích prakticky řídí sám, ale řidič musí být pozorný a měl by být schopen kdykoli převzít řízení. Ovládá také některé aspekty řízení (rozhodování o změně jízdního pruhu atd.). Třetí úrovní je podmíněná automatizace – řidič musí být stále schopen převzít řízení, ale vůz se prakticky řídí sám. Na čtvrté úrovni už auto za určitých okolností se může řídit samo – příkladem jsou taxíky Waymo ve Phoenixu v Arizoně. Pátou úrovní je úplné samořízení, což je úroveň, které zatím žádný projekt nedosáhl.
Tesla je pravděpodobně nejdále v komerčním využití a popularizaci samořízených vozidel. Tým pro vývoj umělé inteligence pro samořídící automobily vybudoval ve společnosti Tesla Andrey Karpathy, od kterého se také můžete dozvědět o tom, jak umělá inteligence funguje, o jazykových modelech a o všem možném dalším.
Tesla udržuje vůz v jízdním pruhu, detekuje překážky a ve vyšších verzích (za příplatek) dokáže přejíždět mezi jízdními pruhy.
Tesla však není jedinou možností, jak si pořídit samořídící vůz. Podívejme se, jak daleko je open-source konkurence. Ano, existuje – projekt comma.ai a jejich openpilot umožňují ve většině aut, která mají asistenta pro jízdu v pruzích a adaptivní tempomat, udělat druhou úroveň samořídících schopností – velmi podobnou jako Basic Autopilot. V závislosti na autě vás comma dokáže udržet v jízdním pruhu, brzdit před překážkami a přejíždět mezi jízdními pruhy. Mottem tohoto projektu je, „aby řízení bylo pohodové“.
Autorem tohoto projektu je George Hotz, známý také jako geohot. Proslavil se hackováním zařízení Apple (především iPhonů). V srpnu 2007 se mu jako prvnímu podařilo odstranit blokování iPhonu u operátora. V té době mu bylo sedmnáct let. V říjnu 2009 vydal nástroj s názvem "blackra1n", který byl kompatibilní se všemi iPhony a iPody Touch se systémem iOS 3.1.2 a který umožňoval tzv. jailbreaking. V současné době (podobně jako u Andreje Karpathyho) lze na internetu najít spoustu videí, kde velmi prakticky vysvětluje techniky umělé inteligence (na rozdíl od Andreje Karpathyho při tom většinou jí a místo slajdů a připravené prezentace to dělá napoprvé, což je zajímavý pohled na to, jak velmi šikovný programátor přemýšlí a jak řeší problémy).
Pokud vás překvapilo, že velké jazykové nebo obrazové modely mají relativně kvalitní open-source alternativy, v případě samořízení je překvapen téměř každý – většina lidí si myslí, že je to úkol tak obtížný, že ho zvládnou jen obrovské týmy s obrovským výpočetním výkonem. Na plnohodnotné samořízení páté úrovně si počkáme i kvůli regulátorům. O dalším vývoji umělé inteligence v budoucnosti a možném použití budeme hovořit v příštím – a posledním – díle seriálu.
Původně jsem tento text chtěl ukončit tady, ale editor mě správně upozornil, že by bylo dobré ho ukončit nějakou „punchline“, takže co z toho vyplývá? V teplých letních dnech mi docházela inspirace, a tak jsem si pomohl modelem Hermes odvozeným z Vicuna.
Bohužel model funguje dobře hlavně v angličtině, takže jsem závěr musel preložit do slovenštiny, která je zdrojovým jazykem tohoto článku, pomocí modelu DeepL.
A proč to tu tak podrobně popisuji? Protože podle mě najzajímavější, co se bude dít, je propojování modelů. Jazykové modely, obrázkové modely a podobné jsou šikovné, ale jejich propojení bude dávat ješte lepší výsledky. Jazykový model neumí počítat rovnice, ale Wolfram Alpha to umí. Vizuální model řízení auta umí auto udržet v jízdním pruhu, ale navigační software ví, ve kterém pruhu mám být podle toho, kam chci jet. Rozpoznávání hlasu ví, co říkáte, ale až jazykový model ví, co tím chcete říct.
Jaká je tedy punchline?
Jak vývoj těchto modelů umělé inteligence pokračuje, začínáme je stále více propojovat. Představte si budoucnost, ve které spolu komunikují samořiditelná auta, aby se vyhnula nehodám, systémy rozpoznávání řeči plynule překládají jazyky v reálném čase (babelfish) a algoritmy rozpoznávání obrazu spolupracují při identifikaci objektů s bezkonkurenční přesností. Jazykové modely pomáhají autorům článků na Alza.cz psát závěry, programátorům efektivněji psát kód, právníkům sepisovat smlouvy. Síla modelů však spočívá v jejich vzájemném propojení mezi sebou a s dalšími aplikacemi. Toto propojení modelů umělé inteligence nejenže přináší revoluci ve způsobu našeho života a práce, ale zároveň připravuje půdu pro novou éru spolupráce mezi člověkem a strojem.
Vzájemné propojení modelů a také propojení lidí a umělé inteligence. Budoucnost je v přizpůsobování všeobecných modelů na specifičtější úlohy, propojování modelů mezi sebou. Tím vytvářejme svět, ve kterém technologie zlepšují náš život způsobem, o kterém jsme si nikdy nemysleli, že je možný. A právě o tom bude i další díl seriálu.
Juraj Bednár
Jsem cypherpunker, mám rád svobodu, soukromí, peer to peer technologie a terminálová okna. Zkoumám chaotický svět, volatilitu a nejistotu, bojuji proti entropii - zakládám firmy a neziskové projekty, dělám kurzy a píšu knihy. Jsem spoluzakladatel Paralelní Polis, hackerspace Progressbar a bug bounty platformy Hacktrophy. Vystudoval jsem obor umělá inteligence a ta se vrátila tak, jako bych o ni nikdy ani neslyšel. O všech těchto zkušenostech píšu blog.