Umělá inteligence: možnosti a způsoby využití

Zobrazit katalog
Aktualizováno • Autor: Juraj Bednár

Umělá inteligence má širokou škálu využití. Od rozpoznávání rukopisu, manipulace s obrázky a texty přes samořídící auta, rozhodování o bankovních půjčkách až po navigaci ve vesmíru. Podíváme se na některá využití, i když byste těžko hledali oblast informatiky, které se umělá inteligence alespoň trochu nedotkla.

Umělá inteligence a historie

Umělá inteligence: možnosti a způsoby využití – OBSAH

  1. Rozpoznávání hlasu
  2. Generování obrázků
  3. Jazykové modely
  4. Samořídící auta
  5. Závěr – „punchline“

Rozpoznávání hlasu

Automatické generování titulků na YouTube nebo asistenti v mobilních telefonech (Google Assistant, Apple Siri) jsou příklady, kde dochází k rozpoznávání hlasu. Ještě dříve se tato technologie používala ve špionážních systémech, kdy nebylo možné poslouchat hodiny odposlechnutých telefonních hovorů a bylo nutné vyhledávat pomocí klíčových slov. Dnešní open-source modely, jako je například Whisper od OpenAI (který je na rozdíl od ChatGPT skutečně „otevřený“ – můžete jej spustit lokálně), umožňují rozpoznávání řeči v mnoha jazycích a lze je využít k sumarizaci schůzek, komunikaci s asistenty, titulkování videí nebo překladu mluveného slova do češtiny.

Pokud jej chcete spustit, můžete použít oficiální implementaci nebo ještě lépe verzi whisper.cpp optimalizovanou pro procesor.

Rozpoznávání hlasu pomocí whisper.cpp.

V článku jsem začal s rozpoznáváním hlasu hlavně proto, že je na něm snadno vidět, jak můžeme propojit různé modely umělé inteligence. Pokud chceme vytvořit hlasového asistenta, musíme rozpoznat, co uživatel říká, pak to můžeme propojit s jazykovým modelem a odpovědí může být opět hlas, nebo dokonce vygenerovaný program, který něco udělá (například rozsvítí světla). Velkou výhodou open-source modelů je právě možnost jejich propojení a vytvoření jedinečných aplikací.

Generování obrázků

Při generování obrázků z textu máme širokou škálu možností. Asi nejoblíbenější je placená online služba MidJourney. Ta má poněkud zvláštní ovládání pomocí chatovací aplikace Discord:

Text to image pomocí Midjourney.

Máme však také možnost nainstalovat místní model stabilní difuze, který běží na našem vlastním zařízení. Nejlépe bude fungovat na nejnovějších počítačích Mac s procesorem Apple Silicon, ale můžete jej spustit i na jiných zařízeních. Osobně používám InvokeAI, i když existuje několik možností.

Invoke.ai využívá Stable Diffusion.

Kromě jednoduchého generování obrázků umožňuje také rozšiřování obrázku (outpainting), dokreslování do existujícího obrázku, zvětšování rozlišení, korekci obličeje a mnoho dalších funkcí.

Inpainting aneb domýšlení stávajícího obrázku.

Generativní obrazkové modely však již nejsou doménou samostatných nástrojů – jsou doslova všude. Pokud používáte webový editor obrázků Canva nebo Adobe Photoshop, máte možnost vytvářet obrázky, nebo je dokonce používat při úpravě fotografií.

Umělá inteligence
Generování obrázků v Adobe Photoshope.

Trénování obrázkových modelů

Výhodou otevřených obrazových modelů, jako je Stable Diffusion, je možnost jejich přeškolení pro vaše potřeby. Ať už jde o „firemní styl“ (například použití firemních barev), konkrétní použití (portréty, manga, případně váš vlastní umělecký styl) nebo zlepšení generování konkrétních objektů, drobným dotrénováním základního modelu můžete dokázat zázraky.

Služba CivitAI umožňuje sdílet dotrénované modely, takže pokud máte konkrétní potřebu, můžete si stáhnout upravené míry.

Umělá inteligence
CivitAi obsahuje velké množství vyladěných, dotrénovaných modelů použitelných pro různé specifické úlohy.

Trénování modelů však může mít i jiný účel – můžete vytvořit model, který může například přímo renderovat vás, vaši rodinu nebo kolegy. Potřebujete se vyfotit ve Versailleském paláci nebo na mezinárodní vesmírné stanici? Žádný problém. Nebo jen chcete vypadat o něco hezčí než ve skutečnosti...

Umělá inteligence
Obrázek: AI generovaný obrázek podobný mně.

Jazykové modely

Jádrem současné revoluce v oblasti umělé inteligence jsou však jazykové modely. Asi každý už slyšel o ChatGPT, což je nástroj, se kterým můžete mluvit. Novější verze (GPT-4) mají plug-in moduly a snadný přístup na web, kde mohou vyhledávat aktuální informace, které nejsou v trénovací množině.

Pokud se podíváme na většinu „AI startupů“, jedná se velmi často jen o zabalené volání ChatGPT. Podobně funguje například umělá inteligence Microsoftu (Bing), integrace do nástrojů, jako je Notion apod. Jak říká známý mem ze seriálu Scooby Doo:

Umělá inteligence
Obrázek: Služba CivitAi obsahuje velké množství vyladěných, dotrénovaných modelů použitelných na různé specifické úlohy.

Z mého pohledu jsou však zajímavější open-source jazykové modely, které můžeme spouštět na vlastním hardwaru, trénovat a vylepšovat je. A i s nimi se roztrhl pytel.

Umělá inteligence
Obrázek: Vývoj základních jazykových modelů podle LLM Practical Guide.

Způsoby, jakými je můžete spouštět, do značné míry závisí na vašem hardwaru a operačním systému. Jazykový model se skládá z vah, popisu architektury (jak jsou neurony propojeny) a kódu, který umožňuje odvozování.

Výběr kódu závisí na tom, co chcete dělat, a na tom, zda máte grafickou kartu. Většina modelů je nejprve vyvinuta pro grafické karty NVidia, s využitím frameworku CUDA a nejčastěji pomocí nástroje PyTorch. Většina programátorů však použije knihovnu vyšší úrovně, například transformers od Hugging Face, kde stačí na několika řádcích odkázat na model z databáze Hugging Face a spustit inferenci – transformers knihovna se postará o stažení vah, vytvoření architektury pomocí volání knihovny PyTorch.

Pokud chcete hlouběji pochopit, jak modely fungují, doporučuji podívat se na knihovnu tinygrad, která se snaží být co nejjednodušší a nejkratší. Jejím autorem je George Hotz (geohot). Něco málo si o něm také povíme u samořiditelných aut.

Pokud máte zařízení s čipy Apple M1, mohl by vás zajímat balíček llama.cpp.

Pokud jste spíše uživatel než programátor, existuje spousta nástrojů, které se starají o front-end (a případné API). Jedním z nejznámějších je program gpt4all:

Príklad použitia gpt4all s 13B kvantizovaným modelom založenom na llama na MacBook Pro M2 - v natívnej rýchlosti.

Nástroj gpt4all dokonce implementuje stejné API jako ChatGPT/OpenAI, takže můžete použít jakýkoli software, který používá API OpenAI, ale s lokálním modelem.

Jak vybrat správný model? Předpokládám, že v době, kdy čtete tyto řádky, je již jakákoli odpověď zastaralá, a proto vás odkáži na „hitparádu modelů“ společnosti Hugging Face. Jednou z velmi zajímavých odnoží je model Llama vytvořený společností Meta. Nevýhodou je licencování, které je nejasné, ale určitě je určeno pouze pro nekomerční použití. Proč právě „odnož“? Základní jazykový model prostě vezme text a snaží se vygenerovat jeho pokračování. Jedná se tedy o čistý jazykový model, který není vyladěn pro sledování instrukcí nebo konverzaci. Vyladění model poměrně dost ovlivňuje. Dlouho jsem například používal model vicuna-13B-uncensored, který je natrénovaný na konverzaci, ale snaží se dávat odpovědi místo moralizujících pouček, které znáte z ChatGPT. Když se ho zeptáte na bitcoin, odpoví vám, místo aby vás varoval, jak jsou kryptoměny strašně volatilní a nebezpečné.

Mezitím například vznikl model falcon, který je použitelný i pro komerční využití a různé týmy pracují na jeho přeškolení pro různé úlohy. Společnost StabilityAI pracuje na řadě modelů StableLM. Vývoj je opravdu rychlý.

Samořídicí auta

O samořiditelných automobilech se mluví už léta. Zatím však nemáme komerčně dostupné auto, které by se dokázalo samo pohybovat po jakékoli silnici. Jedná se však o velmi důležitou oblast umělé inteligence. Lidští řidiči dělají chyby, mají pomalé reakce, ztrácejí pozornost atd. Přechodem na samořízená auta bychom mohli zachránit velké množství životů..

Umělá inteligence
V polovině cesty sní o tom, jak by mohlo vypadat auto, které nepotřebuje řidiče.

Moderní automobily jsou vybaveny velkým množstvím elektroniky. I ty nejběžnější vozy mají senzory a kamery, které pomáhají při parkování, adaptivní tempomat (zpomalí, pokud zjistí, že před vozem jedou jiní účastníci silničního provozu pomaleji). Některá auta mají dokonce funkci asistenta jízdy v jízdním pruhu, který jemně natáčí volantem, aby udržel auto (většinou na dálnici) v jeho jízdním pruhu.

Samořízení má několik úrovní. Výše zmíněné nástroje představují první úroveň – auto pomáhá člověku-řidiči s některými funkcemi. Druhou úrovní je částečná automatizace, kdy automobil propojuje automatizaci řízení (volant) a řízení rychlosti. Takový vůz již v určitých situacích prakticky řídí sám, ale řidič musí být pozorný a měl by být schopen kdykoli převzít řízení. Ovládá také některé aspekty řízení (rozhodování o změně jízdního pruhu atd.). Třetí úrovní je podmíněná automatizace – řidič musí být stále schopen převzít řízení, ale vůz se prakticky řídí sám. Na čtvrté úrovni už auto za určitých okolností se může řídit samo – příkladem jsou taxíky Waymo ve Phoenixu v Arizoně. Pátou úrovní je úplné samořízení, což je úroveň, které zatím žádný projekt nedosáhl.

Tesla je pravděpodobně nejdále v komerčním využití a popularizaci samořízených vozidel. Tým pro vývoj umělé inteligence pro samořídící automobily vybudoval ve společnosti Tesla Andrey Karpathy, od kterého se také můžete dozvědět o tom, jak umělá inteligence funguje, o jazykových modelech a o všem možném dalším.

Tesla udržuje vůz v jízdním pruhu, detekuje překážky a ve vyšších verzích (za příplatek) dokáže přejíždět mezi jízdními pruhy.

Tesla však není jedinou možností, jak si pořídit samořídící vůz. Podívejme se, jak daleko je open-source konkurence. Ano, existuje – projekt comma.ai a jejich openpilot umožňují ve většině aut, která mají asistenta pro jízdu v pruzích a adaptivní tempomat, udělat druhou úroveň samořídících schopností – velmi podobnou jako Basic Autopilot. V závislosti na autě vás comma dokáže udržet v jízdním pruhu, brzdit před překážkami a přejíždět mezi jízdními pruhy. Mottem tohoto projektu je, „aby řízení bylo pohodové“.

Umělá inteligence
Autopilot comma three od comma.ai řídí sám i v dešti. Obrázek Nelson Chen (Crazysim) cez Wikimedia Commons.

Autorem tohoto projektu je George Hotz, známý také jako geohot. Proslavil se hackováním zařízení Apple (především iPhonů). V srpnu 2007 se mu jako prvnímu podařilo odstranit blokování iPhonu u operátora. V té době mu bylo sedmnáct let. V říjnu 2009 vydal nástroj s názvem "blackra1n", který byl kompatibilní se všemi iPhony a iPody Touch se systémem iOS 3.1.2 a který umožňoval tzv. jailbreaking. V současné době (podobně jako u Andreje Karpathyho) lze na internetu najít spoustu videí, kde velmi prakticky vysvětluje techniky umělé inteligence (na rozdíl od Andreje Karpathyho při tom většinou jí a místo slajdů a připravené prezentace to dělá napoprvé, což je zajímavý pohled na to, jak velmi šikovný programátor přemýšlí a jak řeší problémy).

Pokud vás překvapilo, že velké jazykové nebo obrazové modely mají relativně kvalitní open-source alternativy, v případě samořízení je překvapen téměř každý – většina lidí si myslí, že je to úkol tak obtížný, že ho zvládnou jen obrovské týmy s obrovským výpočetním výkonem. Na plnohodnotné samořízení páté úrovně si počkáme i kvůli regulátorům. O dalším vývoji umělé inteligence v budoucnosti a možném použití budeme hovořit v příštím – a posledním – díle seriálu.

Závěr – „punchline“

Původně jsem tento text chtěl ukončit tady, ale editor mě správně upozornil, že by bylo dobré ho ukončit nějakou „punchline“, takže co z toho vyplývá? V teplých letních dnech mi docházela inspirace, a tak jsem si pomohl modelem Hermes odvozeným z Vicuna.

Umělá inteligence
Pomocí umělé inteligence k závěru článku…

Bohužel model funguje dobře hlavně v angličtině, takže jsem závěr musel preložit do slovenštiny, která je zdrojovým jazykem tohoto článku, pomocí modelu DeepL.

Umělá inteligence
Samozrějmě ve správném jazyce.

A proč to tu tak podrobně popisuji? Protože podle mě najzajímavější, co se bude dít, je propojování modelů. Jazykové modely, obrázkové modely a podobné jsou šikovné, ale jejich propojení bude dávat ješte lepší výsledky. Jazykový model neumí počítat rovnice, ale Wolfram Alpha to umí. Vizuální model řízení auta umí auto udržet v jízdním pruhu, ale navigační software ví, ve kterém pruhu mám být podle toho, kam chci jet. Rozpoznávání hlasu ví, co říkáte, ale až jazykový model ví, co tím chcete říct.

Jaká je tedy punchline?

Jak vývoj těchto modelů umělé inteligence pokračuje, začínáme je stále více propojovat. Představte si budoucnost, ve které spolu komunikují samořiditelná auta, aby se vyhnula nehodám, systémy rozpoznávání řeči plynule překládají jazyky v reálném čase (babelfish) a algoritmy rozpoznávání obrazu spolupracují při identifikaci objektů s bezkonkurenční přesností. Jazykové modely pomáhají autorům článků na Alza.cz psát závěry, programátorům efektivněji psát kód, právníkům sepisovat smlouvy. Síla modelů však spočívá v jejich vzájemném propojení mezi sebou a s dalšími aplikacemi. Toto propojení modelů umělé inteligence nejenže přináší revoluci ve způsobu našeho života a práce, ale zároveň připravuje půdu pro novou éru spolupráce mezi člověkem a strojem.

Umělá inteligence
Vzájemné propojení modelů a také propojení lidí a umělé inteligence („a humanoid robot and a human holding hands in a futuristic car's back seat that looks like a luxurious couch. the car has no driver, only intelligent computer that is driving. 8-bit amiga retro style pixelated graphics“).

Vzájemné propojení modelů a také propojení lidí a umělé inteligence. Budoucnost je v přizpůsobování všeobecných modelů na specifičtější úlohy, propojování modelů mezi sebou. Tím vytvářejme svět, ve kterém technologie zlepšují náš život způsobem, o kterém jsme si nikdy nemysleli, že je možný. A právě o tom bude i další díl seriálu.

Juraj Bednar

Juraj Bednár

Jsem cypherpunker, mám rád svobodu, soukromí, peer to peer technologie a terminálová okna. Zkoumám chaotický svět, volatilitu a nejistotu, bojuji proti entropii - zakládám firmy a neziskové projekty, dělám kurzy a píšu knihy. Jsem spoluzakladatel Paralelní Polis, hackerspace Progressbar a bug bounty platformy Hacktrophy. Vystudoval jsem obor umělá inteligence a ta se vrátila tak, jako bych o ni nikdy ani neslyšel. O všech těchto zkušenostech píšu blog.

4,6 268×
Google Nest Mini 2. generace Charcoal
Hlasový asistent Google Assistant - v angličtině, němčině, podpora Android a iOS, připojení přes WiFi 2,4 GHz, WiFi 5 GHz a bluetooth, otevřený systém, ovládání domácnosti, 3 mikrofony ke snímání okolního zvuku, podporuje Spotify, YouTube Music a Pandora
1 890,-
Skladem > 5 ks
Do půlnoci objednáš, ráno v AlzaBoxu máš.
Info
Objednací kód: GOOGH51
BIG DATA a umělá inteligence pro manažery
Elektronická kniha - autor Ing. Barbora Štětinová MBA, 168 stran, česky
329,-
Ihned ke čtení
Objednací kód: EK40191
Supervelmoci umělé inteligence
Elektronická kniha - autor Kai-Fu Lee, 292 stran, česky
278,-
Ihned ke čtení
Objednací kód: EK33556
4,7 53×
Google Nest Audio Chalk
Hlasový asistent Google Assistant - v angličtině, podpora Android a iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, ovládání domácnosti, 3 mikrofony ke snímání okolního zvuku, podporuje Spotify, basový a výškový reproduktor
2 990,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 12.09.2024
Objednací kód: GOOGnestA1
Umělá inteligence jako technologická výzva autorskému právu
Kniha - autor Jan Zibner, 192 stran, česky, brožovaná bez přebalu lesklá
581,-
Skladem > 5 ks u dodavatele
Objednací kód: FKP0390884
Umělá inteligence & právo
Kniha - autor Linda Kolaříková; Filip Horák, 216 stran, česky, brožovaná bez přebalu lesklá
Cenová bomba
364,- Ušetříte 51,-
Skladem 1 ks u dodavatele
Objednací kód: FKP0334813
4,8 730×
Apple HomePod mini vesmírně šedá - EU
Hlasový asistent Apple HomeKit (Siri) - kompatibilní aplikace Apple Home, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, podporuje Apple Music
2 890,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 19.09.2024
Objednací kód: JA041
4,8 730×
Apple HomePod mini bílý - EU
Hlasový asistent Apple HomeKit (Siri) - v angličtině, kompatibilní aplikace Apple Home, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, kamera, 2 mikrofony ke snímání okolního zvuku, podporuje Apple Music, basový reproduktor
2 890,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 19.09.2024
Objednací kód: JA041a1
4,8 92×
Apple HomePod (2nd generation) White
Hlasový asistent Apple HomeKit (Siri) - v angličtině, kompatibilní s aplikacemi výrobce, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, vzdálený přístup, 4 mikrofony ke snímání okolního zvuku, podporuje Apple Music, YouTube Music a Pandora, výškový reproduktor
8 999,-
Skladem > 5 ks
Do půlnoci objednáš, ráno v AlzaBoxu máš.
Info
Objednací kód: apple23_01
4,8 730×
Apple HomePod mini modrý - EU
Hlasový asistent Apple HomeKit (Siri) - kompatibilní aplikace Apple Home, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, podporuje Apple Music
2 890,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 19.09.2024
Objednací kód: JA042
4,8 730×
Apple HomePod mini žlutý - EU
Hlasový asistent Apple HomeKit (Siri) - kompatibilní aplikace Apple Home, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, podporuje Apple Music
2 890,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 19.09.2024
Objednací kód: JA043
4,6 127×
Google Nest Hub (2nd gen) Chalk
Hlasový asistent Google Assistant - v angličtině, podpora Android a iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, ovládání osvětlení, domácnosti, sledování počasí, displej, 3 mikrofony ke snímání okolního zvuku, podporuje Netflix, YouTube, Spotify, Apple Music a YouTube Music, uhlopříčka displeje 7", dotykové ovládání
2 790,-
Skladem > 5 ks
Do půlnoci objednáš, ráno v AlzaBoxu máš.
Info
Objednací kód: GOOGH45
4,6 268×
Google Nest Mini 2. generace Chalk
Hlasový asistent Google Assistant - v angličtině, němčině, podpora Android a iOS, připojení přes WiFi 2,4 GHz, WiFi 5 GHz a bluetooth, otevřený systém, ovládání domácnosti, 3 mikrofony ke snímání okolního zvuku, podporuje Spotify, YouTube Music a Pandora
1 890,-
Skladem > 5 ks
Do půlnoci objednáš, ráno v AlzaBoxu máš.
Info
Objednací kód: GOOGH52
4,8 730×
Apple HomePod mini oranžový - EU
Hlasový asistent Apple HomeKit (Siri) - kompatibilní aplikace Apple Home, podpora iOS, připojení přes WiFi 2,4 GHz a bluetooth, otevřený systém, fungování samostatně, ovládání domácnosti, podporuje Apple Music
2 890,-
Na objednávku – termín upřesníme > 5 ks
Očekáváme 19.09.2024
Objednací kód: JA044
Vytisknout
P-DC1-WEB13
Zavoláme Vám a odborně poradíme
+420 225 340 111
Dotaz na objednávku
Dotaz na zboží
Prosím zadejte svůj telefon:
Zavolejte mi
Na vašem soukromí nám záleží My, společnost Alza.cz a.s., IČO 27082440 používáme soubory cookies k zajištění funkčnosti webu a s Vaším souhlasem i mj. k personalizaci obsahu našich webových stránek. Kliknutím na tlačítko „Rozumím“ souhlasíte s využívaním cookies a předáním údajů o chování na webu pro zobrazení cílené reklamy na sociálních sítích a reklamních sítích na dalších webech.
Více informací Méně informací