MS hokej Pampers

Umělá inteligence: možnosti a způsoby využití

Catalogue
Aktualizováno • Autor: Juraj Bednár

Umělá inteligence má širokou škálu využití. Od rozpoznávání rukopisu, manipulace s obrázky a texty přes samořídící auta, rozhodování o bankovních půjčkách až po navigaci ve vesmíru. Podíváme se na některá využití, i když byste těžko hledali oblast informatiky, které se umělá inteligence alespoň trochu nedotkla.

Umělá inteligence a historie

Umělá inteligence: možnosti a způsoby využití – OBSAH

  1. Rozpoznávání hlasu
  2. Generování obrázků
  3. Jazykové modely
  4. Samořídící auta
  5. Závěr – „punchline“

Rozpoznávání hlasu

Automatické generování titulků na YouTube nebo asistenti v mobilních telefonech (Google Assistant, Apple Siri) jsou příklady, kde dochází k rozpoznávání hlasu. Ještě dříve se tato technologie používala ve špionážních systémech, kdy nebylo možné poslouchat hodiny odposlechnutých telefonních hovorů a bylo nutné vyhledávat pomocí klíčových slov. Dnešní open-source modely, jako je například Whisper od OpenAI (který je na rozdíl od ChatGPT skutečně „otevřený“ – můžete jej spustit lokálně), umožňují rozpoznávání řeči v mnoha jazycích a lze je využít k sumarizaci schůzek, komunikaci s asistenty, titulkování videí nebo překladu mluveného slova do češtiny.

Pokud jej chcete spustit, můžete použít oficiální implementaci nebo ještě lépe verzi whisper.cpp optimalizovanou pro procesor.

Rozpoznávání hlasu pomocí whisper.cpp.

V článku jsem začal s rozpoznáváním hlasu hlavně proto, že je na něm snadno vidět, jak můžeme propojit různé modely umělé inteligence. Pokud chceme vytvořit hlasového asistenta, musíme rozpoznat, co uživatel říká, pak to můžeme propojit s jazykovým modelem a odpovědí může být opět hlas, nebo dokonce vygenerovaný program, který něco udělá (například rozsvítí světla). Velkou výhodou open-source modelů je právě možnost jejich propojení a vytvoření jedinečných aplikací.

Generování obrázků

Při generování obrázků z textu máme širokou škálu možností. Asi nejoblíbenější je placená online služba MidJourney. Ta má poněkud zvláštní ovládání pomocí chatovací aplikace Discord:

Text to image pomocí Midjourney.

Máme však také možnost nainstalovat místní model stabilní difuze, který běží na našem vlastním zařízení. Nejlépe bude fungovat na nejnovějších počítačích Mac s procesorem Apple Silicon, ale můžete jej spustit i na jiných zařízeních. Osobně používám InvokeAI, i když existuje několik možností.

Invoke.ai využívá Stable Diffusion.

Kromě jednoduchého generování obrázků umožňuje také rozšiřování obrázku (outpainting), dokreslování do existujícího obrázku, zvětšování rozlišení, korekci obličeje a mnoho dalších funkcí.

Inpainting aneb domýšlení stávajícího obrázku.

Generativní obrazkové modely však již nejsou doménou samostatných nástrojů – jsou doslova všude. Pokud používáte webový editor obrázků Canva nebo Adobe Photoshop, máte možnost vytvářet obrázky, nebo je dokonce používat při úpravě fotografií.

Umělá inteligence
Generování obrázků v Adobe Photoshope.

Trénování obrázkových modelů

Výhodou otevřených obrazových modelů, jako je Stable Diffusion, je možnost jejich přeškolení pro vaše potřeby. Ať už jde o „firemní styl“ (například použití firemních barev), konkrétní použití (portréty, manga, případně váš vlastní umělecký styl) nebo zlepšení generování konkrétních objektů, drobným dotrénováním základního modelu můžete dokázat zázraky.

Služba CivitAI umožňuje sdílet dotrénované modely, takže pokud máte konkrétní potřebu, můžete si stáhnout upravené míry.

Umělá inteligence
CivitAi obsahuje velké množství vyladěných, dotrénovaných modelů použitelných pro různé specifické úlohy.

Trénování modelů však může mít i jiný účel – můžete vytvořit model, který může například přímo renderovat vás, vaši rodinu nebo kolegy. Potřebujete se vyfotit ve Versailleském paláci nebo na mezinárodní vesmírné stanici? Žádný problém. Nebo jen chcete vypadat o něco hezčí než ve skutečnosti...

Umělá inteligence
Obrázek: AI generovaný obrázek podobný mně.

Jazykové modely

Jádrem současné revoluce v oblasti umělé inteligence jsou však jazykové modely. Asi každý už slyšel o ChatGPT, což je nástroj, se kterým můžete mluvit. Novější verze (GPT-4) mají plug-in moduly a snadný přístup na web, kde mohou vyhledávat aktuální informace, které nejsou v trénovací množině.

Pokud se podíváme na většinu „AI startupů“, jedná se velmi často jen o zabalené volání ChatGPT. Podobně funguje například umělá inteligence Microsoftu (Bing), integrace do nástrojů, jako je Notion apod. Jak říká známý mem ze seriálu Scooby Doo:

Umělá inteligence
Obrázek: Služba CivitAi obsahuje velké množství vyladěných, dotrénovaných modelů použitelných na různé specifické úlohy.

Z mého pohledu jsou však zajímavější open-source jazykové modely, které můžeme spouštět na vlastním hardwaru, trénovat a vylepšovat je. A i s nimi se roztrhl pytel.

Umělá inteligence
Obrázek: Vývoj základních jazykových modelů podle LLM Practical Guide.

Způsoby, jakými je můžete spouštět, do značné míry závisí na vašem hardwaru a operačním systému. Jazykový model se skládá z vah, popisu architektury (jak jsou neurony propojeny) a kódu, který umožňuje odvozování.

Výběr kódu závisí na tom, co chcete dělat, a na tom, zda máte grafickou kartu. Většina modelů je nejprve vyvinuta pro grafické karty NVidia, s využitím frameworku CUDA a nejčastěji pomocí nástroje PyTorch. Většina programátorů však použije knihovnu vyšší úrovně, například transformers od Hugging Face, kde stačí na několika řádcích odkázat na model z databáze Hugging Face a spustit inferenci – transformers knihovna se postará o stažení vah, vytvoření architektury pomocí volání knihovny PyTorch.

Pokud chcete hlouběji pochopit, jak modely fungují, doporučuji podívat se na knihovnu tinygrad, která se snaží být co nejjednodušší a nejkratší. Jejím autorem je George Hotz (geohot). Něco málo si o něm také povíme u samořiditelných aut.

Pokud máte zařízení s čipy Apple M1, mohl by vás zajímat balíček llama.cpp.

Pokud jste spíše uživatel než programátor, existuje spousta nástrojů, které se starají o front-end (a případné API). Jedním z nejznámějších je program gpt4all:

Príklad použitia gpt4all s 13B kvantizovaným modelom založenom na llama na MacBook Pro M2 - v natívnej rýchlosti.

Nástroj gpt4all dokonce implementuje stejné API jako ChatGPT/OpenAI, takže můžete použít jakýkoli software, který používá API OpenAI, ale s lokálním modelem.

Jak vybrat správný model? Předpokládám, že v době, kdy čtete tyto řádky, je již jakákoli odpověď zastaralá, a proto vás odkáži na „hitparádu modelů“ společnosti Hugging Face. Jednou z velmi zajímavých odnoží je model Llama vytvořený společností Meta. Nevýhodou je licencování, které je nejasné, ale určitě je určeno pouze pro nekomerční použití. Proč právě „odnož“? Základní jazykový model prostě vezme text a snaží se vygenerovat jeho pokračování. Jedná se tedy o čistý jazykový model, který není vyladěn pro sledování instrukcí nebo konverzaci. Vyladění model poměrně dost ovlivňuje. Dlouho jsem například používal model vicuna-13B-uncensored, který je natrénovaný na konverzaci, ale snaží se dávat odpovědi místo moralizujících pouček, které znáte z ChatGPT. Když se ho zeptáte na bitcoin, odpoví vám, místo aby vás varoval, jak jsou kryptoměny strašně volatilní a nebezpečné.

Mezitím například vznikl model falcon, který je použitelný i pro komerční využití a různé týmy pracují na jeho přeškolení pro různé úlohy. Společnost StabilityAI pracuje na řadě modelů StableLM. Vývoj je opravdu rychlý.

Samořídicí auta

O samořiditelných automobilech se mluví už léta. Zatím však nemáme komerčně dostupné auto, které by se dokázalo samo pohybovat po jakékoli silnici. Jedná se však o velmi důležitou oblast umělé inteligence. Lidští řidiči dělají chyby, mají pomalé reakce, ztrácejí pozornost atd. Přechodem na samořízená auta bychom mohli zachránit velké množství životů..

Umělá inteligence
V polovině cesty sní o tom, jak by mohlo vypadat auto, které nepotřebuje řidiče.

Moderní automobily jsou vybaveny velkým množstvím elektroniky. I ty nejběžnější vozy mají senzory a kamery, které pomáhají při parkování, adaptivní tempomat (zpomalí, pokud zjistí, že před vozem jedou jiní účastníci silničního provozu pomaleji). Některá auta mají dokonce funkci asistenta jízdy v jízdním pruhu, který jemně natáčí volantem, aby udržel auto (většinou na dálnici) v jeho jízdním pruhu.

Samořízení má několik úrovní. Výše zmíněné nástroje představují první úroveň – auto pomáhá člověku-řidiči s některými funkcemi. Druhou úrovní je částečná automatizace, kdy automobil propojuje automatizaci řízení (volant) a řízení rychlosti. Takový vůz již v určitých situacích prakticky řídí sám, ale řidič musí být pozorný a měl by být schopen kdykoli převzít řízení. Ovládá také některé aspekty řízení (rozhodování o změně jízdního pruhu atd.). Třetí úrovní je podmíněná automatizace – řidič musí být stále schopen převzít řízení, ale vůz se prakticky řídí sám. Na čtvrté úrovni už auto za určitých okolností se může řídit samo – příkladem jsou taxíky Waymo ve Phoenixu v Arizoně. Pátou úrovní je úplné samořízení, což je úroveň, které zatím žádný projekt nedosáhl.

Tesla je pravděpodobně nejdále v komerčním využití a popularizaci samořízených vozidel. Tým pro vývoj umělé inteligence pro samořídící automobily vybudoval ve společnosti Tesla Andrey Karpathy, od kterého se také můžete dozvědět o tom, jak umělá inteligence funguje, o jazykových modelech a o všem možném dalším.

Tesla udržuje vůz v jízdním pruhu, detekuje překážky a ve vyšších verzích (za příplatek) dokáže přejíždět mezi jízdními pruhy.

Tesla však není jedinou možností, jak si pořídit samořídící vůz. Podívejme se, jak daleko je open-source konkurence. Ano, existuje – projekt comma.ai a jejich openpilot umožňují ve většině aut, která mají asistenta pro jízdu v pruzích a adaptivní tempomat, udělat druhou úroveň samořídících schopností – velmi podobnou jako Basic Autopilot. V závislosti na autě vás comma dokáže udržet v jízdním pruhu, brzdit před překážkami a přejíždět mezi jízdními pruhy. Mottem tohoto projektu je, „aby řízení bylo pohodové“.

Umělá inteligence
Autopilot comma three od comma.ai řídí sám i v dešti. Obrázek Nelson Chen (Crazysim) cez Wikimedia Commons.

Autorem tohoto projektu je George Hotz, známý také jako geohot. Proslavil se hackováním zařízení Apple (především iPhonů). V srpnu 2007 se mu jako prvnímu podařilo odstranit blokování iPhonu u operátora. V té době mu bylo sedmnáct let. V říjnu 2009 vydal nástroj s názvem "blackra1n", který byl kompatibilní se všemi iPhony a iPody Touch se systémem iOS 3.1.2 a který umožňoval tzv. jailbreaking. V současné době (podobně jako u Andreje Karpathyho) lze na internetu najít spoustu videí, kde velmi prakticky vysvětluje techniky umělé inteligence (na rozdíl od Andreje Karpathyho při tom většinou jí a místo slajdů a připravené prezentace to dělá napoprvé, což je zajímavý pohled na to, jak velmi šikovný programátor přemýšlí a jak řeší problémy).

Pokud vás překvapilo, že velké jazykové nebo obrazové modely mají relativně kvalitní open-source alternativy, v případě samořízení je překvapen téměř každý – většina lidí si myslí, že je to úkol tak obtížný, že ho zvládnou jen obrovské týmy s obrovským výpočetním výkonem. Na plnohodnotné samořízení páté úrovně si počkáme i kvůli regulátorům. O dalším vývoji umělé inteligence v budoucnosti a možném použití budeme hovořit v příštím – a posledním – díle seriálu.

Závěr – „punchline“

Původně jsem tento text chtěl ukončit tady, ale editor mě správně upozornil, že by bylo dobré ho ukončit nějakou „punchline“, takže co z toho vyplývá? V teplých letních dnech mi docházela inspirace, a tak jsem si pomohl modelem Hermes odvozeným z Vicuna.

Umělá inteligence
Pomocí umělé inteligence k závěru článku…

Bohužel model funguje dobře hlavně v angličtině, takže jsem závěr musel preložit do slovenštiny, která je zdrojovým jazykem tohoto článku, pomocí modelu DeepL.

Umělá inteligence
Samozrějmě ve správném jazyce.

A proč to tu tak podrobně popisuji? Protože podle mě najzajímavější, co se bude dít, je propojování modelů. Jazykové modely, obrázkové modely a podobné jsou šikovné, ale jejich propojení bude dávat ješte lepší výsledky. Jazykový model neumí počítat rovnice, ale Wolfram Alpha to umí. Vizuální model řízení auta umí auto udržet v jízdním pruhu, ale navigační software ví, ve kterém pruhu mám být podle toho, kam chci jet. Rozpoznávání hlasu ví, co říkáte, ale až jazykový model ví, co tím chcete říct.

Jaká je tedy punchline?

Jak vývoj těchto modelů umělé inteligence pokračuje, začínáme je stále více propojovat. Představte si budoucnost, ve které spolu komunikují samořiditelná auta, aby se vyhnula nehodám, systémy rozpoznávání řeči plynule překládají jazyky v reálném čase (babelfish) a algoritmy rozpoznávání obrazu spolupracují při identifikaci objektů s bezkonkurenční přesností. Jazykové modely pomáhají autorům článků na Alza.cz psát závěry, programátorům efektivněji psát kód, právníkům sepisovat smlouvy. Síla modelů však spočívá v jejich vzájemném propojení mezi sebou a s dalšími aplikacemi. Toto propojení modelů umělé inteligence nejenže přináší revoluci ve způsobu našeho života a práce, ale zároveň připravuje půdu pro novou éru spolupráce mezi člověkem a strojem.

Umělá inteligence
Vzájemné propojení modelů a také propojení lidí a umělé inteligence („a humanoid robot and a human holding hands in a futuristic car's back seat that looks like a luxurious couch. the car has no driver, only intelligent computer that is driving. 8-bit amiga retro style pixelated graphics“).

Vzájemné propojení modelů a také propojení lidí a umělé inteligence. Budoucnost je v přizpůsobování všeobecných modelů na specifičtější úlohy, propojování modelů mezi sebou. Tím vytvářejme svět, ve kterém technologie zlepšují náš život způsobem, o kterém jsme si nikdy nemysleli, že je možný. A právě o tom bude i další díl seriálu.

Juraj Bednar

Juraj Bednár

Jsem cypherpunker, mám rád svobodu, soukromí, peer to peer technologie a terminálová okna. Zkoumám chaotický svět, volatilitu a nejistotu, bojuji proti entropii - zakládám firmy a neziskové projekty, dělám kurzy a píšu knihy. Jsem spoluzakladatel Paralelní Polis, hackerspace Progressbar a bug bounty platformy Hacktrophy. Vystudoval jsem obor umělá inteligence a ta se vrátila tak, jako bych o ni nikdy ani neslyšel. O všech těchto zkušenostech píšu blog.

4.6 250×
Google Nest Mini 2nd Generation - Charcoal
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, EU distribution, language used: English and German.
+Gift Speaker Mount AlzaErgo with a value of 139,-
Amazing Deal
999,- Save 191,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGH51
329,-
Buy
Available for reading
Order Code: EK40191
278,-
Buy
Available for reading
Order Code: EK33556
4.7 18×
Google Nest Audio Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, language used: English.
2 199,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGnestA1
Great price
577,- Save 42,-
Buy
In stock 1 pcs at the supplier's
Order Code: FKP0390884
4.8 681×
Apple HomePod Mini Cosmic Grey
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, language used: English and German. - Siri for Apple HomeKit, OS supported: iOS 2,4 GHz WiFi Connection, controls your smart home and plays music, Apple Music support, language used: English, German and In Japanese.
2 890,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA041
4.8 681×
Apple HomePod Mini, White
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, 2 ambient sound microphones, Camera, EU distribution, language used: English and German. - Siri for Apple HomeKit, OS supported: iOS 2,4 GHz WiFi Connection, controls your smart home and plays music, Apple Music support, language used: English, German and In Japanese.
2 890,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA041a1
5.0 10×
Apple HomePod (2nd generation) White
Voice Assistant - Manufacturer app, Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, 4 ambient sound microphones, language used: English.
8 999,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: apple23_01
4.8 681×
Apple HomePod mini Blue
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
2 890,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA042
4.8 681×
Apple HomePod mini Yellow
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
2 890,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA043
4.6 107×
Nest Hub (2nd Gen) Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, Display,.
2 290,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGH45
4.6 250×
Google Nest Mini 2nd Generation - Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, EU distribution, language used: English and German.
Discounted -16 %
999,- 1 190,-
Buy
Ordered on request
Order Code: GOOGH52
4.8 681×
Apple HomePod mini Orange
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
2 890,-
Buy
Ordered on request
Order Code: JA044
4.9 20×
Amazon Echo Dot (5th Gen) with clock Glacier White
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 1 ambient sound microphones, Display, hours and Microphone mute button, language used: English.
1 790,-
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: AMAECHDO5THWC
Print
P-DC1-WEB13
We will call you and advise you professionally
+420 225 340 120
Order inquiry
Question about the product
Please enter your telephone:
Call me
We care about your privacy Alza.cz a. s., Company identification number 27082440, uses cookies to ensure the functionality of the website and with your consent also to personalisage the content of our website. By clicking on the “I understand“ button, you agree to the use of cookies and the transfer of data regarding the behavior on the website for displaying targeted advertising on social networks and advertising networks on other websites.
More information Less info