AI už ve firmách dávno není jen hračka na zkoušení promptů. Pomáhá psát dokumenty, hledat v interních datech, obsluhovat zákazníky i zrychlovat práci celých týmů. S tím ale přichází nová otázka: má taková AI běžet v cloudu, pod vlastní střechou, nebo někde mezi? Odpověď se neschovává v jednoduchém souboji „cloud vs. server“. Rozhoduje, s jakými daty firma pracuje, kolik lidí bude AI reálně používat, jak důležitá je rychlost odezvy, jaké náklady lze dlouhodobě plánovat a kde už začíná být důležitější kontrola než pohodlí.
AI a technologie
Ekonomika a finanční řízení
Regulace (EU)
Hardware
Než půjdeme dál, ujasněme si, co privátní AI vlastně znamená – a co ne. Privátní AI je provoz AI modelu na vlastní nebo plně kontrolované infrastruktuře, kde samotná inference (výpočet odpovědí) probíhá u vás, ne u externího poskytovatele. Rozhodující není, kdo vlastní hardware ani čím byl software vytvořen, ale kde běží model.
To je dobré odlišit od dvou věcí, se kterými se privátní AI často zaměňuje. Vlastnit server ještě neznamená provozovat privátní AI – server je univerzální infrastruktura a AI je jen jedna z mnoha úloh, které na něm mohou běžet. A používat AI jako nástroj, který firmě pomáhá vytvářet interní aplikace, také není totéž – takové nástroje pak běží na vlastním serveru, ale samy o sobě žádný AI model neobsahují. O privátní AI mluvíme teprve tehdy, když na vaší infrastruktuře běží samotný model.
Při plánování firemní AI je největší chyba začít hardwarem, protože firma by se neměla jako první ptát, jaký server koupit, ale co přesně má umělá inteligence dělat. Bez jasného scénáře se i velmi výkonný hardware může změnit v drahý experiment bez měřitelného přínosu.
i
Každý scénář potřebuje jinou infrastrukturu:
Stejně důležité je, s jakými daty má AI pracovat, protože rozdíl mezi obecným marketingovým textem a interní smluvní dokumentací je z pohledu rizika zásadní. Pokud AI pomáhá psát obecné texty, shrnuje veřejné informace nebo slouží k rychlému prototypování, cloudová služba může být rozumná a pohodlná volba. Pokud ale systém pracuje se smlouvami, zákaznickými daty, interní dokumentací, zdrojovým kódem nebo finančními informacemi, otázka kontroly nad daty má úplně jinou váhu.
Do rozhodování vstupuje také provozní profil, protože AI používaná nepravidelně a malým týmem má jinou ekonomiku než systém, který se stane každodenním pracovním nástrojem pro desítky nebo stovky zaměstnanců. Jakmile se z experimentu stane stabilní workflow, nestačí počítat jen cenu za jednotlivý dotaz. Firma musí řešit celkové náklady, předvídatelnost provozu a závislost na externím poskytovateli.
Cloud má ve firemní AI silné místo hlavně tam, kde firma potřebuje rychlý start, pružnou kapacitu a nechce hned nakupovat vlastní hardware. Nemusí instalovat lokální modely, budovat vlastní provozní tým ani dopředu přesně odhadovat, jak bude projekt vypadat za půl roku. Pro pilotní projekty, testování nápadů a práci s nejmodernějšími modely je proto často nejpřirozenější první volbou.
Velkou výhodou cloudu je elasticita, tedy možnost brát si výkon podle aktuální potřeby. To pomáhá hlavně u projektů, kde se zatížení mění, scénář se teprve hledá nebo se AI používá ve špičkách. Hodí se například pro firmu, která jednou za měsíc hromadně zpracovává tisíce dokumentů, testuje nový interní chatbot nebo potřebuje krátkodobě analyzovat větší objem zákaznických požadavků po kampani. Vlastní infrastruktura by v takovém případě mohla většinu času zůstávat nevyužitá, což je ekonomicky i provozně slabší výchozí pozice.
U cloudu zároveň neplatí, že je automaticky bezpečnostní problém. Velcí poskytovatelé nabízejí enterprise režimy, ve kterých lze řešit umístění dat, smluvní podmínky, šifrování, auditní stopu i oddělení zákaznického prostředí. Pro mnoho firem tak může být dobře nastavený cloud bezpečný, praktický a ekonomicky nejvýhodnější. Rozdíl začíná ve chvíli, kdy firma potřebuje mít větší část kontroly přímo u sebe.
i
Kdy je cloud lepší volba
Privátní AI se dostává do hry ve chvíli, kdy firma začne řešit kontrolu nad daty, náklady, výkonem, dostupností nebo napojením na interní procesy. Čím více se AI blíží k citlivému jádru firmy, tím důležitější tato kontrola bývá. Nejde přitom o ideologii proti cloudu, ale o praktickou otázku, zda daný scénář potřebuje vyšší míru kontroly, než jakou firma získá běžnou cloudovou službou.
Dobře je to vidět na interním asistentovi nad firemními dokumenty. Jakmile má AI vyhledávat v citlivých zdrojích, nejde už jen o pohodlný chatbot. Typicky jde o:
AI se v takové chvíli dostává k informacím, které mají reálnou obchodní, právní nebo bezpečnostní hodnotu.
Představme si například právní oddělení, které pravidelně analyzuje stovky stran smluv, porovnává verze dokumentů a hledá rizikové klauzule. Pro občasné použití může být cloudová služba dostatečná, ale pokud stejnou práci dělá větší tým každý den, situace se mění. Dokumenty obsahují citlivé obchodní informace a vedení může potřebovat doložit, kde se data zpracovala, co systém použil jako zdroj a jaký výstup vrátil.
Podobně může uvažovat zákaznická podpora, která denně zpracovává stovky ticketů a chce, aby AI odpovídala podle interní znalostní báze, historie řešení a aktuálních pravidel firmy. V malém pilotu může být cloud ideální. Jakmile se ale z nástroje stane každodenní provozní vrstva, dává smysl řešit, kde systém běží, jak se bude dlouhodobě škálovat a jaké náklady bude vytvářet při běžném provozu.
Představa, že privátní AI automaticky znamená trénovat vlastní velký jazykový model od nuly, je jeden z nejčastějších omylů. Pro běžnou firmu by to byla extrémně drahá a technicky náročná disciplína, která patří spíše do světa největších technologických firem, výzkumných týmů a specializovaných AI laboratoří. Ve většině firemních scénářů se řeší mnohem praktičtější úkol, tedy jak bezpečně využít hotový model nad vlastními daty.
Firma vezme existující model, často takzvaný open-weight model s veřejně dostupnými vahami, který lze provozovat mimo původní cloudovou službu, a spustí ho v kontrolovaném prostředí. V tomto kroku přichází ke slovu inference (samotné používání hotového modelu) a RAG. Zkratka znamená Retrieval-Augmented Generation, česky volně generování rozšířené o vyhledávání. Nejde o jeden konkrétní program, který se jednoduše „koupí v krabici", ale o způsob, jak AI napojit na firemní dokumenty, databáze nebo znalostní báze.
RAG funguje tak, že si model před odpovědí nejprve vyhledá relevantní informace ve zdrojích, které mu firma bezpečně zpřístupní, a teprve potom sestaví odpověď. Může jít o smlouvy, interní směrnice, technickou dokumentaci, produktové informace nebo historii zákaznické podpory. Model tak neodpovídá jen z informací, které si osvojil při trénování, ale opírá se také o aktuální firemní data dostupná pro konkrétní dotaz.
Pro společnost je to často praktičtější cesta než fine-tuning, tedy dodatečné dolaďování modelu na konkrétním typu dat nebo úloh. Interní dokumenty se mění, přibývají nové verze smluv, aktualizují se postupy a mění se obchodní pravidla. U dobře navrženého RAG řešení se proto aktualizují hlavně zdroje, nad kterými AI vyhledává, nikoli celý model.
V této části začíná být důležitá infrastruktura a návrh celého řešení. Firma potřebuje model, výkon pro jeho provoz, bezpečné úložiště dat, vyhledávací vrstvu, správu přístupů a způsob, jak měřit kvalitu odpovědí. RAG tedy není kouzelné tlačítko, ale architektura. Pokud je navržená dobře, dokáže z privátní AI udělat praktického asistenta nad firemními znalostmi bez toho, aby firma musela trénovat vlastní kvazi-ChatGPT.
Porovnávání cloudu a vlastní infrastruktury často selže na příliš jednoduché matematice. Na jedné straně stojí měsíční cloudová faktura, na druhé straně nákupní cena hardwaru. Takové srovnání ale není úplné, protože skutečné rozhodnutí se má opírat o TCO, tedy celkové náklady na vlastnictví a provoz.
Tady se ukazuje rozdíl mezi pohodlným startem a dlouhodobým používáním. Jakmile roste počet uživatelů, délka požadavků a pravidelnost práce s AI, měsíční účty za tokeny, dedikovaný výkon, úložiště nebo embeddingy mohou začít tvořit významnou položku rozpočtu. Cloud se platí průběžně podle používání, vlastní infrastruktura hlavně na začátku, ale její náklady se potom rozkládají v čase.
Do TCO vlastní AI infrastruktury typicky patří:
Na straně cloudu je potřeba počítat nejen se samotným modelem, ale i s tím, jakým způsobem se používá. Menší modely mohou být výrazně levnější než prémiové frontier modely, tedy nejvýkonnější verze od předních AI laboratoří. Jinak se také účtuje běžné on-demand používání, dávkové zpracování nebo rezervovaná kapacita. Cloudová cena proto není jedno číslo, ale výsledek konkrétního provozního scénáře.
Návratnost vlastní infrastruktury nejde poctivě stanovit jednou univerzální větou. Krátký dotaz s krátkou odpovědí má jinou ekonomiku než analýza dlouhého dokumentu, práce s rozsáhlým kontextem nebo požadavek na rychlou odezvu pro více uživatelů současně. Jednoduché třídění požadavků může zvládnout levnější model, zatímco právní analýza nebo práce s citlivou dokumentací často vyžaduje silnější řešení.
Základní pravidlo je přesto poměrně jednoduché. Pokud firma s AI teprve experimentuje, cloud bude často ekonomicky i provozně rozumnější. Pokud má ale stabilní a rostoucí zátěž, opakované úlohy, citlivá data a jasně definované workflow, vlastní nebo hybridní infrastruktura začíná dávat ekonomicky mnohem větší smysl.
Vedle samotné výše nákladů hraje roli také to, jak se tyto náklady ve firmě plánují. Cloud je typický OPEX, tedy průběžný provozní výdaj, který se objevuje v pravidelných fakturách a mění se podle používání. Vlastní infrastruktura je naopak spíše CAPEX, tedy kapitálová investice do hardwaru, která se rozkládá do delšího období a doplňují ji provozní náklady na správu, servis nebo energii. Pro finanční řízení firmy je to zásadní rozdíl: jedna varianta zatěžuje rozpočet postupně a proměnlivě, zatímco druhá vyžaduje větší rozhodnutí na začátku, ale při stabilní zátěži může být předvídatelnější.
O cloudu se někdy mluví příliš zjednodušeně. Není pravda, že každý firemní cloud automaticky znamená, že poskytovatel používá zákaznická data k trénování modelů. Pro scénáře, jako je tvorba marketingových návrhů, sumarizace veřejných podkladů, překlady, brainstorming nebo práce s anonymizovanými daty, může být dobře nastavený cloud bezpečný, praktický a ekonomicky rozumný.
Cloudová bezpečnost a plná kontrola ale nejsou totéž. U citlivých dat může firmu zajímat nejen to, zda jsou technicky chráněná, ale také kde jsou zpracovávaná, kdo má k systému přístup, jak se logují požadavky, jak funguje audit, jaké smluvní podmínky platí, zda data neopouštějí vybrané prostředí a kdo nese odpovědnost při incidentu. V praxi nejde jen o otázku „je to bezpečné?“, ale také „umíme to doložit?“, protože u citlivých procesů bývá doložitelnost často stejně důležitá jako samotné technické zabezpečení.
V evropském prostředí se k tomu přidává regulace:
Privátní nebo hybridní AI proto nemusí být jen technická volba. V regulovaných oborech, jako jsou finance, zdravotnictví, veřejný sektor, kritická infrastruktura nebo právní služby, může být jednodušší vysvětlit, auditovat a řídit systém, který zpracovává citlivá data v kontrolovaném prostředí. Neznamená to, že cloud je vyloučený, ale architektura musí odpovídat riziku, typu dat a požadavkům na doložitelnost.
U firemní AI nestačí říct, že určitý hardware „utáhne“ určitý model. V praxi je důležitější, jaký model běží, v jaké přesnosti, s jak dlouhým kontextem, kolik požadavků přichází současně a jak rychlou odezvu uživatelé očekávají. Jeden scénář může být pohodlně zvládnutelný, zatímco jiný na stejném hardwaru narazí na limity.
Zásadní roli hraje paměť, především VRAM nebo unified memory u specializovaných AI zařízení. Velké jazykové modely zabírají značné množství paměti a do ní se musí vedle samotných vah modelu vejít také provozní režie, kontext a obsluha více požadavků. Kvantizace dokáže paměťové nároky výrazně snížit, protože model pracuje s nižší přesností, ale je to kompromis mezi velikostí, rychlostí a kvalitou.
Samotné spuštění modelu proto nestačí. Firemní provoz potřebuje výkon, který zvládne dostatečně dlouhý kontext, rozumnou odezvu a reálný počet lidí používajících systém ve stejný čas. Proto je u firemního nasazení lepší mluvit o scénářích než o absolutních číslech, protože jinak se dimenzuje AI pro vývojáře, jinak interní asistent pro menší tým a úplně jinak produkční nástroj pro celé oddělení.
S tím souvisí i rozdíl mezi latencí a throughputem. Latence říká, jak rychle dostane odpověď jeden uživatel, zatímco throughput říká, kolik práce systém zvládne za určitý čas. Firemní AI může být pro jednoho uživatele pocitově rychlá, ale při desítkách souběžných požadavků se začne zpomalovat. Rozdíl mezi „funguje mi to při testu“ a „funguje nám to v běžném provozu“ je u firemní AI zásadní.
Pro vedení společnosti z toho plyne jednoduchá věc: AI infrastruktura se nedimenzuje podle nejhezčího čísla v datasheetu, ale podle toho, kolik lidí ji bude reálně používat, jak rychle potřebují odpověď a jak složité úlohy budou zadávat. Pokud má systém sloužit jen vývojářům při testování, požadavky budou jiné než u nástroje, který má v pondělí ráno používat celé obchodní oddělení. Proto má smysl měřit konkrétní workload a nedělat závěr jen podle velikosti modelu nebo papírového výkonu hardwaru.
Pro řadu firem není nejrozumnější cestou ani okamžitý přesun do vlastní AI infrastruktury, ani nekonečné odkládání rozhodnutí v cloudu. Mnohem praktičtější je pilot, ve kterém firma vybere několik konkrétních úloh, změří jejich chování v cloudu, otestuje lokální nebo privátní provoz a teprve poté rozhodne, co se vyplatí přesunout pod vlastní kontrolu. Takový postup snižuje riziko špatného nákupu a zároveň dává vedení data, podle kterých se dá rozhodovat.
Pilot může začít na menším specializovaném AI zařízení nebo AI pracovní stanici, která slouží pro vývoj, testování, validaci modelů a první interní scénáře. Příkladem této vstupní třídy je NVIDIA DGX Spark, tedy kompaktní AI počítač určený pro lokální práci s modely, prototypování, inferenci a testování firemních scénářů. Pro náročnější firemní nasazení pak dává smysl sledovat i připravovanou NVIDIA DGX Station, která míří výš než pilotní pracovní stanice a patří už k robustnějším řešením pro lokální AI infrastrukturu. Nejde o univerzální náhradu velkého datacentra, ale o praktickou cestu, jak si firma může AI workload osahat bez toho, aby hned stavěla rozsáhlou infrastrukturu.
Aby pilot nebyl jen technologická hračka bez měřitelných cílů, měl by odpovědět na několik konkrétních otázek:
Praktický pilot může trvat 60 až 90 dnů a zaměřit se třeba na interní vyhledávání ve znalostní bázi, sumarizaci smluv, klasifikaci ticketů nebo návrhy odpovědí pro zákaznickou podporu. Smyslem pilotu není dokázat, že vlastní AI je za každou cenu lepší než cloud, ale zjistit, které úlohy se vyplatí přesunout blíž k firemním datům a které je rozumnější nechat tam, kde už dnes fungují dobře.
Hybridní přístup bude pro většinu firem nejrealističtější odpověď, protože různé AI úlohy mají různé nároky. Citlivá data, interní znalostní báze a stabilní inference mohou dávat větší smysl v privátním prostředí, zatímco úlohy vyžadující nejnovější frontier modely, občasné špičky výkonu nebo rychlé testování nových možností mohou zůstat v cloudu. Přehledně to ukazuje následující srovnání.
|
Přístup
|
Kdy dává největší smysl
|
Hlavní výhoda
|
Typický scénář
|
|---|---|---|---|
|
Cloudová AI
|
Firma začíná, testuje nápady nebo potřebuje nejnovější modely bez vlastní infrastruktury
|
Rychlý start a flexibilita
|
Pilotní projekty, nepravidelná zátěž, méně citlivá data
|
|
Hybridní AI
|
Firma má konkrétní AI scénáře, ale nechce nebo nemůže přesunout vše na vlastní hardware
|
Kombinace kontroly a pružnosti
|
Citlivá data lokálně, vybrané úlohy a špičky v cloudu
|
|
Privátní AI
|
Firma pracuje s citlivými daty, má stabilní zátěž a potřebuje větší kontrolu nad provozem
|
Kontrola nad daty, náklady a architekturou
|
Interní asistenti, RAG nad firemními dokumenty, regulované procesy
|
Privátní AI a cloud nejsou soupeři, z nichž jeden musí definitivně vyhrát. Cloud je nejlepší tam, kde firma potřebuje rychlost, flexibilitu, nízkou vstupní bariéru a přístup k nejnovějším modelům. Privátní AI začíná dávat smysl ve chvíli, kdy do hry vstoupí citlivá data, stabilní používání, potřeba kontroly, předvídatelné náklady a hlubší napojení na interní systémy.
Pro většinu firem bude nejpraktičtější hybridní přístup. Citlivé a opakované úlohy mohou běžet pod vlastní kontrolou, zatímco cloud zůstane vhodný pro experimenty, špičkové modely a proměnlivou zátěž. Rozhodnutí proto nemá začínat otázkou, jestli je lepší cloud nebo vlastní server, ale tím, jaké konkrétní AI úlohy firma provozuje a jakou hodnotu mají data, se kterými pracuje.
Jakmile má firma jasný scénář, stabilní zátěž a důvod držet část AI provozu pod vlastní kontrolou, přestává být privátní AI teoretickou možností. Stává se praktickým nástrojem, jak dostat umělou inteligenci blíž k firemním datům, procesům i rozpočtu. Firma si v takové chvíli nekupuje server kvůli serveru, ale možnost rozhodnout, kde pro ni AI skutečně pracuje nejlépe.