• Autor: Peter Vnuk
Firmy často sedí na obrovském množství vlastních znalostí. Mají dokumenty, návody, produktové podklady, směrnice, prezentace, interní wiki, e-maily i historické know-how – jenže se k nim lidé nedostávají dost rychle. Obchodník hledá poslední argument k produktu, podpora ověřuje starší postup, nový kolega se ptá na pravidlo, které už někde existuje, a technický specialista ztrácí čas dohledáváním informací místo toho, aby je rovnou používal. Interní AI asistent dokáže z těchto zdrojů vytvořit praktickou znalostní vrstvu – pokud má správně připravená data, bezpečnostní pravidla a technický základ.
Největší přínos vzniká tam, kde lidé opakovaně hledají odpovědi ve velkém množství firemních materiálů a potřebují vědět, odkud odpověď pochází. Typicky jde o produktové know-how, zákaznickou podporu, interní procesy, technickou dokumentaci, obchodní argumentaci nebo rozsáhlý archiv článků a materiálů.
Dobrý začátek vypadá jednoduše. Firma vybere jeden korpus, jednu skupinu uživatelů a jeden měřitelný problém. Technická podpora může rychleji najít správný postup, obchodní tým dohledat aktuální produktové argumenty a obsahový tým ověřit, co už o daném tématu ve firmě existuje. Úzký pilot pomáhá rychleji ověřit přínos, snížit bezpečnostní rizika a získat jasnější odpověď na otázku, zda má projekt reálnou hodnotu.
| Oblast použití | Typická hodnota pro firmu |
|---|---|
| Interní znalostní báze | Rychlejší odpovědi na opakované dotazy zaměstnanců. |
| Zákaznická podpora | Snazší dohledání postupů, výjimek a starších řešení. |
| Obchod a produkt | Lepší práce s argumenty, parametry a produktovými podklady. |
| Dokumentace a archiv | Kontrola duplicit, souvisejících materiálů a starších verzí. |
| Onboarding | Rychlejší orientace nových kolegů ve firemních pravidlech. |
Interní AI asistent má největší přínos ve chvíli, kdy se umí opřít o konkrétní firemní zdroje a ukázat, z čeho odpověď vychází. Právě zde přichází na řadu RAG.
RAG, tedy Retrieval-Augmented Generation, propojuje chytré vyhledávání s jazykovým modelem. Systém nejprve najde relevantní části firemních dokumentů a teprve potom je předá modelu jako kontext pro odpověď. Díky tomu se asistent opírá o konkrétní interní data, uvádí dohledatelné zdroje a dokáže pracovat i s informacemi, které běžný jazykový model nemá ve své obecné znalosti.
Prakticky to funguje tak, že se dokumenty rozdělí na menší části, převedou se na embeddingy a uloží do vektorového indexu. Embedding si lze představit jako číselné vyjádření významu textu. Když se uživatel zeptá na konkrétní věc, systém převede i jeho dotaz na embedding a najde textové úseky s nejbližším významem. Jazykový model potom dostane otázku, nalezené pasáže a instrukci, aby odpověděl pouze z dostupných zdrojů.
| Vrstva | Co řeší | Proč na ní záleží |
|---|---|---|
| Data | Dokumenty, wiki, návody, tabulky, články, produktové podklady | Kvalita odpovědí nikdy nepřesáhne kvalitu vstupních dat. |
| Chunking | Rozdělení dokumentů na menší tematické části | Model dostává přesnější kontext bez zbytečného balastu. |
| Embedding | Převod textu na vektory podle významu | Systém umí hledat i podle významové podobnosti, nejen podle slov. |
| Vektorový index | Rychlé vyhledání nejbližších částí dokumentů | Rozhoduje o rychlosti a relevanci nalezených podkladů. |
| LLM | Sestavení odpovědi z vybraného kontextu | Výstup je čitelný, srozumitelný a použitelný pro člověka. |
| Ochranná pravidla | Pravidla pro odpovědi, citace a nejistotu | Snižují riziko halucinací a nepodložených tvrzení. |
Dobře navržená RAG vrstva vytváří nad dokumenty znalostní systém. Umí vyhledat podobné pasáže, upozornit na duplicity a dodat modelu přesný kontext pro odpověď. Z běžné složky dokumentů se tak stává prostředí, se kterým lze pracovat přirozeným jazykem.
U interního asistenta bývá lákavé řešit hlavně výběr jazykového modelu, v praxi však často rozhoduje příprava dat. Pokud má firma v dokumentech duplicity, staré verze, nekonzistentní názvy a nejasná oprávnění, AI tyto problémy nevyřeší – naopak je zviditelní. Model může být výkonný, jenže špatně rozdělené nebo zastaralé podklady povedou k nepřesným odpovědím.
Chunking by měl respektovat přirozenou strukturu dokumentů. U návodů dávají smysl kapitoly, u produktové dokumentace tematické bloky, u znalostní báze otázky a odpovědi, u tabulek vztah mezi hlavičkou a konkrétním řádkem. Příliš dlouhé bloky přinášejí modelu moc šumu, příliš krátké části zase rozbíjejí kontext. Cílem je, aby systém při dotazu našel přesně tu část dokumentu, která nese odpověď.
Stejně důležitá jsou metadata. Ke každému úseku se vyplatí ukládat název dokumentu, datum aktualizace, vlastníka, typ obsahu, jazyk, interní URL, stav platnosti a oprávnění. Metadata pomáhají filtrovat výsledky, vyřadit staré dokumenty, dohledat zdroj odpovědi a zabránit tomu, aby se uživateli zobrazily informace, ke kterým nemá mít přístup.
i
Ke každému úseku se vyplatí ukládat název dokumentu, datum aktualizace, vlastníka, typ obsahu, jazyk, interní URL, stav platnosti a oprávnění.
První verze nemusí být složitá. Měla by být čistá, dohledatelná a bezpečně ohraničená. Jeden dobře připravený korpus s rozumnými metadaty má pro pilot větší hodnotu než velká hromada dokumentů bez jasného původu a pravidel.
Generativní část asistenta může běžet přes externí API, nebo na lokálním modelu ve vlastní infrastruktuře. API model obvykle nabídne velmi dobrou kvalitu odpovědí, rychlejší start a menší provozní starosti. Firma nemusí řešit GPU pro inferenci, aktualizace modelů ani jejich optimalizaci. Tento přístup se hodí pro piloty, méně citlivá data a scénáře, kde je důležitá rychlost nasazení.
Lokální model přináší větší kontrolu nad daty a vyžaduje pečlivější technický návrh. Je potřeba počítat s výkonnou grafickou kartou [PROLINK: grafické karty vhodné pro AI výpočty], dostatečnou VRAM, rychlým úložištěm, správou modelů a monitoringem výkonu. Lokální inference dává smysl hlavně u citlivých dokumentů, obchodního tajemství, neveřejného technického know-how, smluv nebo regulovaných agend.
Klíčový bezpečnostní rozdíl spočívá v tom, co přesně chrání vlastní infrastruktura. Server ve firmě, firewall, autentizace, šifrování a síťová pravidla řeší perimetr – tedy ochranu systému před útočníkem zvenčí a kontrolu nad prostředím, kde aplikace běží. Tato vrstva je nutná pro každý seriózní firemní systém. Tok dat do generativního modelu je samostatné rozhodnutí.
Pokud asistent používá externí LLM přes API, mohou k poskytovateli odejít dotazy uživatelů i dohledané pasáže z interních dokumentů. Vlastní server tuto část nezmění, protože data v takovém scénáři opouštějí firmu až ve chvíli, kdy se posílají do modelu. U citlivých dat proto nestačí konstatovat, že systém běží „u nás". Bezpečnostní návrh musí říct, které scénáře smějí používat externí API a které mají běžet na lokálním LLM.
!
U citlivých dat nestačí konstatovat, že systém běží „u nás". Bezpečnostní návrh musí říct, které scénáře smějí používat externí API a které mají běžet na lokálním LLM.
| Varianta | Výhody | Limity |
|---|---|---|
| API model | Rychlý start, vysoká kvalita odpovědí, méně provozní správy | Nutné posoudit smluvní podmínky, retenci a tok citlivých dat mimo firmu. |
| Lokální model | Vyšší kontrola nad daty, vhodné pro citlivější scénáře | Vyšší nároky na hardware, správu, ladění a interní odbornost. |
| Hybridní model | Lokální embedding, citlivé věci lokálně, méně rizikové scénáře přes API | Vyžaduje jasnou klasifikaci dat a pravidla, kdy se smí použít externí model. |
V praxi často vychází nejlépe hybridní přístup. Embedding a vektorový index běží lokálně, takže firemní korpus kvůli vyhledávání neopouští organizaci. Generování odpovědí se následně rozdělí podle citlivosti. Méně rizikové scénáře mohou využít API, důvěrná nebo regulovaná data zůstávají u lokálního modelu.
Hardwarové požadavky závisí na velikosti korpusu, frekvenci aktualizací a tom, zda firma chce provozovat lokální model. Menší pilot nad stovkami nebo nižšími tisíci dokumentů zvládne i výkonnější běžná pracovní stanice [PROLINK: pracovní stanice pro AI / výkonné workstation]. S desetitisíci dokumentů, častými aktualizacemi nebo lokální inferencí začíná hrát roli GPU, kapacita RAM, rychlost úložiště a provozní rezerva.
Praktické rozdělení lze chápat ve třech velikostních třídách. Malé nasazení znamená stovky až jednotky tisíc dokumentů, kde často stačí CPU, rychlé NVMe úložiště [PROLINK: NVMe SSD a firemní úložiště] a jednoduchý lokální index. Střední třída už pracuje s desetitisíci dokumentů, takže se vyplatí GPU pro rychlejší embedding a promyšlenější práce s indexem. Velká nasazení se statisíci dokumentů obvykle potřebují dedikovanou vektorovou databázi, inkrementální reindexaci, více paměti, monitoring a provozní disciplínu podobnou jiným firemním systémům.
| Třída nasazení | Typický rozsah dat | Vhodný technický základ | Co řešit prioritně |
|---|---|---|---|
| Malá | Stovky až tisíce dokumentů | Výkonnější pracovní stanice, CPU, rychlé NVMe, FAISS nebo jednoduchý lokální index | Rychlý pilot, kvalita dat, základní metadata a testovací dotazy. |
| Střední | Desetitisíce dokumentů | Pracovní stanice nebo menší server, 64 až 128 GB RAM, GPU, FAISS nebo pgvector | Rychlost embeddingu, aktualizace indexu, oprávnění a stabilita provozu. |
| Velká | Statisíce dokumentů a více týmů | Serverová infrastruktura [PROLINK: servery pro firmy], dedikovaná vektorová databáze, GPU, monitoring, zálohy | Škálování, audit, dostupnost, správa verzí a inkrementální reindexace. |
Z interní praxe nad středně velkým korpusem víme, že rozdíl mezi CPU a GPU už není akademický detail. Reálný korpus s 25 106 dokumenty, vícejazyčným embedding modelem multilingual-e5-base a FAISS HNSW indexem vytvoří index o velikosti ve stovkách MB. Příprava takového indexu může na běžném CPU trvat hodiny, zatímco s výkonnou grafickou kartou typu RTX 4080 [PROLINK: grafické karty vhodné pro AI výpočty] se může zkrátit na desítky minut. To je rozdíl mezi jednorázovým experimentem a systémem, který lze pohodlně ladit, obnovovat a rozšiřovat.
GPU se nejvíce projeví při tvorbě embeddingů a u lokálních modelů. Převod dokumentů na embeddingy lze udělat i na CPU, u většího korpusu se tím však zpomalí každé přepočítání indexu. Výkonná grafická karta umožní rychleji testovat různé strategie chunkingu, embedding modely i obnovu indexu. U lokálního LLM je klíčová VRAM – tedy paměť grafické karty – protože velikost modelu a délka kontextu přímo ovlivňují, jak pohodlně lze systém provozovat.
Rychlé NVMe úložiště [PROLINK: NVMe SSD a firemní úložiště] je pro RAG praktická nutnost, zejména pokud má systém růst. Vektorový index, metadata, cache, dokumenty, logy a zálohy potřebují prostor i rychlý přístup. U větších nasazení je vhodné počítat s rezervou pro nové dokumenty, další verze a zpětnou vazbu od uživatelů.
U prvního pilotu není nutné kupovat maximální možný výkon. Smysluplnější je začít konfigurací, která zvládne lokální embedding, práci s indexem a testování modelů. Pokud se pilot osvědčí, firma už bude mít reálná data o velikosti korpusu, době indexace, počtu dotazů a požadavcích uživatelů. Teprve podle nich se dá dobře rozhodnout, zda zůstat u pracovní stanice, přejít na server [PROLINK: servery pro firmy] nebo budovat širší platformu.
Vektorový index nebo vektorová databáze zajišťuje, že systém rychle najde textové části podobné dotazu uživatele. Pro piloty a menší nasazení často stačí FAISS, který běží přímo v aplikaci a nevyžaduje samostatnou databázovou vrstvu. Je rychlý, praktický a vhodný pro ověření, zda RAG nad daným korpusem funguje.
Pokud firma už používá PostgreSQL a chce jednodušší produkční správu, dává smysl pgvector. Umožňuje ukládat embeddingy přímo do známého databázového prostředí a kombinovat významové vyhledávání s běžnými filtry nad metadaty. To je užitečné hlavně u oprávnění, typů dokumentů, data aktualizace nebo týmových filtrů.
Specializované vektorové databáze, například Qdrant, Milvus nebo Weaviate, se hodí ve chvíli, kdy systém roste. Přinášejí lepší škálování, správu kolekcí, provozní funkce a pohodlnější práci s většími objemy dat. Pro první pilot bývají často zbytečně robustní, pro širší firemní provoz už mohou být správnou volbou.
| Řešení | Kdy dává smysl |
|---|---|
| FAISS | Rychlý pilot, lokální prototyp, jeden korpus, nižší provozní složitost. |
| pgvector | Firma používá PostgreSQL a chce kombinovat vektory s metadaty a oprávněními. |
| Qdrant / Milvus / Weaviate | Větší nasazení, více zdrojů dat, vyšší nároky na škálování a správu. |
Výběr technologie by měl následovat po use-casu. Pro ověření hodnoty interního asistenta stačí jednodušší řešení. Pro systém obsluhující více týmů, různé zdroje dat a detailní oprávnění se vyplatí robustnější databázová vrstva.
První verze interního AI asistenta by měla být malá, měřitelná a bezpečně ohraničená. Ambiciózní celofiremní platforma se lépe obhajuje ve chvíli, kdy už existuje pilot s doloženou úsporou času nebo lepší dostupností znalostí. Pilot má ukázat, co systém skutečně zlepšuje, kde naráží na kvalitu dat a jaké nároky bude mít produkční provoz.
Dobrá testovací sada obsahuje otázky, na které firma zná správnou odpověď. Hodnotí se nejen finální text, ale hlavně to, zda systém našel správné zdroje. Plynulá odpověď bez relevantního podkladu má v interním prostředí nízkou hodnotu. Ověřitelná odpověď s jasným zdrojem je pro firemní použití podstatně cennější.
Měřit lze několik praktických ukazatelů. Kolik času uživatelé ušetřili při hledání odpovědi? Kolikrát systém našel správný dokument? Kolik odpovědí bylo nepodložených nebo neúplných? Jak často musel uživatel stejně kontaktovat specialistu? Tady se rozhoduje o dalším rozšíření projektu.
Při zavádění interního asistenta se nejčastěji chybuje tam, kde se technický projekt tváří jednodušeji, než ve skutečnosti je. Chatovací rozhraní lze postavit rychle, spolehlivý systém nad firemními daty však vyžaduje datovou disciplínu, bezpečnostní pravidla a průběžné vyhodnocování.
Největší rizika vypadají takto:
Interní asistent nad firemními daty funguje nejlépe tam, kde firma ví, s jakými daty pracuje, kdo za ně odpovídá a kdo je smí používat. Pokud tyto odpovědi chybí, projekt potřebuje nejprve lepší přípravu dat a pravidel.
Interní AI asistent nad firemními daty má největší hodnotu ve chvíli, kdy lidem pomáhá rychleji najít správnou informaci a zároveň ukáže, z jakého zdroje vychází. Základem je dobře vybraný pilot, čistý korpus, rozumný chunking, kvalitní embedding, vektorový index a jasné rozhodnutí, která data mohou do externího modelu a která musí zůstat lokálně. Hardware se vyplatí dimenzovat podle reálného scénáře: menšímu týmu může stačit výkonná pracovní stanice [PROLINK: pracovní stanice pro AI / výkonné workstation], citlivější a náročnější provoz už bude potřebovat GPU, rychlé úložiště a postupně i serverovou infrastrukturu [PROLINK: servery pro firmy]. Takový přístup umožní začít prakticky, změřit přínos a rozšiřovat řešení až ve chvíli, kdy má interní AI asistent pro firmu prokazatelnou hodnotu.
RAG (Retrieval-Augmented Generation) propojuje chytré vyhledávání s jazykovým modelem. Systém nejprve najde relevantní části firemních dokumentů a teprve potom je předá modelu jako kontext pro odpověď. Díky tomu se asistent opírá o konkrétní interní data, uvádí dohledatelné zdroje a dokáže pracovat i s informacemi, které běžný jazykový model nemá ve své obecné znalosti.
API model obvykle nabídne velmi dobrou kvalitu odpovědí, rychlejší start a menší provozní starosti – hodí se pro piloty, méně citlivá data a scénáře, kde je důležitá rychlost nasazení. Lokální model přináší větší kontrolu nad daty, ale vyžaduje výkonnou grafickou kartu, dostatečnou VRAM, rychlé úložiště, správu modelů a monitoring výkonu. Dává smysl hlavně u citlivých dokumentů, obchodního tajemství nebo regulovaných agend.
Menší pilot nad stovkami nebo nižšími tisíci dokumentů zvládne i výkonnější běžná pracovní stanice. S desetitisíci dokumentů, častými aktualizacemi nebo lokální inferencí začíná hrát roli GPU, kapacita RAM, rychlost úložiště a provozní rezerva. U prvního pilotu není nutné kupovat maximální možný výkon – smysluplnější je začít konfigurací, která zvládne lokální embedding, práci s indexem a testování modelů.
Metadata pomáhají filtrovat výsledky, vyřadit staré dokumenty, dohledat zdroj odpovědi a zabránit tomu, aby se uživateli zobrazily informace, ke kterým nemá mít přístup. Ke každému úseku se vyplatí ukládat název dokumentu, datum aktualizace, vlastníka, typ obsahu, jazyk, interní URL, stav platnosti a oprávnění.
Měřit lze několik praktických ukazatelů: kolik času uživatelé ušetřili při hledání odpovědi, kolikrát systém našel správný dokument, kolik odpovědí bylo nepodložených nebo neúplných a jak často musel uživatel stejně kontaktovat specialistu. Hodnotí se nejen finální text odpovědi, ale hlavně to, zda systém našel správné zdroje.

Peter Vnuk
Technologie jsou pro mě práce i zábava – nejvíc se věnuji smartphonům, notebookům, audiotechnice, umělé inteligenci a všemu hi-tech. Rád recenzuji novinky, sleduji futuristické trendy a odhaduji další vývoj technologií. Fascinuje mě sci-fi a vize budoucího světa, které často inspirují i reálný technologický pokrok. Profesionálně se věnuji také videohrám a hernímu průmyslu. Když zrovna nepracuji, rád si odpočinu u dobré hry, kvalitního piva nebo tvorbou technologických memes na Facebooku.