V teorii lidské inteligence existují dva zásadně odlišné přístupy. Jeden za inteligenci považuje adaptabilitu, tedy schopnost přizpůsobovat se novým podmínkám. Ten druhý naopak říká, že inteligence vzniká učením, kde pod učení nespadá jen pouhé memorování, ale také učení se schopnosti učit a manipulovat s velkými objemy vstupů. A koneckonců i plavání nebo ježdění na kole se musíte naučit, takže tento koncept inteligence jako učení v zásadě říká, že čím víc se toho naučíte, tím inteligentnější jste. Jednou z důležitých AI současného světa je Google vyhledávač. Jak a k čemu inteligenci využívá?
Práce s velkými objemy dat je doménou Google. Ten začal jako první indexovat stránky nejen podle jejich obsahu, ale i podle faktoru, který bychom nazvali jako citační index – čím více odkazů z jiných stránek na danou stránku míří, tím je považována za významnější. Tento přístup sám o sobě zajistil Google dominanci nad ostatními vyhledávači, protože Google častěji nabízel relevantnější stránky. A z toho, jak ošálit Google, aby vaší stránku považoval za důležitější, se stalo samostatné odvětví – SEO (Search Engine Optimization) – kterým se dnes úspěšně živí řada specialistů.
Snahy Google o umělou inteligenci jsou vedeny právě tím, že operuje s obřími databázemi dat, která lze navzájem propojovat a hledat v nich vzájemné vztahy. Obří kolekce dat například dovolily Googlu vzít časem a polohou otagované fotografie a skládat z nich trojrozměrné modely staveb, které si lidé fotografovali.
Celý indexační proces je z větší části automatický. Webové prohledávače (crawlery) procházejí web po struktuře jeho odkazů, analyzují a klasifikují nalezený obsah. To, jaké stránky se budou prohledávat a jak často, ovládá řídící program Googlebot, který prohledávání koordinuje. Prohledávání je někdy nemožné, protože stránka vyžaduje přihlášení, prohledávání crawlery je na ní zakázáno, nebo se generuje podle zadaných vstupů. Tomu se pak říká deep web.
Deep web vs. dark web
Někteří lidé si pletou deep web (ten nedostupný běžnému prohledávání) a dark web, což jsou nelegální stránky schované pod speciálními protokoly, jako je Tor – ale to je něco úplně jiného! Pod deep web spadají typicky databáze, které odpovídají na dotazy, zatímco dark web aktivně skrývá sám sebe před očima zákona.
Dalším krokem je analýza nalezených stránek, kdy Google zjišťuje, zda nejde o duplikát, a v případě, že si je většina stránek podobných, vybere tu nejvýznamnější jako reprezentanta celého webu – to se nazývá kanonický odkaz. Na stránkách pak hledá klíčová slova, která stránku klasifikují (indexují) a také se snaží rozeznat obsah a kontext, například určit, v jaké zemi se stránka nachází a jaké jazyky používá.
Vyhledávání na Google probíhá tak, že na základě dotazu Google určí nejrelevantnější výsledky nejen vzhledem ke klíčovým odkazům, ale i k tomu, jak na cíl odkazují jiné stránky a zda se shodují jazyky a lokace dotazovatele. Pokud položíte dotaz, že chcete „opravnu počítačů“, Google ví, že vás pravděpodobně bude zajímat nějaká dobře hodnocená opravna ve vašem okolí, a ne třeba v Austrálii.
Systém Google se učí a profiluje podle dotazů, ale také podle výsledků vyhledávání – když hledáte výsledky na dalších stránkách a nenašli jste je hned na začátku, tak ví, že něco s výsledky nebylo v pořádku a bude se snažit určit váš profil, tedy co typicky hledáte, na co se dotazujete. Adaptivní vyhledávání má negativní dopady na soukromí a je zpeněžitelné, protože na vás Google může lépe cílit reklamu, je ale nutné proto, aby Google věděl, co vlastně hledáte a co je dobrý výsledek právě pro vás.
To ale není celý systém, protože internet se neustále mění, stránky a někdy celé weby mizí – a proto Google neustále opakuje proces dokola, aby se adaptoval na neustále se měnící moře informací a také na to, co je momentálně populární a co lidé vyhledávají nejčastěji. Jde vlastně o proces permanentního učení a přeučování se, který dává vyhledávači schopnost odpovídat relevantně a přitom velice rychle.
Google vyhledávač je umělou inteligencí, kterou v každodenním životě využíváte možná nejčastěji. Ne že byste mohli její chování aktivně ovlivňovat, její působení vám ale zajistí relevantnější výsledky. I když to s sebou přináší určité etické problémy.
Michal Rybka
Michal Rybka je publicista a nadšenec s 20 lety zkušeností v IT a gamingu. Je kurátorem AlzaMuzea a YouTube kanálu AlzaTech. Napsal několik fantasy a sci-fi povídek, které vyšly v knižní podobě, a pravidelně pokrývá páteční obsah na internetovém magazínu PCTuning.