Neviditelný web a jiné pohádky
Pokud máte nějaké ponětí o pojmu „neviditelný web“, patříte pravděpodobně mezi poměrně úzký okruh specialistů na informatiku. Pokud jste tento pojem někdy někde zaslechli, máte nyní šanci udělat si ve věci jasno. Pokud jste na něj nikdy nenarazili, jen čtěte dále. Věřte nebo nevěřte, neviditelný web se totiž týká každého z nás.
Abychom pochopili diskutované téma, je třeba podniknout malou exkurzi do dějin služby WWW. V počátcích tato služba, přes své poslání, zpřístupňovala jen minimum informací. Pohyb v nich byl možný pouze pomocí hypertextových odkazů na jednotlivých stránkách, jistou šanci dávaly také osobní listy odkazů a proslavený „kolenní výstřel“. Později se situace poněkud zlepšila, když vznikly veřejné rozcestníky a chvíli poté i první vyhledávače, které již dokázaly najít konkrétní informaci. Zdánlivě.
Zrada je skryta právě v oněch vyhledávačích, žádnou výjimkou není ani dnes již takřka mýtický Google. Všechny vyhledávače se totiž předhánějí v tom, nakolik je jejich systém efektivní, kolik procházejí stránek a jak často. Prakticky nikdo se však nepřizná, že podle nejlepších odhadů vyhledávače míjejí takřka čtyři pětiny informací, obsažených dnešním Internetem. Uvážíte-li, že takový Google aktuálně indexuje 2 469 940 685 stránek, pak je dopad této informace doslova ničivý!
Současné vyhledávače indexují ty stránky, na které někde získají nějaký odkaz, vodítko. Další stránky se dostávají do indexů prostřednictvím „deep crowlingu“, jakési moderní obdoby kolenního výstřelu z dob ne až tak dávno minulých. Do indexů se však nedostanou určité typy stránek, například automaticky generované stránky a informace obsažené v uzavřených databázích, což bývají často ty „nejvydatnější“, tedy informačně nejcennější. Kromě toho ne všechny vyhledávače dokáží indexovat jiné formáty než HTML, takže řada údajů, zveřejňovaných ve formátech MS DOC, RTF nebo v přeceňovaném PDF, se do nich prostě nikdy nedostane. A co se nachází v gigabajtech komprimovaných archivů, to už asi nikdo nikdy nezjistí.
Prvním, kdo veřejně promluvil o bolavém místě všech hledačů svatého grálu, byl Chris Sherman. Nemýlím-li se, zveřejnil svou rebelantskou myšlenku v roce 1997, na konferenci odborníků na vyhledávání informací v rozlehlých sítích v Rio deJaneru. Od té doby se stal absolutní autoritou v této oblasti a dnes se zabývá konzultacemi pro největší vyhledávače a publicistikou.
Myšlenky Chrise Shermana se staly veřejným tajemstvím. Kupodivu nejlépe je přijali ti, od nichž by se to dalo sotva očekávat – odborníci a knihovnictví, zvláště v akademické oblasti. Také „naši lidé“ se zapojili do zkoumání této problematiky, takže i u nás můžete najít různé informační a přípojné body, z nichž některé jsem vyjmenoval níže. Specifikem našeho prostředí je navíc snaha zajistit bezplatný přístup i k informacím z odborných databází, které jsou mimořádně cenné a rozhodně ne laciné. Pro představu – metadatabáze Web of Science, jež je složena z desítek databází, shrnujících prakticky veškeré odborné časopisecké články a monografie, je tak drahá, že na její zakoupení pro Českou republiku se muselo složit přes sto akademických a jiných subjektů, v čele s giganty jako AV ČR nebo Univerzita Karlova.
Nevýhody a jak jim čelit
Hlavní nevýhodou je, jak už z názvu vyplývá, „neviditelnost“ dané informace. Je to jako těžká skleróza – informace jsou někde uvnitř, ale člověk se k nim nemůže dostat. A pokud má smůlu, nezjistí ani, že taková informace existuje.
Výše nastíněná situace je poměrně nezávažná, pokud jde třeba o stránky fanklubů nějaké skupiny. Vím, pro někoho to může být srdeční záležitost, ale celkový efekt nedostupnosti dané informace je velmi nízký. Naproti tomu efekt nedostupnosti výsledků lékové studie může znamenat rozdíl mezi životem a smrtí stovek nebo tisíců lidí. Naopak získání takové neveřejné informace může znamenat podstatnou konkurenční výhodu, například v oblasti automobilového průmyslu nebo stavebnictví, kde je neustále velký hlad po nových materiálech a technologických postupech.
Nechme teď na chvíli bokem extrémy, efekt neviditelného webu se projevuje třeba i na nabídce realitní nebo turistické kanceláře. Vyhledávače ignorují stránky, generované z databází pomocí řídících znaků v URL, o sessioningu nemluvě. Stránky tak zůstanou mimo oblast dostupnosti a zákazníka získá jiná, méně moderní, ale viditelnější firma se statickými stránkami.
Řešením tohoto problému, nebo spíše celého klubka problémů, se zabývá celá řada odborníků. Jednou z možností je dynamické přepisování URL. Využívají se k tomu speciální „mapovací“ moduly serverů (mod_rewrite pro Apache) nebo uživatelské skripty, na něž se přesměrují uživatelé z falešných adresářů (uživatelská stránka 404, force_redirect atd.). Jednoduchá a zapamatovatelná adresa http://www.realitka.cz/strednicechy/brandys/
se tak může v interním jazyce služby stát třeba ekvivalentem známé hrůzy desítek podivuhodných znaků, které si nikdo nikdy ani nemůže zapamatovat.
Výhody a jak jim čelit
Výhodou neviditelného webu je ukrytí neveřejných informací. Nemluvím teď o přísně utajovaných vládních aférkách, ale o docela obyčejných každodenních informacích, které sice být na webu musí, nebo je výhodné je na něj umístit, ale nemusí do nich každý nakukovat. Vezměte si například takový soubor s osobními záložkami. Je dobré ho mít při ruce, ale není nezbytně nutné ho sdílet s kdekým. Pokud se bude takový seznam nacházet v dynamicky generovaném souboru, jehož řídící parametr (záměrně neříkám heslo) bude zapisován do URL za otazník, je takřka jisté, že ho budou ignorovat i ti nejdrzejší pavouci a jiná webová havěť.
Další možností, nebo spíše nutností, je ochrana osobních dat. Nikdo nestojí o to, aby byla zveřejněna jeho osobní pošta, a většina lidí vnímá stejně nemile i zveřejňování archivů e-mailových konferencí, které se rozmohlo v poslední době. (Zvlášť když pachatelé takového kousku hezky vypíchnou i poněkud „nepřesné“ výroky některých slavných osobností.)
Ukrývat ale můžeme i jiné informace, například ceníky svých on-line prodejen. Služby pro automatické porovnávání cen v různých webshopech jsou opravdu nepříjemné, sběrače e-mailových adres dovedou člověku nadělat hezké potíže a případný únik důležitých osobních dat z různých institucí může vést k opravdu závažným škodám. Přitom nemluvím o neobvyklých jevech, a to nejen u nás.
Nemusíme ale hned zdůrazňovat katastrofické scénáře. Zdaleka nejčastěji nechceme totiž obsah zcela znepřístupnit, nebo jej prodávat. Někdy můžeme jen mít dojem, že zbytek světa neoprávněně vykrádá plody naší práce, linkuje naše obrázky, načítá naše seznamy, přebírá naše odkazy. Jak tomu zabránit?
I zde je jednoduchá možnost, spočívající ve „zneviditelnění“ webu, tentokrát pouze pro všeliké slídily a pokoutní zlodějíčky z rodu pseudoUI. Stačí do vstupní stránky vložit automaticky generovaný obrázek, jenž ponese sled znaků, tvořících vstupní kód pro aktuálního brouzdala (session). Pokud je obrázek dostatečně matný, poškozený a zkřivený, žádný OCR automat ho nepřečte, ale člověk jej spolehlivě rozezná.
Kde hledat odpovědi?
Nemiluji rozvláčné závěry, v nichž autor často šikovnou manipulací se slovíčky podsouvá čtenářům svůj názor na okolní svět. Udělejte si závěr sami, ale nikoli z mého článku. Ten měl za úkol jen povzbudit vaši zvědavost, seznámit vás s něčím, na co jste dosud nepomysleli, upozornit vás na problém, který já osobně považuji za závažný a důležitý pro budoucnost. Doufám, že se vydáte po stopách několika webových nitek, jež jsem si vám dovolil připravit níže. Až se vrátíte, můžete mi říci něco o pravdě, která je prý někde tam uvnitř.
Odkazy a zdroje
- The Invisible Web – článek Chrise Shermana s obsáhlým seznamem zdrojů
- Guru interview: Chris Sherman, search guide – rozhovor s otcem neviditelného webu
- Searchwise – domovská firma Chrise Shermana
- The Deep Web: Surfacing Hidden Value – vyčerpávající článek o problematice
- The Invisible Web – rozcestník oborových databází
- SemanticWeb.org – portál sémantického webu podle W3C
- Neviditelný web – co vyhledávací stroje nenajdou – přednáška Martina Lhotáka na konferenci Inforum2002
- Seznam volně přístupných databází
- Obrana proti robotům hledající emaily na www stránkách
- Nejen sémantický web…
- Hrozba sémantického webu
- Tajemství dobrovolné lokalizace webového projektu
Starší komentáře ke článku
Pokud máte zájem o starší komentáře k tomuto článku, naleznete je zde.
Mohlo by vás také zajímat
-
Jak se chránit před podvody na internetu – část 1
8. října 2024 -
Webový správce souborů Filestash – dojmy a recenze
29. července 2024 -
Souboj na trhu s CPU pro servery: AMD vs. Intel
8. prosince 2023
Nejnovější
-
Jak rozšířit úložiště Macu za pětinovou cenu?
16. prosince 2024 -
Nové trendy v doménách pro osobní projekty – DIY, LIVING a LIFESTYLE
9. prosince 2024 -
Jak chránit webové stránky před Web/AI Scrapingem
27. listopadu 2024 -
Jaký monitor je nejlepší k novému Macu Mini?
25. listopadu 2024