Artefakty informační architektury – vyhledávací systémy

30. listopadu 2004

Vyhledávání je další formou získávání informací. Tato oblast je velmi náročná, drahá a rozsáhlá, takže si uvedeme jen nástin do problematiky. I tento informační základ vám však může pomoci podstatně zkvalitnit tuto součást webů, která bývá v současnosti nejvíce zanedbávaná.

Potřebuje váš web vyhledávání?

Ne všichni uživatelé chtějí vaše stránky prohledávat, někteří je chtějí jen procházet. Pro zjištění, zda vůbec implementovat vyhledávání, si položte několik otázek:

Má váš web dostatek obsahu?
Kolik je dost? Může to být 5 stránek, 50 nebo i 500. Důležité je, zda uživatelé chodí na vaše stránky informace hledat. Častěji například vyhledávají uživatelé na stránkách technické podpory než uživatelé bankovního systému. Je-li web víc knihovna než softwarová aplikace, má implementace vyhledávání určitě smysl. Je-li to váš případ, zvažte množství obsahu a vyvažte množství času potřebného k vytvoření a správě vyhledávacího systému s přínosem pro uživatele.
Odvede investice do vyhledávacího sytému zdroje z navigačního systému?
Hodně vývojářů vidí vyhledávací systémy jako řešení problémů uživatelů s hledáním informací na jejich webech. Stávají se tak náhradou chybných navigačních systémů a jiných navigačních slabostí. Nejdříve je nutné vyřešit problémy navigačního systému a pak můžete využívat jeho zdroje, jako je například řízený slovník použitý k označování obsahu.
Máte čas a znalosti pro optimalizaci vyhledávacího systému?
Vyhledávací systémy je snadné nastavit a rozběhnout, ale je těžké to udělat dobře. Často se takto můžete setkat s nepochopitelným vyhledávacím rozhraním a nesmyslnými výsledky. To bývá důsledkem nainstalování vyhledávacího stroje, nasměrování na web a zapomenutí na něj.
Existují lepší alternativy?
Levnější a míně časově náročnou variantou může být třeba index. Jak index, tak vyhledávání pomáhají uživatelům, kteří vědí, co hledají. Vytvořit ručně webový index je sice spousta práce, ale může být spravován kýmkoli se znalostí XHTML.
Budou se uživatelé obtěžovat s hledáním?
Například u webu s pohlednicemi si raději prohlédnou náhledy obrázků.
Máte příliš mnoho informací k procházení?
I při dobré hierarchii může počet kategorií tak narůst, že jejich procházení se stane více než obtížným, typicky u portálů. Při takto velkém množství informací se hierarchie stává doplňkovou navigací a je také zobrazena ve výsledcích vyhledávání.
Je váš web příliš fragmentovaný?
Například na firemním webu si při postupném narůstání obsahu pravděpodobně každá organizační jednotka vytvořila po svém obsah, za který odpovídá a nejspíš bez jakéhokoliv označení metadaty pro rozumné zatřídění a procházení.
Očekávají vaši uživatelé vyhledávání?
Někteří uživatelé nechtějí procházet váš web, protože mají málo času, nebo omezené připojení. Jiní očekávají vyhledávací boxík všude. Bývá to konvence a je těžké proti ní bojovat.
Lze vyhledáváním zmírnit dynamiku?
Zvažte zavedení vyhledávání pro weby s vysoce dynamickým obsahem. Například noviny. Nebude čas ručně třídit nejnovější zprávy do správných kategorií a automatické indexování může pomoci dostat se uživatelům k vašemu obsahu.

Základní anatomie vyhledávání

Existují dvě běžné varianty vyhledávacích systémů. Jednodušší varianta poskytuje uživateli primitivní rozhraní pro zadání dotazu. Může použít běžný jazyk nebo speciální vyhledávací výrazy, jakou jsou booleovské operátory (AND, OR, NOT), popřípadě nástroj pro vytvoření dotazu. Tento dotaz je „porovnán“ s indexem výrazů, které mohou obsahovat jak všechny výrazy z textu, tak jenom výrazy z vybraných polí (názvy dokumentů, jména autorů nebo kategorie). Výsledky jsou pak zobrazeny v ideálním případě setříděné podle relevantnosti.

Složitější varianta je čím dál běžnější. V systému jsou vytvořeny záznamy obsahující metadata reprezentující dokumenty. Jak metadata, tak dokumenty mohou být uloženy v databázi nebo CMS. Dotazy jsou porovnávány s indexy vytvořenými nad těmito metadaty. Výsledky pak bývají mnohem přesnější.

Co hledat

Pro prohledávání části obsahu je vhodné stanovit vyhledávací zóny, aby nedocházelo třeba k míchání HR článků s menu ve firemní restauraci, když chce uživatel prohledávat knowledgebase. Stejně tak je vhodné zauvažovat jaké části dokumentu prohledávat – autor, nadpis a text jsou vhodnými kandidáty, ale například patičku s copyrightem by bylo lepší vypustit.

Vyhledávací zóny

Vyhledávací zóny jsou části webu, které jsou indexovány odděleně od zbytku obsahu. Hledá-li uživatel v nějaké zóně, identifikuje se tak jako zájemce o tuto část informací. V ideálním případě vyhovuje toto rozdělení jeho potřebám a eliminací prohledávání obsahu, který ho nezajímá, získá relevantnější informace.

Vyhledávací zóny lze sestavit několika způsoby, například podle:

  • typu obsahu
  • uživatelů
  • role
  • předmětu či tématu
  • geografických informací
  • autorů
  • data vydání
  • oddělení firmy

Navigace versus destinace – většina webů obsahuje dva typy stránek:

  • Navigační – obsahují odkazy pro další procházení, může to být hlavní stránka, index a podobně.
  • Destinační – obsahují obsah, vedou na ně odkazy z navigačních stránek.

Velmi vhodné je neindexovat navigační stránky, protože můžeme předpokládat, že uživatele zajímá hlavně obsah.

Indexace pro specifické publikum – rozhodneme-li se vytvořit zóny pro specifické skupiny uživatelů, je vhodné zkusit, k jak velké redukci při vyhledávání v jednotlivých zónách dojde oproti vyhledávání na celém webu. Při redukci v řádech 10 až 20 procent není zřejmě obsah pro jednotlivé skupiny dostatečně odlišný a není třeba toto rozdělení realizovat.

Indexace podle předmětu – jestliže váš web používá silně předmětově orientované organizační schéma (například katalog odkazů na portálu), mohli byste najít spoustu vyhledávacích zón. Proto při procházení kategorií v organizačním schématu je dobré umožnit vyhledat pouze v dané kategorii.

Indexace posledního obsahu – chronologicky organizovaný obsah může být skvělým příkladem pro vytvoření vyhledávacích zón. Protože informace závislé na datu nejsou nejednoznačné, je dobré vytvořit vyhledávácí zóny právě podle data. Uživatel, který se vrací na stránku, si tak může zkontrolovat, co je nového v posledním dni, týdnu nebo měsíci. Nebo je možné nechat uživatele vytvořit jeho vlastní zónu zadáním počátečního a koncového data.

Výběr obsahu k prohledávání

Tak jako poskytujeme pomocí zón možnost vyhledat jen v určité části webu, můžeme poskytnout výběr, v jakých částech obsahu vyhledat. Obsah může sestávat z mnoha komponent, a to jak viditelných (text, obrázky, odkazy, autor, titulek) tak skrytých (metadata obsahující klíčová slova). Dobrým důvodem pro rozpitvání dokumentu při prohledávání je možnost prezentace jeho částí při zobrazení výsledků. Třeba popis, nadpis, kategorii a URL.

Zda ale toto vyhledávání uživatel nakonec použije, zjistíme často až z logu serveru.

Vyhledávací algoritmy

Existuje velmi mnoho vyhledávacích algoritmů, zmíníme jich tedy jen několik. Tomuto tématu se věnujeme proto, že tak jako specifické nástroje řeší specifické problémy, je tomu stejně i u vyhledávacích algoritmů. Nejspíš neexistuje algoritmus, který by splnil všechny vaše požadavky.

Shoda podle šablony (pattern matching)

Algoritmus je založen na porovnávání uživatelova dotazu s plným textem dokumentu a hledáním shody textu.

Úplnost (recall) a přesnost (precision)

Algoritmy mohou být zaměřeny více na úplnost nebo více na přesnost. Použijeme-li pro vyhledávání kořen hledaného slova, dostaneme více výsledků, tedy větší úplnost, ale menší přesnost. Stejně tak hledáme-li autora dokumentu a omezíme vyhledávání jen na pole autor, přesnost bude velká, budeme-li hledat jeho jméno i v textu, zmenší se přesnost a stoupne úplnost.

  • úplnost (recall) = poměr množství vrácených relevantních dokumentů ku počtu relevantních dokumentů v systému (kolik z dokumentů, které jsou v systému, dostanu, protože jsou to ty, které chci)
  • přesnost (precision) = poměr množství vrácených relevantních dokumentů ku celkovému počtu vrácených dokumentů (kolik z dokumentů, které dostanu, je těch, které chci)

Další možnosti

Některé algoritmy zkoumají podobnost dokumentů, odstraňují stop slova (a, jako, je, on), jiné při malém počtu výsledků rozšiřují hledání třeba o:

  • citování (kdo na dokument odkazuje)
  • kam odkazuje vyhledaný dokument
  • kolaborativní filtrování (uživatelé prohlížející tento dokument se dále podívali na…, kupující koupili…)
  • podobnost založenou na textu

Tvorba dotazů

Nástroje pro tvorbu dotazů bývají uživateli často neviditelné. Mohou provádět například následující činnosti:

  • kontrola pravopisu
  • fonetická podobnost
  • skloňování a časování
  • algoritmické ohýbání
  • použití řízených slovníků

Prezentace výsledků

Prezentace výsledků je stejně důležitá, jako vyhledávání samo. Libovolně kvalitní výsledky vyhledávání mohou přijít vniveč, nejsou-li správně prezentovány – předány uživateli.

Co zobrazit

Jednoduché pravidlo zní: „Zobrazte méně informací uživateli, který ví co hledá (například hledá jen v poli autor) a více uživateli, který to neví.“ Další možností je nechat uživatele ovlivnit co chce vidět (například tlačítkem „Skrýt popis“).

Jaké množství informací zobrazit u jednoho záznamu, závisí i na tom, jak velké bývají sady výsledků. Je-li web malý nebo výsledky vyhledávání hodně specifické, je možno zobrazit uživateli více informací. Ale mějte na paměti, že ať dáte uživateli jakkoli najevo, že je výsledků více, málokterý se podívá na další stránku výpisu.

To, jaké informace zobrazit, závisí také na tom, jaké informace jsou dostupné pro vyhledávání a jak je obsah používán. Hledáte-li osobu v telefonním seznamu, chcete ve většině případů znát její telefonní číslo a je proto zbytečné uživatele nutit kliknout na záznam pro jeho zobrazení. Tato informace může být zobrazena už ve výsledcích vyhledávání.

Kolik dokumentů zobrazit

Množství výsledků zobrazovaných na stránce závisí na předchozích faktorech. Zobrazujete-li k jednomu nalezenému dokumentu hodně informací, měl by být počet zobrazených nalezených dokumentů na stránce menší a naopak. Ale je lépe zobrazit méně dokumentů a nechat tuto možnost uživatele ovlivnit (limitující může být třeba rychlost připojení).

Je doporučeno zobrazit uživateli celkový počet dokumentů, aby měl představu při procházení výsledků, kolik dokumentů ještě zbývá. Nutností bývá použití navigačního systému pro procházení výsledků.

Prohlížení výsledků

Způsob zobrazení výsledků závisí na tom, jaké výsledky chce mít uživatel zobrazeny první. Existují dvě běžné metody – sorting a ranking.

Sorting (třídění či řazení) je vhodnější pro uživatele, kteří se chystají provést nějaké rozhodnutí, například vybrat a koupit nejlevnější výrobek.

Nejčastější možnosti třídění:

  • podle abecedy – u anglických názvů bývá vhodné vynechat členy (the, a)
  • podle data
  • podle ceny

Ranking (hodnocení) je vhodný pro uživatele, kteří se snaží něco nového naučit, často probíhá podle relevantnosti dokumentu.

Nejčastější možnosti hodnocení:

  • podle relevance
  • podle popularity
  • podle uživatelského hodnocení
  • pay-for-placement (platba za umístění)

Další možnosti

Mezi další možnosti práce s výsledky vyhledávání patří:

  • seskupování výsledků – skrytí podobných
  • export – tisk, poslání e-mailem
  • uložení výsledků – na serveru, třeba pro pozdější porovnání
  • uložení dotazu
  • onačení dokumentů – pozdější prohlížení (něco jako košík pro dokumenty)

Vyhledávací interface

Návrh vyhledávacího rozhraní ovlivňuje několik faktorů:

  • Zkušenosti uživatelů: Umí používat booleovské výrazy? Použít nápovědu?
  • Typ výsledků: Chtějí uživatelé vyhledávání jen zkusit nebo provádí komplexní pátrání? Jaký typ komponent umožní uživateli lépe se rozhodnout a kliknout na vyhledaný dokument? Mají být výsledky jednoduché a nebo poskytovat detailní informace o každém nalezeném dokumentu?
  • Typ prohledávaných informací: Jedná se o strukturovaná pole nebo o čistý text? Je obsah v XHTML nebo i v dalších, třeba netextových dokumentech?
  • Množství prohledávaných informací: Bude uživatel zahlcen počtem výsledků? Jaké je to správné číslo?

Jak se na internetu rozšiřuje počet uživatelů a klesají jejich průměrné zkušenosti s vyhledáváním, klesá i trpělivost s používáním rozšířených možností vyhledávacích strojů. Často jen napíšou text, zmáčknou tlačítko a čekají, co se stane. Na to zareagovali vývojáři vyhledávačů integrací rozšířené funkcionality do základního hledání. Například Google seřadí výsledky podle klasifikace relevantnosti.

Vyhledávací box

Všudypřítomný a jednoduchý, vhodný pro uživatele, kteří se nechtějí učit rozšířené možnosti vyhledávání. Ty je můžete naučit při vhodné příležitosti, jako je třeba zobrazení příliš velkého množství výsledků.

Pozor, vyhledávací box není vhodno umísťovat v blízkosti jiných boxů. Uživatele to může mást a pravděpodobně místo přečtení si nápisu vedle boxu napíše vyhledávací dotaz do pole pro přihlašovací jméno nebo heslo. Lepší je umístit vyhledávací box v blízkosti hlavní navigace a přejmenovat tlačítko z „Odeslat“ na „Hledat“.

Pokročilé vyhledávání

Rozšířené vyhledávání je ta část systému, kde je uživateli odhalena větší část funkcionality vyhledávacího stroje. Zde mají uživatelé možnost ovlivnit chování vyhledávače. Těmito uživateli jsou jednak pokročilí vyhledávači a jednak vyhledávači frustrovaní, kteří chtějí zrevidovat svoje hledání, když zjistí, že základní vyhledávací box nestačí.

Podpora revizí

Nenajde-li uživatel, co hledá, můžeme mu pomoci jeho vyhledávání zdokonalit. Příklad možností, které máme:

  • Zopakovat hledání ve výsledcích.
  • Zopakovat hledání v jiných oblastech – zvlášť je-li možnost hledat ve více zónách.
  • Zobrazit, co se skutečně hledalo – uživatelův dotaz, zapnuté filtry, implicitní booleovské operátory, třídění, klasifikaci.
  • Integrovat vyhledávání s procházením – vracejte jak kategorie, tak dokumenty.
Předchozí článek stafbul.com
Štítky: Články

Mohlo by vás také zajímat

Nejnovější

1 komentář

  1. Anna Filkukova

    Dub 2, 2010 v 12:17

    Dovoluji si upozornit, že se jedná o doslovný překlad knížky Informační architektury – Information architecture for the www od Morville a Rosenfelda, bylo by vhodné, kdyby autor citoval původní dílo, porušuje tímto autorský zákon.

    Odpovědět

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *