Google Sitemaps
Google Sitemaps jsou poměrně jednoduchý způsob, jak přilákat Google na svůj web. Tvůrce webu pouze nabídne vyhledávači informace o změněných nebo nových stránkách – stačí vytvořit soubor předepsaného formátu (sitemap soubor) a průběžně jej aktualizovat – a vyhledávač už zařídí zbytek. Sitemap je vlastně takovým RSS pro Google.
Pro koho jsou Google Sitemaps určeny
Abyste mohli využívat Google Sitemaps, měli byste mít zřízen u Google účet (Google Account). Ten už máte, pokud používáte Gmail, případně některé další služby od Google. Úmyslně jsem použil podmiňovací způsob, protože Google Account není nutný. Přesto jej doporučuji, protože můžete sledovat, jak Google pracuje s vaší sitemap.
Čím vám budou Google Sitemaps užitečné
Tak především, Google Sitemaps:
- nabídnou Google stránky, které chcete, aby byly nově zaindexovány
- poskytnou čtenářům čerstvé informace – výsledky vyhledávání mohou nabídnout novější stránky
- nabídnou Google další informace o stránkách (například čas poslední změny, četnost aktualizací a podobně)
Google Sitemaps jsou v současnosti v bezplatné beta verzi. Google Sitemaps nenahrazují standardní indexaci webových stránek. Jsou doplňkem stávajícího crawlování s cílem jeho zlepšení.
Jak vytvořit sitemap pro Google Sitemaps
Mnoho cest vede do Říma. A mnoho cest vede ke Google Sitemaps:
- Autor může využít Sitemap Generator nebo jiný automatizovaný prostředek.
- Lze poskytovat XML dokument (XML Sitemap) vytvořený ručně.
- Google akceptuje prostý textový dokument se seznamem odkazů.
- Google Sitemaps umí využít RSS 2.0 a Atom 0.3 obsahující vyplněný element
lastMod
.
Jak dát Google Sitemaps o sobě vědět
Opět máte na výběr několik možností:
- Sitemap Generator sám informuje Google o existenci sitemap.
- Můžete se přihlásit a zadat adresu ručně.
- Můžete využít HTTP, například
http://www.google.com/webmasters/sitemaps/ping?sitemap=sitemap_url
.
Sitemap Protocol
Sitemap Protocol je dialektem XML. Způsobů, jak vytvořit soubor sitemap, je několik. Můžete použít už zmiňovaný Sitemap Generator, který ovšem není univerzální a ve většině případů je nutné jej upravit. Sitemap Generator je skript, který umí generovat obsah sitemap a poslat do Google informaci o existenci sitemap. Sitemap Generator umí vytvářet sitemap například z textových souborů se seznamem URL, z access logů webového serveru, případně po zadání cesty ke složce obsahující statické soubory. Sitemap Generator vyžaduje Python od verze 2.2.
Sitemap
Můžete upravit svůj publikační systém a sitemap generovat vždy při aktualizacích webu. Soubor můžete také vytvářet ručně (třeba v Poznámkovém bloku nebo PSPadu) a uploadovat jej na web.
Soubor sitemap by měl být samozřejmě validní (pozor na to, že XML validita je přece jen o něčem jiném, než validita XHTML dokumentů). Google nabízí vlastní Sitemaps schéma, proti kterému pak můžete sitemap validovat. Obdobně existuje i schéma pro Sitemaps index (seznam jednotlivých sitemap).
Pro ukázku uvádím příklad jednoduchého souboru sitemap, který obsahuje odkaz na dva dokumenty (uvnitř elementu url
). První element obsahuje všechny dostupné elementy, druhý jen povinný element loc
:
<?xml version=“1.0″ encoding=“UTF-8″?>
<urlset xmlns=“http://www.google.com/schemas/sitemap/0.84″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=prague</loc>
</url>
</urlset>
Jak vidíte, soubor sitemap je velmi jednoduchý XML soubor obsahující pouhých šest elementů (a pouze tři jsou povinné):
changefreq
- Jak často je odkazovaná stránka měněna. Je to doporučení pro Google. Je na uvážení Google, jestli se tímto doporučením bude řídit. Může obsahovat následující textové hodnoty:
always
– dokument se mění při každém přístupu k němuhourly
– jednou za hodinudaily
– denněweekly
– týdněmonthly
– jednou za měsícyearly
– jednou za roknever
– dokument se nemění (není vyloučeno, že Google bude dokument indexovat pro případ neočekávaných změn)
lastmod
- Kdy byla odkazovaná stránka naposledy změněna. Měla by být použita textová hodnota ve formátu podle požadavků Date and Time Formats (ISO 8601), například
2005-06-14T11:19:35+01:00
, případně zkrácená varianta2005-06-14
. loc
- Povinný element, obsahuje URL dokumentu, které musí být kratší než 2048 znaků.
priority
- Význam (váha) stránky vůči ostatním stránkám daného webu. Obsahuje hodnoty mezi
0.0
(nejnižší váha) a1.0
(nejdůležitější stránka). Pokud není atribut zadán, je výchozí hodnota0.5
. Hodnota nemá vliv na pořadí stránky ve výsledcích vyhledávání. Také nemá význam dát všem dokumentům prioritu1.0
. url
- Povinný element, uzavírá elementy
changefreq
,lastmod
,loc
apriority
. Je to element pro jednu URL. Pokud odkazujete na složku, musí adresa končit lomítkem. urlset
- Povinný element nejvyšší úrovně.
Sitemap Index
Pokud by byl soubor sitemap větší než 50 000 řádků, případně větší než 10 MB, je třeba sitemap rozdělit do několika souborů. (Důvodů pro rozdělení sitemap může být vícero. Třeba přístupová práva do adresářů, různé doby aktualizace odkazovaných souborů, plánované rozšíření webu a podobně.) Na jednotlivé soubory se potom odkazuje ze souboru sitemap index. Soubor sitemap index může obsahovat odkazy až na 1 000 sitemap. Google doporučuje sitemap index soubor pojmenovat Sitemap_index.xml
.
Struktura souboru sitemap index je podobná souboru sitemap (všechny elementy mimo element lastmod
jsou povinné):
<?xml version=“1.0″ encoding=“UTF-8″?>
<sitemapindex xmlns=“http://www.google.com/schemas/sitemap/0.84″>
<sitemap>
<loc>http://www.example.com/sitemap-1.xml</loc>
<lastmod>2005-06-14T13:50:00+01:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap-2.xml</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
Je nutné znovu zdůraznit, že sitemap i sitemap index jsou XML dokumenty, a proto pro ně platí stejná pravidla jako pro jiné XML dokumenty. Mimo jiné jsou u elementů rozlišovány malé a velké znaky. Hodnoty musí být kódovány (viz & v příkladu).
Texťák stačí
Google doporučuje používat Sitemap Protocol. Přesto můžete do Google Sitemaps přihlásit prostý textový dokument, který na jednotlivých řádcích obsahuje URL stránek. Pamatujte ale na určitá omezení:
- na každém řádku může být jen jedna adresa
- adresa nesmí být rozdělena na více řádků
- soubor musí být kódován v UTF-8
- nejvyšší počet řádků je 50 000
Pár háčků
Google nezaručuje, že bude indexovat všechny stránky uvedené v sitemap. Ale může vašim stránkám pomoci. Google slibuje, že pomocí informací v sitemap bude lépe plánovat další indexování. Google také nezaručuje, že ihned po vytvoření a zaregistrování vaší sitemap začne její obsah indexovat a že začne indexovat obsah stránek v ní uvedených. Musíte si uvědomit, že se pořád jedná o beta verzi.
Další omezení jsem již zmínil. Jedná se o nejvyšší počet URL v jednom souboru sitemap, který je 50 000. Velikost nekomprimovaného souboru sitemap také nesmí být větší než 10 MB (10 485 760 Bytes). Proto je nutné velký soubor rozdělit na více menších sitemap.
Důležité je umístění sitemap souborů. Google doporučuje umístit soubory do rootu webu. V opačném případě se vystavujete riziku, že Google nebude indexovat všechna URL umístěná v souboru sitemap. Například pokud umístíte soubor sitemap na adresu http://www.example.com/clanky/sitemap.xml
, nebudou indexovány URL umístěné například na adresách http://www.example.com/images/
nebo http://www.example.com/
(a to nemluvím o odkazech na jiný web). Budou se indexovat pouze URL začínající na http://www.example.com/clanky/
.
Google byste měli informovat pokaždé, když změníte obsah sitemap. Můžete to udělat ručně ze svého účtu u Google Sitemaps, nebo můžete posílat zprávy při změně obsahu sitemap automaticky.
Souhrn
Ani Google Sitemaps nejsou spásou pro všechny. Dobře napsané weby většinou žádné berličky nepotřebují. Často indexované stránky asi výraznou výhodu nezískají. Přesto jsou Google Sitemaps zajímavou možností, jak zvýšit konkurenceschopnost svých stránek.
Odkazy a zdroje
- Google Account – vytvoření nového účtu
- Sitemap Generator
- Sitemaps Third Party Programs & Websites – produkty třetích stran
- W3C validační nástroje
- W3C XML Schema Tools Guide
Starší komentáře ke článku
Pokud máte zájem o starší komentáře k tomuto článku, naleznete je zde.
Mohlo by vás také zajímat
-
Gaming na HDR monitoru: Stojí to za to?
12. srpna 2024 -
Užitečné nástroje pro bezpečnost na internetu
17. října 2024
Nejnovější
-
Jak rozšířit úložiště Macu za pětinovou cenu?
16. prosince 2024 -
Nové trendy v doménách pro osobní projekty – DIY, LIVING a LIFESTYLE
9. prosince 2024 -
Jak chránit webové stránky před Web/AI Scrapingem
27. listopadu 2024 -
Jaký monitor je nejlepší k novému Macu Mini?
25. listopadu 2024
Karel
Led 25, 2010 v 19:07Skoda, ze nektere dulezite odkazy nejsou funkcni :( Jako treba
https://www.google.com/webmasters/sitemaps/docs/en/sitemap-generator.html
nebo
http://www.google.com/webmasters/sitemaps/ping?sitemap=sitemap_url
Miroslav Kučera
Led 25, 2010 v 19:28Karel: je to pet let stary clanek :-) Nekdy nelze ocekavat, ze veci, co fungovaly pred peti lety, budou fungovat i dnes. Zvlaste to plati pro tak dynamickou oblast jako je internet.
VLadik T.
Úno 2, 2010 v 0:17Zajímalo by mě jestli lze vkládat dynamicky generované XML soubory s koncovkou .php .
Taky jestli lze přenášet parametry přes GET jako třeba, že vložím do robots.txt tento odkaz na sitemap:
Sitemap: http://www.example.com/sitemap.php?sekce=kategorie&s=1
nebo když budu odkazovat na sitemap_index takovýmto způsobem:
Sitemap: http://www.example.com/Sitemap_index.php
Chtěl bych vytvořit dynamický sitemap, jelikož se můj web rychlerozrůsta a uvítal bych kdyby se sitemapy vytvářely automaticky a rozdělovali taky automaticky. Jelikož je těžce nepraktický zadávat nebo generovat ručně každých 3 dny sitemap…