Mapa XML (XML sitemap)

Mapa XML, inaczej nazywana XML sitemap, jest protokołem w formacie XML, który umożliwia webmasterom informowanie wyszukiwarek internetowych o adresach URL dostępnych w obrębie ich witryny. Narzędzie to pozwala na dodanie dodatkowych informacji o każdym adresie URL, takich jak data ostatniej aktualizacji, częstotliwość zmian oraz znaczenie w kontekście innych stron na witrynie. Dzięki temu wyszukiwarki internetowe mogą sprawniej indeksować strony i wykrywać nowe lub zaktualizowane treści na stronie. Mapa XML jest szczególnie przydatna dla dużych witryn, witryn z bogatymi treściami multimedialnymi lub witryn, które mają trudność z pełnym zindeksowaniem przez roboty wyszukiwarek. Protokół Sitemaps uzupełnia plik robots.txt, który określa, które części strony powinny być wykluczone z indeksowania.

Spis treści

Historia i rozwój map XML

Mapy XML, znane również jako XML sitemaps, zostały po raz pierwszy wprowadzone przez Google w czerwcu 2005 roku jako wersja Sitemaps 0.84. Celem było umożliwienie webmasterom publikowania list linków z całej ich witryny, co miało pomóc w bardziej efektywnym przeszukiwaniu przez wyszukiwarki internetowe. W listopadzie 2006 roku Google, Yahoo! i Microsoft ogłosiły wspólne wsparcie dla protokołu Sitemaps i zaktualizowały schemat do wersji 0.90, choć bez większych zmian.

W kwietniu 2007 roku wsparcie dla map XML ogłosili również Ask.com i IBM. Co więcej, Google, Yahoo i MSN wprowadziły wtedy automatyczne wykrywanie map XML poprzez plik robots.txt. W maju 2007 roku rządy stanowe Arizony, Kalifornii, Utah i Wirginii poinformowały, że będą korzystać z map XML na swoich stronach internetowych.

Protokołowi Sitemaps przyświecały idee pochodzące z „Crawler-friendly Web Servers”, z udoskonaleniami obejmującymi automatyczne wykrywanie przez plik robots.txt i możliwość określenia priorytetu oraz częstotliwości zmian stron.

Korzyści z wykorzystania Map XML

Mapy XML są szczególnie korzystne dla witryn, które mają problemy z pełnym indeksowaniem przez roboty wyszukiwarek. Dotyczy to w szczególności stron, które:

  • Mają obszary niedostępne przez przeglądanie interfejsu użytkownika;
  • Korzystają z bogatej zawartości AJAX, Silverlight lub Flash, która zazwyczaj nie jest przetwarzana przez wyszukiwarki;
  • Są bardzo rozbudowane i istnieje ryzyko, że nowe lub ostatnio zaktualizowane treści mogą zostać pominięte przez web crawlery;
  • Posiadają dużą liczbę stron, które są odizolowane lub słabo powiązane ze sobą;
  • Mają niewiele zewnętrznych linków prowadzących do witryny.

Dzięki mapom XML, webmasterzy mogą dodawać dodatkowe informacje o każdym adresie URL, takie jak data ostatniej aktualizacji, częstotliwość zmian oraz znaczenie w kontekście innych stron na witrynie. To pomaga wyszukiwarkom w bardziej efektywnym indeksowaniu stron i wykrywaniu nowych lub aktualizowanych treści.

Format plików i elementy Map XML

Protokół Sitemaps używa formatu XML do definiowania map stron. Plik mapy XML musi być zakodowany w UTF-8. Mapy XML mogą również przyjmować formę zwykłej listy adresów URL w pliku tekstowym, który również musi być zakodowany w UTF-8. Taki plik nie może przekraczać rozmiaru 50 MiB (niekompresowany) ani zawierać więcej niż 50,000 adresów URL. Jeśli mapa wychodzi poza te limity, powinna być podzielona na kilka map z plikiem indeksu map, który wskazuje na poszczególne mapy.

Sitemap index pozwala na listowanie wielu map XML w jednym pliku indeksowym. Jest to szczególnie przydatne dla dużych stron, które mają tysiące stron wymagających indeksowania.

Oprócz formatu XML, możliwe jest wykorzystanie kanałów syndykacji (syndication feed), które są szczególnie użyteczne w witrynach regularnie aktualizujących zawartość. Wadą tego rozwiązania jest jednak to, że może ono dostarczać robotom wyszukiwarek jedynie najnowsze adresy URL, podczas gdy inne mogą być odkrywane w trakcie normalnego indeksowania.

Tekst został wygenerowany przy pomocy AI i został sprawdzony przez Dominik Fajferek.