Datoteku robots.txt — to je glavna datoteka koja opisuje pravila za obradu stranica na tražilicama za robote. Ova datoteka potrebna je za određivanje primarni naziv stranice, sitemap (sitemap.xml), otvorene i zatvorene ovim stranicama.
Datoteku robots.txt obuhvaća sljedeće direktive:
- User-agent — direktiva pokazuje za bilo robota niže navedena pravila
- * - svi su roboti
- Yandex — glavni robot Sinj
- Googlebot — glavni googlebot
- StackRambler — pojam robot Lutalica
- Aport — pojam robot Апорт
- Slurp — robot Yahoo
- MSNBot — robot MSN
- Disallow — direktiva zabrane dijelu web stranice
- Allow — direktiva dozvole dijelu web stranice
- Host — direktiva upute primarni naziv stranice
- Sitemap— direktiva upute sitemap (sitemap.xml)
- Crawl-delay — direktiva pokazuje koliko je sekundi robot može čekati na odgovor iz mjesta (potrebna je na jako preuzetih izvora, da robot ne misli web nedostupan)
- Clean-param — direktiva opisuje dinamički parametri utječu na sadržaj stranice
Помимо директив в robots.txt используются спец символы:
- * - любай (uključujući i prazna) je niz znakova
- $ — je ograničenje pravila
Za izradu robots.txt koriste gore navedene direktive i speth znakove prema sljedećem principu:
- Određuje naziv robot za kojeg je napisan popis propisa
(User-agent: * pravilo za sve robote) - Piše popis zabranjenih web stranice sekcija za navedeni robot
( Disallow: / - zabrana indeksiranje web stranica) - Piše popis dopuštenih web stranice sekcija
(Allow: /home/ — dozvoljen home particiju) - Sadrži ime web stranice
(Host: crazysquirrel.ru — glavni naziv stranice crazysquirrel.ru) - Ukazuje na apsolutnu putanju do datoteke sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Ako na stranici nema zabranjenih particiju, onda robots.txt trebao bi se sastojati najmanje od 4 linije:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Provjerite robots.txt i onda, kako to utječe na indeksiranje web stranica pomoću alata Yandex