Din motive tehnice, sunt posibile diferențe. motive tehnice. Explicații pentru starea „Încercare de livrare eșuată”

Acesta este un fișier text (document în format .txt) care conține instrucțiuni clare pentru indexarea unui anumit site. Cu alte cuvinte, acest fișier le spune motoarele de căutare care pagini ale resursei web trebuie indexate și care nu - pentru a interzice indexarea.

S-ar părea, de ce interziceți indexarea unui anumit conținut al site-ului? Spune, lasă robotul de căutare să indexeze totul fără discernământ, ghidându-se după principiul: cu cât mai multe pagini, cu atât mai bine! Doar un amator de la CEO poate argumenta așa.

Nu tot conținutul din care constă site-ul este necesar roboților de căutare. Există fișiere de sistem, sunt pagini duplicate, există titluri pentru cuvinte cheie și sunt multe altele care nu sunt deloc necesare pentru a fi indexate. În caz contrar, următoarea situație nu este exclusă.

Robotul de căutare, venind pe site-ul dvs., încearcă în primul rând să găsească notoriul robots.txt. Dacă acest fișier nu este găsit de el sau este găsit, dar în același timp este compilat incorect (fără interdicțiile necesare), „mesagerul” motorului de căutare începe să studieze site-ul la propria discreție.

În procesul unui astfel de studiu, indexează totul și este departe de a fi un fapt că pornește de la acele pagini care trebuie introduse în căutare în primul rând (articole noi, recenzii, reportaje foto etc.). Desigur, în acest caz, indexarea unui site nou poate fi oarecum întârziată.

Pentru a evita o astfel de soartă de neinvidiat, webmasterul trebuie să aibă grijă să creeze la timp fișierul robots.txt corect.

„User-agent:” este directiva principală robots.txt

În practică, directivele (comenzile) sunt scrise în robots.txt folosind termeni speciali, principalul dintre care poate fi considerat directiva „ agent utilizator: ". Acesta din urmă este folosit pentru a specifica robotul de căutare, căruia îi vor primi anumite instrucțiuni în viitor. De exemplu:

Agent utilizator: Googlebot- toate comenzile care urmează după această directivă de bază vor viza exclusiv motorul de căutare Google (robotul său de indexare);
Agent utilizator: Yandex- destinatarul în acest caz este motorul de căutare intern Yandex.

În fișierul robots.txt, vă puteți referi la toate celelalte motoare de căutare combinate. Comanda în acest caz ar arăta astfel: Agent utilizator: *. Sub simbolul special „*” se obișnuiește să se înțeleagă „orice text”. În cazul nostru - oricare altul, cu excepția Yandex, motoarele de căutare. Google, apropo, ia această directivă personal, dacă nu o contactați personal.

Comanda „Disallow:” - interzicerea indexării în robots.txt

După directiva principală „User-agent:” adresată motoarelor de căutare, pot urma anumite comenzi. Dintre acestea, cele mai frecvente pot fi considerate directiva „ Nu permiteți: ". Cu această comandă, robotului de căutare poate fi interzis să indexeze întreaga resursă web sau o parte a acesteia. Totul depinde de ce extensie va avea directiva dată. Luați în considerare exemple:

Agent utilizator: Yandex Disallow: /

Acest tip de intrare în fișierul robots.txt înseamnă că robotul de căutare Yandex nu are deloc permisiunea de a indexa acest site, deoarece semnul de interzicere „/” stă într-o izolare splendidă și nu este însoțit de nicio clarificare.

Agent utilizator: Yandex Disallow: /wp-admin

După cum puteți vedea, de data aceasta există clarificări și se referă la folderul de sistem wp-admin în . Adică, robotul de indexare care utilizează această comandă (calea specificată în ea) va refuza indexarea întregului folder.

Agent utilizator: Yandex Disallow: /wp-content/themes

O astfel de indicație către robotul Yandex implică admiterea acestuia în categoria mare " wp-conținut ', în care poate indexa tot conținutul, cu excepția lui ' teme ».

Să explorăm în continuare funcțiile „interzise” ale documentului text robots.txt:

Agent utilizator: Yandex Disallow: /index$

În această comandă, după cum reiese din exemplu, este folosit un alt semn special „$”. Utilizarea acestuia îi spune robotului că este imposibil să indexeze acele pagini în link-urile cărora există o secvență de litere " index ". În același timp, indexați un fișier de site separat cu același nume " index.php » Robotul nu este interzis. Astfel, simbolul „$” este folosit atunci când este necesară o abordare selectivă a interzicerii indexării.

Tot în fișierul robots.txt, puteți dezactiva indexarea paginilor individuale ale resursei în care apar anumite caractere. Ar putea arăta astfel:

Agent utilizator: Yandex Disallow: *&*

Această comandă îi instruiește robotului de căutare Yandex să nu indexeze toate acele pagini ale site-ului web ale căror adrese URL conțin simbolul „&”. Mai mult, acest semn din link trebuie să fie între orice alte caractere. Cu toate acestea, poate exista o altă situație:

Agent utilizator: Yandex Disallow: *&

Aici interdicția de indexare se aplică tuturor acelor pagini ale căror linkuri se termină în „&”.

Dacă nu ar trebui să existe probleme cu interzicerea indexării fișierelor de sistem ale site-ului, atunci astfel de probleme pot apărea cu privire la interdicția de a indexa pagini individuale ale resursei. Cum ar fi, de ce este acest lucru necesar în principiu? Un webmaster cu experiență poate avea multe considerații în acest sens, dar principalul este nevoia de a scăpa de paginile duplicat în căutare. Cu ajutorul comenzii „Disallow:” și al grupului de caractere speciale discutat mai sus, este destul de ușor să faci față paginilor „nedorite”.

Comanda „Permite:” - permisiunea de indexare în robots.txt

Antipodul directivei anterioare poate fi considerat comanda " permite: ". Folosind aceleași elemente de clarificare, dar folosind această comandă în fișierul robots.txt, puteți permite robotului de indexare să adauge elementele site-ului de care aveți nevoie la baza de căutare. Iată un alt exemplu pentru a dovedi acest lucru:

Agent utilizator: Yandex Allow: /wp-admin

Din anumite motive, webmasterul s-a răzgândit și a făcut ajustările corespunzătoare la robots.txt. Ca urmare, de acum înainte conținutul folderului wp-admin oficial permis pentru indexare de către Yandex.

În ciuda faptului că comanda „Permite:” există, în practică nu este folosită foarte des. În general, nu este nevoie de el, deoarece se aplică automat. Este suficient ca proprietarul site-ului să folosească directiva „Disallow:”, interzicând indexarea unuia sau altuia dintre conținutul acestuia. După aceea, orice alt conținut al resursei care nu este interzis în fișierul robots.txt este perceput de robotul de căutare ca unul care poate și ar trebui să fie indexat. Totul este ca în jurisprudență: „Tot ceea ce nu este interzis de lege este permis”.

Directivele „Gazdă:” și „Hartă site:”

Comenzile „ gazdă: " Și " harta site: ". În ceea ce privește primul, este destinat exclusiv Yandex, indicându-i ce oglindă a site-ului (cu sau fără www) ar trebui considerată principală. Un exemplu de site ar putea arăta astfel:

Agent utilizator: Gazdă Yandex: site

Agent utilizator: Yandex Gazdă: www.site

Utilizarea acestei comenzi evită, de asemenea, duplicarea inutilă a conținutului site-ului.

La rândul său, directiva harta site: ” indică robotului de indexare calea corectă către așa-numitele Sitemap - fișiere sitemap.xml Și sitemap.xml.gz (în cazul CMS WordPress). Un exemplu ipotetic ar putea fi:

Agent utilizator: * Harta site-ului: http://site/sitemap.xml Harta site-ului: http://site/sitemap.xml.gz

Prescrierea acestei comenzi în fișierul robots.txt va ajuta robotul de căutare să indexeze Sitemap-ul mai rapid. Acest lucru, la rândul său, va accelera și procesul de introducere a paginilor de resurse web în rezultatele căutării.

Fișierul robots.txt este gata - ce urmează?

Să presupunem că tu, ca webmaster începător, ai stăpânit toate informațiile pe care le-am dat mai sus. Ce să faci după? Creați un document text robots.txt adaptat site-ului dvs. Pentru asta ai nevoie de:

utilizați un editor de text (de exemplu, Notepad) pentru a compila fișierul robots.txt de care aveți nevoie;
verificați corectitudinea documentului creat, de exemplu, folosind acest serviciu Yandex;
folosind un client FTP, încărcați fișierul terminat în folderul rădăcină al site-ului dvs. (în situația cu WordPress, acesta este de obicei folderul de sistem Public_html).

Da, aproape am uitat. Un webmaster începător, fără îndoială, înainte de a experimenta el însuși, va dori mai întâi să se uite la exemple gata făcute ale acestui fișier realizate de alții. Nu este nimic mai ușor. Pentru a face acest lucru, în bara de adrese a browserului, trebuie doar să introduceți site.ru/robots.txt . În loc de „site.ru” - numele resursei de care sunteți interesat. Numai și totul.

Experimentare fericită și mulțumesc pentru lectură!

Fișierul robots.txt se află în directorul rădăcină al site-ului dvs. web. De exemplu, pe www.example.com, adresa fișierului robots.txt ar fi www.example.com/robots.txt. Este un fișier text simplu care se conformează standardului de excludere a botului și include una sau mai multe reguli, fiecare dintre acestea refuzând sau permite accesul unuia sau altui crawler la o anumită cale de pe site.

Mai jos este un exemplu de fișier robots.txt simplu care conține două reguli și interpretarea acestuia.

# Regula 1 User-agent: Googlebot Nepermite: /nogooglebot/ # Regula 2 User-agent: * Permite: / Sitemap: http://www.example.com/sitemap.xml

Interpretare

Un agent utilizator numit Googlebot nu trebuie să acceseze cu crawlere directorul http://example.com/nogooglebot/ și subdirectoarele acestuia.
Toți ceilalți agenți utilizatori au acces la întregul site (poate fi omis, rezultatul este același, deoarece accesul complet este acordat în mod implicit).
Fișier Sitemap acest site se află la http://www.example.com/sitemap.xml.

Iată câteva sfaturi pentru lucrul cu fișierele robots.txt. Vă recomandăm să învățați sintaxa completă a fișierelor robots.txt, deoarece regulile de sintaxă folosite pentru a crea fișiere robots.txt nu sunt evidente și trebuie să le înțelegeți.

Format și aspect

Puteți crea un fișier robots.txt în aproape orice editor de text (trebuie să accepte codarea ASCII sau UTF-8). Nu folosiți procesoare de text: acestea salvează adesea fișiere într-un format proprietar și le adaugă caractere ilegale, cum ar fi ghilimele, care nu sunt recunoscute de roboții de căutare.

Utilizați instrumentul de inspecție a fișierelor robots.txt când creați și testați aceste fișiere. Vă permite să analizați sintaxa unui fișier și să aflați cum va funcționa acesta pe site-ul dvs.

Formatul fișierului și regulile de locație

Fișierul trebuie să fie numit robots.txt.
Ar trebui să existe un singur astfel de fișier pe site.
Fișierul robots.txt trebuie plasat în directorul rădăcină site-ul. De exemplu, pentru a controla accesarea cu crawlere a tuturor paginilor de pe http://www.example.com/ , plasați fișierul robots.txt la http://www.example.com/robots.txt . Nu trebuie să fie într-un subdirector(de exemplu, la http://example.com/pages/robots.txt). Dacă întâmpinați probleme la accesarea directorului rădăcină, vă rugăm să contactați furnizorul dvs. de găzduire. Dacă nu aveți acces la directorul rădăcină al site-ului, utilizați o metodă alternativă de blocare, cum ar fi etichetele meta.
Fișierul robots.txt poate fi adăugat la adrese cu subdomenii(de ex. http:// site-ul web.example.com/robots.txt) sau porturi non-standard (de exemplu, http://example.com: 8181 /roboți.txt).
Comentariile sunt orice rând care încep cu semnul lire sterline (#).

Sintaxă

Fișierul robots.txt trebuie să fie un fișier text codificat ASCII sau UTF-8. Alte caractere nu sunt permise.
Fișierul robots.txt poate consta din unul sau mai multe reguli.
regulă trebuie să conțină mai multe directive(instrucțiuni), fiecare dintre acestea ar trebui să fie indicată pe o linie separată.
Regula conține următoarele informații:
- La care agent utilizator se aplica regula.
- a avea acces.
- Ce directoare sau fișiere are acest agent Fără acces.
Regulile sunt procesate de sus în jos. Un agent utilizator poate urma doar o singură regulă adecvată pentru el, care va fi procesată mai întâi.
Se presupune implicit că, dacă accesul la pagină sau director nu este blocat de regula Disallow:, agentul utilizator se poate descurca.
reguli caz sensibil. De exemplu, regula Disallow: /file.asp se aplică la adresa URL http://www.example.com/file.asp , dar nu la http://www.example.com/File.asp .

Directive utilizate în fișierele robots.txt

agent utilizator: Obligatoriu de utilizat, într-o regulă pot exista una sau mai multe astfel de reguli. Definește robot motorul de căutare căruia i se aplică regula. Această linie este prima din orice regulă. Cele mai multe dintre ele sunt listate în Baza de date de Internet Bots sau în Lista Google Bots. Caracterul wildcard * este acceptat pentru a indica un prefix sau sufix al unei căi sau al unei căi întregi. Utilizați caracterul (*) așa cum se arată în exemplul de mai jos pentru a bloca toate crawlerele ( cu excepția roboților AdsBot, care trebuie specificat separat). Vă recomandăm să vă familiarizați cu lista roboților Google. Exemple:# Exemplul 1: Blocați numai agentul utilizator Googlebot: Googlebot Disallow: / # Exemplul 2: Blocați agentul utilizator Googlebot și Adsbot: Agent utilizator Googlebot: AdsBot-Google Disallow: / # Exemplul 3: Blocați toate, cu excepția crawlerelor AdsBot User-agent :* Nu permite: /
Nu permiteți: . Indică un director sau o pagină din domeniul rădăcină care nu poate fi accesată cu crawlere de către agentul utilizator definit mai sus. Dacă aceasta este o pagină, trebuie specificată calea completă către aceasta, ca în bara de adrese a browserului. Dacă este un director, calea trebuie să se termine cu o bară oblică (/). Caracterul wildcard * este acceptat pentru a indica un prefix sau sufix al unei căi sau al unei căi întregi.
permite: Fiecare regulă trebuie să aibă cel puțin o directivă Disallow: sau Allow:.. Indică un director sau o pagină din domeniul rădăcină care nu poate fi accesată cu crawlere de către agentul utilizator definit mai sus. Folosit pentru a anula regula de respingere și a permite scanarea unui subdirector sau a unei pagini dintr-un director închis pentru scanare. Dacă aceasta este o pagină, trebuie specificată calea completă către aceasta, ca în bara de adrese a browserului. Dacă este un director, calea trebuie să se termine cu o bară oblică (/). Caracterul wildcard * este acceptat pentru a indica un prefix sau sufix al unei căi sau al unei căi întregi.
harta site: Opțional, pot exista mai multe sau niciuna dintre aceste directive. Indică locația Sitemap-ului utilizat de acest site. URL-ul trebuie să fie complet. Google nu procesează și nu validează variantele URL cu prefixe http și https sau cu sau fără elementul www. Sitemaps-urile îi spun Google ce conținut necesar scanate și cum să-l distingem de conținutul care poate sa sau este interzis scanează. Aflați mai multe despre Sitemaps. Exemplu: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Cuvintele cheie necunoscute sunt ignorate.

Încă un exemplu

Fișierul robots.txt constă dintr-unul sau mai multe seturi de reguli. Fiecare set începe cu un șir User-agent, care specifică robotul care respectă regulile din set. Iată un exemplu de fișier cu două reguli; acestea sunt explicate prin comentarii inline:

# Blocați accesul Googlebot la example.com/directory1/... și example.com/directory2/... # dar permiteți accesul la directory2/subdirectory1/... # Accesul la toate celelalte directoare este permis în mod implicit. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blocați accesul altor motoare de căutare pe întregul site. Agent utilizator: un alt crawler Nu permite: /

Sintaxa completă a fișierului robots.txt

Sintaxa completă este descrisă în acest articol. Vă recomandăm să vă familiarizați cu acesta, deoarece există câteva nuanțe importante în sintaxa fișierului robots.txt.

Reguli utile

Iată câteva reguli comune pentru fișierul robots.txt:

regulă	Exemplu
Preveniți accesarea cu crawlere a întregului site. Rețineți că, în unele cazuri, adresele URL ale site-urilor pot fi indexate chiar dacă nu au fost accesate cu crawlere. Vă rugăm să rețineți că această regulă nu se aplică AdsBots, care trebuie listate separat.	Agent utilizator: * Nu permite: /
Pentru a preveni scanarea unui director și a întregului conținut al acestuia, puneți o bară oblică după numele directorului. Nu utilizați fișierul robots.txt pentru a proteja informațiile confidențiale! În aceste scopuri, ar trebui utilizată autentificarea. URL-urile blocate de fișierul robots.txt pot fi indexate, iar conținutul fișierului robots.txt poate fi vizualizat de orice utilizator, și astfel aflați locația fișierelor cu informații confidențiale.	User-agent: * Disallow: /calendar/ Disallow: /junk/
Permite accesarea cu crawler doar pentru un singur crawler	User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Permite accesarea cu crawlere pentru toate crawlerele, cu excepția unuia	User-agent: Unnecessarybot Disallow: / User-agent: * Permite: /
Pentru a dezactiva scanarea unei pagini individuale, specificați această pagină după bară oblică.	Nu permiteți: /private_file.html
Pentru a ascunde o anumită imagine din botul Google Images	Agent de utilizator: Googlebot-Image Disallow: /images/dogs.jpg
Pentru a ascunde toate imaginile de pe site-ul dvs. din botul Google Imagini	Agent de utilizator: Googlebot-Image Disallow: /
Pentru a preveni scanarea tuturor fișierelor de un anumit tip(în acest caz GIF)	Agent utilizator: Googlebot Disallow: /*.gif$
Pentru a bloca anumite pagini de pe site-ul dvs., dar continuați să afișați anunțuri AdSense pe acestea, utilizați regula de respingere pentru toți roboții, cu excepția Mediapartners-Google. Drept urmare, acest robot va putea accesa paginile eliminate din rezultatele căutării pentru a selecta anunțuri pentru a le afișa unui anumit utilizator.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Pentru a specifica adrese URL care se termină cu anumite caractere, utilizați simbolul $. De exemplu, pentru adresele URL care se termină în .xls , utilizați următorul cod:	Agent de utilizator: Googlebot Disallow: /*.xls$

A fost de ajutor articolul?

Cum poate fi îmbunătățit acest articol?

Nu există lucruri mărunte în SEO. Uneori, un singur fișier mic, Robots.txt, poate afecta promovarea site-ului.

Dacă doriți ca site-ul dvs. să intre corect în index, astfel încât roboții de căutare să ocolească paginile de care aveți nevoie, trebuie să scrieți recomandări pentru acestea.

„Este posibil?” întrebi.Pot fi. Pentru a face acest lucru, site-ul dvs. trebuie să aibă un fișier robots.txt.

Cum să îl compuneți corect și să îl încărcați pe site - înțelegem în acest articol.

Fișierul Robots.txt terminat trebuie să fie localizat în folderul rădăcină al site-ului. Doar un fișier, fără folder:

Vrei să verifici dacă este pe site-ul tău? Introduceți în bara de adrese: site.ru/robots.txt. Veți vedea următoarea pagină (dacă fișierul există):

Fișierul este format din mai multe blocuri separate printr-o indentare. Fiecare bloc conține recomandări pentru roboții de căutare ai diferitelor motoare de căutare (plus un bloc cu reguli generale pentru toată lumea) și un bloc separat cu link-uri către sitemap - Sitemap.

Nu este nevoie să indentați în interiorul blocului cu reguli pentru un robot de căutare.

Fiecare bloc începe cu directiva User-agent.

Fiecare directivă este urmată de semnul „:” (coloană), un spațiu, după care este indicată valoarea (de exemplu, ce pagină să se închidă de la indexare).

Trebuie să specificați adresele paginilor relative, nu absolute. Relativ - aceasta este fără „www.site.ru”. De exemplu, trebuie să dezactivați indexarea unei paginiwww.site.ru/shop. Deci, după două puncte punem un spațiu, o bară oblică și „shopping”:

Renunțați: /shop.

Un asterisc (*) indică orice set de caractere.

Semnul dolarului ($) este sfârșitul liniei.

Puteți decide - de ce să scrieți un fișier de la zero dacă îl puteți deschide pe orice site și îl puteți copia pentru dvs.?

Pentru fiecare site trebuie să prescrii reguli unice. Este necesar să se țină cont de caracteristici. De exemplu, același panou de administrare se află la /wp-admin pe motorul WordPress, pe o altă adresă va fi diferit. La fel și cu adresele paginilor individuale, cu o hartă a site-ului și așa mai departe.

Cum să configurați corect Robots.txt

După cum ați văzut deja în captură de ecran, directiva User-agent este pe primul loc. Indică pentru ce robot de căutare vor merge regulile de mai jos.

User-agent: * - reguli pentru toți roboții de căutare, adică orice motor de căutare (Google, Yandex, Bing, Rambler etc.).

Agent utilizator: Googlebot - Indică regulile pentru păianjenul de căutare Google.

Agent utilizator: Yandex - reguli pentru robotul de căutare Yandex.

Pentru care robot de căutare să prescrie mai întâi regulile, nu există nicio diferență. Dar, de obicei, recomandările pentru toți roboții sunt scrise mai întâi.

Dezactivați indexarea: robots.txt Disallow

Pentru a dezactiva indexarea site-ului ca întreg sau a paginilor individuale, utilizați directiva Disallow.

De exemplu, puteți închide complet site-ul de la indexare (dacă resursa este în curs de finalizare și nu doriți ca aceasta să intre în rezultatele căutării în această stare). Pentru a face acest lucru, scrieți următoarele:

Agent utilizator: *

interzice: /

Astfel, tuturor roboților de căutare le este interzis să indexeze conținutul de pe site.

Și așa puteți deschide un site pentru indexare:

Agent utilizator: *

Nu permiteți:

Prin urmare, verificați dacă există o bară oblică după directiva Disallow dacă doriți să închideți site-ul. Dacă doriți să o deschideți mai târziu - nu uitați să eliminați regula (și acest lucru se întâmplă adesea).

Pentru a închide paginile individuale de la indexare, trebuie să specificați adresa acestora. Am scris deja cum se face:

Agent utilizator: *

Nu permiteți: /wp-admin

Astfel, panoul de administrare a fost închis pe site din vizualizări terțe.

Ce trebuie să închideți de la indexare fără greș:

panoul administrativ;
paginile personale ale utilizatorilor;
coșuri;
rezultatele căutării pe site;
pagini de autentificare, înregistrare, autorizare.

Puteți închide de la indexare și anumite tipuri de fișiere. Să presupunem că aveți câteva fișiere .pdf pe site-ul dvs. pe care nu doriți să le indexați. Și roboții de căutare scanează foarte ușor fișierele încărcate pe site. Le puteți închide de la indexare după cum urmează:

Agent utilizator: *

Nu permite: /*. pdf$

Permite indexarea: robots.txt Permite

Chiar și cu un site complet închis de la indexare, puteți deschide calea către anumite fișiere sau pagini pentru roboți. Să presupunem că reproiectați site-ul, dar directorul de servicii rămâne intact. Puteți direcționa roboții de căutare acolo, astfel încât aceștia să continue să indexeze secțiunea. Pentru aceasta, se utilizează directiva Allow:

Agent utilizator: *

Permite: /servicii

interzice: /

Oglindă site-ului principal: robots.txt

Până pe 20 martie 2018, în fișierul robots.txt pentru robotul de căutare Yandex, a fost necesar să se specifice oglinda site-ului principal prin directiva Gazdă. Acum nu este necesar să faceți acest lucru - este suficient.

Care este oglinda principală? Aceasta este adresa principală a site-ului dvs. - cu sau fără www. Dacă nu configurați o redirecționare, atunci ambele site-uri vor fi indexate, adică vor fi duplicate ale tuturor paginilor.

Harta site-ului: harta site-ului robots.txt

După ce toate directivele pentru roboți sunt scrise, trebuie să specificați calea către Harta site-ului. Harta site-ului arată roboților că toate adresele URL care trebuie indexate sunt situate la o anumită adresă. De exemplu:

Harta site-ului: site.ru/sitemap.xml

Când robotul accesează cu crawlere site-ul, va vedea ce modificări au fost aduse acestui fișier. Ca rezultat, paginile noi vor fi indexate mai rapid.

Directiva Clean-param

În 2009, Yandex a introdus o nouă directivă - Clean-param. Poate fi folosit pentru a descrie parametrii dinamici care nu afectează conținutul paginilor. Cel mai adesea, această directivă este folosită pe forumuri. Există o mulțime de gunoi aici, de exemplu ID-ul sesiunii, parametrii de sortare. Dacă înregistrați această directivă, robotul de căutare Yandex nu va descărca în mod repetat informațiile care sunt duplicate.

Puteți scrie această directivă oriunde în fișierul robots.txt.

Parametrii de care robotul nu trebuie să ia în considerare sunt enumerați în prima parte a valorii prin semnul &:

Clean-param: sid&sort /forum/viewforum.php

Această directivă evită paginile duplicat cu adrese URL dinamice (care conțin un semn de întrebare).

Directiva privind întârzierea cu crawler

Această directivă va veni în ajutorul celor care au un server slab.

Sosirea unui robot de căutare este o încărcare suplimentară pe server. Dacă aveți un trafic mare pe site, atunci resursa poate pur și simplu să nu reziste și să "se întindă". Ca rezultat, robotul va primi un mesaj de eroare 5xx. Daca aceasta situatie se repeta constant, site-ul poate fi recunoscut de motorul de cautare ca nefunctional.

Imaginează-ți că lucrezi și, în paralel, trebuie să răspunzi constant la apeluri. Apoi productivitatea ta scade.

La fel si cu serverul.

Să revenim la directivă. Crawl-delay vă permite să setați o întârziere în scanarea paginilor site-ului web pentru a reduce sarcina de pe server. Cu alte cuvinte, stabilești perioada după care se vor încărca paginile site-ului. Acest parametru este specificat în secunde, ca număr întreg:

Fişier robots.txt este un fișier obișnuit cu extensia .txt, care poate fi creat folosind un bloc de note Windows obișnuit. Acest fișier conține instrucțiuni de indexare pentru roboții de căutare. Plasați acest fișier director rădăcină pe găzduire.

Când vizitează site-ul, robotul de căutare se referă în primul rând la fișierul robots.txt pentru a primi instrucțiuni pentru acțiuni ulterioare și pentru a afla care fișiere și directoare sunt interzise la indexare. Fişier robots.txt este o recomandare pentru motoarele de căutare. Este imposibil să spunem cu siguranță că toate fișierele care sunt interzise de la indexare nu vor fi indexate ca urmare.

Luați în considerare cel mai simplu exemplu de fișier robots.txt. Acest fișier conține următoarele rânduri:

User-agent: * Disallow: /wp-admin/ Disallow: /images/

Prima linie indică pentru ce roboți de căutare se aplică aceste instrucțiuni. În acest exemplu, este indicat un asterisc, ceea ce înseamnă că instrucțiunile se aplică tuturor crawlerelor. Dacă este necesar să specificați instrucțiuni pentru un anumit robot de căutare, trebuie să introduceți numele acestuia. Al doilea și al treilea rând dezactivează indexarea directoarelor „wp-admin” și „images”.

Pentru robotul de căutare Yandex, este, de asemenea, relevant să prescrieți directorul gazdă pentru a indica oglinda site-ului principal:

Agent utilizator: Yandex Disallow: /wp-admin/ Disallow: /images/ Gazdă: yoursite.ru

Exemple de scriere a unui fișier robots.txt pentru sarcini specifice

1. Nu interziceți roboților niciunui motoare de căutare să indexeze site-ul:

Agent de utilizator: googlebot Disallow: /

4. Nu interziceți indexarea de către un singur robot (de exemplu, googlebot) și interziceți indexarea tuturor celorlalți roboți de căutare:

Agent utilizator: googlebot Disallow:

User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/

User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php

Agent utilizator: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html

Reguli de bază pentru scrierea robots.txt

Greșeli sunt adesea făcute la scrierea fișierului robots.txt. Pentru a le evita, să ne uităm la regulile de bază:

1. Trebuie să scrieți conținutul fișierului numai cu majuscule.
2. În instrucțiunea Disallow trebuie specificat un singur director sau un fișier.
3. Șirul „User-agent” nu trebuie să fie gol. Dacă instrucțiunea se aplică tuturor roboților de căutare, atunci trebuie să specificați un asterisc, iar dacă se referă la un anumit robot de căutare, atunci indicați numele acestuia.
4. Nu puteți schimba declarațiile Disallow și User-agent.
5. În directiva Gazdă, care este utilizată pentru Yandex, adresa site-ului nostru trebuie specificată fără protocolul HTTP și fără bara oblică de închidere.
6. Când se interzice indexarea directoarelor, este necesar să se prescrie bare oblice.
7. Ar trebui să verificați fișierul robots.txt înainte de a-l încărca pe server. Acest lucru va evita posibile probleme cu indexarea site-ului în viitor.

Robots.txt pentru site este un fișier text index codificat UTF-8.

A fost numit index deoarece conține recomandări pentru roboții de căutare - ce pagini trebuie accesate cu crawlere și care nu.

Dacă codificarea fișierului diferă de UTF-8, atunci roboții de căutare pot interpreta greșit informațiile conținute în acesta.

Fișierul este valabil pentru protocoalele http, https, ftp și are, de asemenea, „validitate” doar în cadrul numărului de gazdă/protocol/port pe care se află.

Unde se află robots.txt pe site?

Fișierul robots.txt poate avea o singură locație - directorul rădăcină de pe găzduire. Arată cam așa: http://your-site.xyz/robots.txt

Directive roboți pentru site-ul web

Componentele obligatorii ale fișierului robots.txt al site-ului sunt regula Disallow și instrucțiunea User-agent. Există și reguli secundare.

Nu permiteți regula

Disallow este o regulă prin care robotul de căutare este informat despre paginile pe care nu are sens să le acceseze cu crawlere. Și imediat câteva exemple concrete de aplicare a acestei reguli:

Exemplul 1 - permis indexarea întregului site:

Exemplul 2 - dezactivați complet indexarea site-ului:

În acest caz, va fi inutil. Utilizarea acestui exemplu este relevantă dacă site-ul este „închis” pentru revizuire (de exemplu, nu funcționează corect). În acest caz, site-ul nu are loc în rezultatele căutării, așa că trebuie să fie închis de la indexare prin fișierul robots txt. Desigur, după finalizarea site-ului, interdicția de indexare trebuie ridicată, dar acest lucru este uitat.

Exemplul 6 - cum să închideți fișierele cu o anumită extensie de la indexare în robots txt (în acest caz, .gif):

Asteriscul înainte de .gif$ indică faptul că numele fișierului poate fi orice, iar semnul $ indică sfârșitul liniei. Acestea. o astfel de „mască” interzice scanarea tuturor fișierelor GIF în general.

Allow regula în robots txt

Regula Permite face totul exact invers - permite indexarea fișierului/dosarului/paginii.

Și acum un exemplu concret:

Știm deja că, cu ajutorul directivei Disallow: /, putem bloca site-ul de la robots txt indexing. În același timp, avem regula Allow: /catalog, care permite scanarea folderului /catalog. Prin urmare, combinația acestor două reguli va fi percepută de roboții de căutare ca „este interzisă accesarea cu crawlere a site-ului, cu excepția folderului / catalog”

Regulile și directivele Allow și Disallow sunt sortate în ordinea crescătoare a lungimii prefixului URL și sunt aplicate secvenţial. Dacă mai multe reguli se potrivesc cu aceeași pagină, atunci robotul o alege pe ultima care se potrivește din listă.

Să luăm în considerare 2 situații cu două reguli care se contrazic – o regulă interzice indexarea folderelor /content, iar cealaltă o permite.

În acest caz, directiva Allow va avea prioritate, deoarece este listat mai jos:

Și aici directiva Disallow are prioritate din aceleași motive (enumerate mai jos):

Agent de utilizator în robots txt

User-agent - o regulă care este o „referință” la robotul de căutare, spun ei, „o listă de recomandări special pentru tine” (apropo, pot exista mai multe liste în robots.txt - pentru diferiți roboți de căutare de la Google și Yandex).

De exemplu, în acest caz, spunem „Hei Googlebot, vino aici, iată o listă special pregătită de recomandări pentru tine”, iar el este ca „OK, mai ales pentru mine - înseamnă special pentru mine” și nu va accesa cu crawlere altele. liste.

Textul corect al roboților pentru Google (Googlebot)

Aproximativ aceeași poveste cu botul de căutare Yandex. Privind în viitor, lista de recomandări pentru Yandex în aproape 100% din cazuri este ușor diferită de lista pentru alți roboți de căutare (vă vom spune despre asta puțin mai târziu). Dar esența este aceeași: „Hei, Yandex, există o listă separată pentru tine” - „OK, să o studiem acum”.

Acestea. dacă în același robots.txt există 3 liste cu User-agent: *, User-agent: Googlebot și User-agent: Yandex, aceasta înseamnă că prima este „unul pentru toți”, cu excepția Googlebot și Yandex, adică. la. există liste „personale” pentru ei.

Harta site-ului

Regula sitemap - locația unui fișier cu un sitemap XML, care conține adresele tuturor paginilor care trebuie accesate cu crawlere. De regulă, este specificată adresa formularului http://site.ua/sitemap.xml.

Acestea. de fiecare dată robotul de căutare se va uita pe harta site-ului pentru noi adrese, apoi le va urma pentru accesarea cu crawlere în continuare pentru a reîmprospăta informațiile despre site din bazele de date ale motorului de căutare.

Regula Sitemap trebuie introdusă în Robots.txt după cum urmează:

Directiva gazdă

Directiva gazdă în secțiune transversală din fișierul robots.txt este, de asemenea, necesară. Este necesar pentru robotul de căutare Yandex - îi spune care dintre oglinzile site-ului ar trebui să fie luate în considerare la indexare. De aceea, se formează o listă separată de reguli pentru Yandex. Google și alte motoare de căutare nu înțeleg directiva Gazdă. Prin urmare, dacă site-ul dvs. are copii sau site-ul se poate deschide sub adrese URL diferite, atunci adăugați directiva gazdă în fișierul robots txt, astfel încât paginile site-ului să fie indexate corect.

Un „site-oglindă” este de obicei numit „copie” exactă sau aproape exactă a site-ului, care este disponibil la o altă adresă.

Adresa oglinzii principale trebuie specificată după cum urmează:

Pentru site-urile care operează pe http - Gazdă: site.ua sau Gazdă: http://site.ua (adică http:// este opțional)

Pentru site-urile care operează pe https - Gazdă: https://site.ua (adică https:// este obligatoriu)

Un exemplu de directivă gazdă în robots txt pentru un site pe protocolul HTTPS:

Întârziere de accesare cu crawlere

Spre deosebire de cele anterioare, parametrul Crawl-delay nu mai este necesar. Sarcina sa principală este de a spune robotului de căutare câte secunde se vor încărca paginile. Utilizat de obicei dacă utilizați servere slabe. Relevant doar pentru Yandex.

param curat

Folosind directiva Clean-param, vă puteți ocupa de get-parameters, astfel încât să nu existe o duplicare a conținutului, deoarece același conținut este disponibil prin diferite link-uri dinamice (acestea sunt cele cu semne de întrebare). Legăturile dinamice pot fi generate de site atunci când sunt folosite diferite sortări, sunt utilizați identificatori de sesiune etc.

De exemplu, același conținut poate fi disponibil la trei adrese:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

În acest caz, directiva Clean-param este formatată astfel:

Acestea. după două puncte se scrie atributul ref, indicând sursa link-ului și abia atunci este indicată „coada” acestuia (în acest caz, /catalog/get_phone.ua).

Cele mai frecvente întrebări

Cum se dezactivează indexarea în robots.txt?

În aceste scopuri, a fost inventată regula Disallow: i.e. copiați linkul către documentul/fișierul care trebuie închis de la indexare, lipiți-l după două puncte:

Nu permiteți: http://your-site.xyz/privance.html

Nu permiteți: http://your-site.xyz/foord.doc

Nu permiteți: http://site-ul-voastră.xyz/barcode.jpg

Și apoi ștergeți adresa de domeniu (în acest caz, trebuie să ștergeți această parte - http://your-site.xyz). După ștergere, vom avea exact ceea ce ar trebui să rămână:

Nu permiteți: /privacy.html

Nu permiteți: /food.doc

Nu permiteți: /barcode.jpg

Ei bine, dacă doriți să închideți toate fișierele cu o anumită extensie de la indexare, atunci regulile vor arăta astfel:

Nu permiteți: /*.html

Nu permiteți: /*.doc

Nu permiteți: /*.jpg

Cum se specifică oglinda principală în robots.txt?

În aceste scopuri, a fost inventată directiva Gazdă. Acestea. dacă adresele http://your-site.xyz și http://yoursite.com sunt „oglinzi” ale aceluiași site, atunci una dintre ele trebuie specificată în directiva Gazdă. Lăsați oglinda principală să fie http://your-site.xyz. În acest caz, opțiunile corecte ar fi:

Dacă site-ul funcționează pe protocolul https, atunci trebuie doar să faceți acest lucru:

Agent utilizator: Yandex

Nu permiteți: /privacy.html

Nu permiteți: /food.doc

Nu permiteți: /barcode.jpg

Gazdă: https://your-site.xyz

Dacă site-ul funcționează pe protocolul http, atunci ambele opțiuni următoare vor fi corecte:

Agent utilizator: Yandex

Nu permiteți: /privacy.html

Nu permiteți: /food.doc

Nu permiteți: /barcode.jpg

Gazdă: http://your-site.xyz

Agent utilizator: Yandex

Nu permiteți: /privacy.html

Nu permiteți: /food.doc

Nu permiteți: /barcode.jpg

Gazdă: site-ul tău.xyz

Cu toate acestea, rețineți că directiva Gazdă este o recomandare, nu o regulă. Acestea. este posibil ca un domeniu să fie specificat în gazdă, iar Yandex să considere un altul ca oglindă principală dacă are setările corespunzătoare în panoul webmaster.

Cel mai simplu exemplu de robots.txt valid

În această formă, fișierul robots.txt poate fi plasat pe aproape orice site (cu ajustări minore).

Să aruncăm o privire acum la ce este acolo.

Există 2 liste de reguli - una „personal” pentru Yandex, cealaltă - pentru toți ceilalți roboți de căutare.
Regula Respingere: este necompletată, ceea ce înseamnă că nu există interdicții privind scanarea.
Lista pentru Yandex conține directiva Gazdă care indică oglinda principală, precum și un link către harta site-ului.

DAR... Acest lucru NU înseamnă că trebuie să formatați robots.txt în acest fel. Regulile trebuie scrise strict individual pentru fiecare site. De exemplu, nu are sens să indexezi pagini „tehnice” (pagini de introducere a parolei de conectare sau pagini de test pe care se elaborează un nou design de site etc.). Regulile, de altfel, depind și de CMS-ul folosit.

Site închis de la indexare - cum arată robots.txt?

Oferim imediat un cod gata făcut care vă va permite să interziceți indexarea site-ului, indiferent de CMS:

Cum se specifică oglinda principală pentru site pe https robots.txt?

Foarte simplu:

Gazdă: https://your-site.xyz

IMPORTANT!!! Pentru site-urile https, protocolul trebuie specificat strict!

Cele mai frecvente erori robots.txt

Special pentru tine, am pregătit o selecție a celor mai frecvente greșeli făcute în robots.txt. Aproape toate aceste greșeli au un lucru în comun - sunt făcute din cauza neatenției.

1. Instrucțiuni confuze:

Opțiunea corectă:

2. O grămadă de foldere sunt inserate într-un singur Disallow:

Într-o astfel de înregistrare, robotul poate deveni confuz. Ce folder nu poate fi indexat? Primul? Ultimul? Sau toate? Sau cum? Sau ce? Un folder = o regulă de interzicere și nimic altceva.

3. Este permis un singur nume de fișier - robots.txt, iar toate literele sunt mici. Numele Robots.txt, ROBOTS.TXT etc. nepermis.

4. Regula User-agent nu trebuie lăsată goală. Fie specificați numele robotului de căutare (de exemplu, pentru Yandex), fie puneți un asterisc (pentru toate celelalte).

5. Gunoi în fișier (bare oblice suplimentare, asteriscuri etc.).

6. Adăugarea adreselor complete ale paginilor ascunse în fișier și, uneori, chiar și fără regula de respingere.

Nu dreapta:

http://mega-site.academy/serrot.html

De asemenea, greșit:

Nu permiteți: http://mega-site.academy/serrot.html

Dreapta:

Nu permiteți: /serrot.html

Verificarea online a fișierului robots.txt

Există mai multe moduri de a valida un fișier robots.txt în raport cu un standard web general acceptat.

Metoda 1. Înregistrați-vă în panourile pentru webmasteri Yandex și Google. Singurul negativ este că trebuie să sapi pentru a-ți da seama de funcționalitatea. În plus, modificările recomandate sunt făcute și fișierul terminat este încărcat în găzduire.

Metoda 2. Utilizați serviciile online:

https://services.sl-team.ru/other/robots/

https://technicalseo.com/seo-tools/robots-txt/

http://tools.seochat.com/tools/robots-txt-validator/

Deci, robots.txt este format. Rămâne doar să-l verificăm pentru erori. Cel mai bine este să folosiți instrumentele oferite de motoarele de căutare în sine pentru aceasta.

Google Webmasters (Google Search Console): conectați-vă la contul dvs., dacă site-ul nu este verificat în acesta - confirmați, apoi accesați Crawl -> instrument de verificare a fișierului Robots.txt.

Aici poti:

detectează instantaneu toate erorile și problemele potențiale,
imediat „la fața locului” pentru a face corecturi și a verifica din nou erorile (pentru a nu reîncărca fișierul pe site de 20 de ori)
verificați dacă restricțiile și permisiunile de indexare a paginii sunt corecte.

Este similar cu cel precedent, cu excepția:

nu este necesară autorizarea;
nu este necesară confirmarea drepturilor asupra site-ului;
este disponibilă verificarea în masă a paginilor pentru disponibilitate;
vă puteți asigura că toate regulile sunt percepute corect de Yandex.

Soluții gata făcute pentru cel mai popular CMS

Corectați robots.txt pentru Wordpress

Nu permiteți: /cgi-bin # clasic

interzice: /? # orice parametri de interogare pe principal

Nu permiteți: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins

Nu permiteți: **s= # căutare

Nu permiteți: *&s= # căutare

Nu permiteți: /căutare # căutare

Nu permiteți: **attachment_id= # pagină de atașare. De fapt, are o redirecționare...

Nu permiteți: */feed # toate fluxurile

Nu permiteți: */rss # rss feed

Nu permiteți: */embed # toate înglobările

Nu permiteți: */page/ # toate tipurile de paginare

Permite: */încărcări # încărcări deschise

Permite: /*/*.js # în /wp- (/*/ - pentru prioritate)

Permite: /*/*.css # în /wp- (/*/ - pentru prioritate)

Permite: /wp-*.png # imagini în pluginuri, folderul cache etc.

Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc.

Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc.

Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc.

Permite: /wp-*.svg # imagini în pluginuri, folderul cache etc.

Permite: /wp-*.pdf # fișiere în pluginuri, folderul cache etc.

#Disallow: /wp/ # când WP este instalat în subdirectorul wp

Harta site-ului: http://site.ru/sitemap2.xml # încă un fișier

#Sitemap: http://site.ru/sitemap.xml.gz # versiune comprimată (.gz)

Gazdă: www.site.ru # pentru Yandex și Mail.RU. (intersecțional)

# Versiune cod: 1.0

# Nu uitați să schimbați `site.ru` pe site-ul dvs.

Să aruncăm o privire la codul fișierului roboți txt pentru CMS WordPress:

Aici indicăm că toate regulile sunt relevante pentru toți roboții de căutare (cu excepția celor pentru care sunt compilate liste „personale”). Dacă lista este făcută pentru un anumit robot, atunci * este schimbat cu numele robotului:

Agent utilizator: Yandex

Agent utilizator: Googlebot

Permite: */încărcări

Aici, în mod deliberat, dăm voie indexării link-urilor care conțin /uploads. În acest caz, această regulă este obligatorie, deoarece. motorul WordPress are un director /wp-content/uploads (care poate conține imagini sau alt conținut „deschis”), a cărui indexare este interzisă de regula Disallow: /wp-. Deci, cu Allow: */uploads facem o excepție de la regula Disallow: /wp-.

În caz contrar, există pur și simplu interdicții privind indexarea:

Disallow: /cgi-bin - dezactivează indexarea scriptului

Disallow: /feed - interzicerea scanării fluxului RSS

Disallow: /trackback - interzice scanarea notificărilor

Disallow: ?s= sau Disallow: *?s= - interzicerea indexării paginilor căutării interne a site-ului

Disallow: */page/ - interzicerea indexării tuturor tipurilor de paginare

Regula Sitemap: http://site.ru/sitemap.xml îi spune robotului Yandex calea către fișierul cu harta xml. Calea trebuie scrisă în întregime. Dacă există mai multe astfel de fișiere, scriem mai multe reguli Sitemap (1 fișier = 1 regulă).

În linia Gazdă: site.ru, am înregistrat special pentru Yandex oglinda principală a site-ului. Se precizeaza astfel incat restul oglinzilor sa fie indexate in acelasi mod. Linia goală înainte de Host: este necesară.

Probabil că știți cu toții unde se află txt-ul roboților WordPress - ca și în alt CMS, acest fișier ar trebui să fie localizat în directorul rădăcină al site-ului.

Fișier Joomla robots.txt

Joomla este aproape cel mai popular motor printre webmasteri, deoarece. în ciuda celor mai largi posibilități și a multor soluții gata făcute, vine gratuit. Cu toate acestea, robots.txt obișnuit are întotdeauna sens să fie corectat, deoarece. prea mult „gunoi” este deschis pentru indexare, dar pozele sunt închise (asta e rău).

Iată cum arată robots.txt corect pentru Joomla:

Nu permiteți: /administrator/

Nu permiteți: /cache/

Nu permiteți: /components/

Nu permiteți: /imagini/

Nu permite: /include/

Disallow: /instalare/

Nu permiteți: /limba/

Nu permiteți: /layouts/

Nu permiteți: /biblioteci/

Nu permiteți: /logs/

Nu permiteți: /media/

Nu permiteți: /module/

Nu permiteți: /plugins/

Nu permiteți: /șabloane/

robots.txt Wix

Platforma Wix generează automat fișiere robots.txt individual pentru fiecare site Wix. Acestea. adăugați /robots.txt la domeniul dvs. (de exemplu: www.domain.com/robots.txt) și puteți examina în siguranță conținutul fișierului robots.txt aflat pe site-ul dvs.

Nu puteți edita robots.txt. Cu toate acestea, cu ajutorul noindex, puteți închide anumite pagini de la indexare.

robots.txt pentru Opencart

Fișier robots.txt standard pentru OpenCart:

Nu permiteți: /*route=account/

Nu permiteți: /*route=afiliat/

Nu permiteți: /*route=checkout/

Nu permite: /admin

Disallow: /catalog

Disallow: /descărcare

Interziceți: /export

Disallow: /system

Nu permite: /*?sort=

Nu permiteți: /*&sort=

Nu permite: /*?comanda=

Nu permiteți: /*&order=

Nu permite: /*?limit=

Nu permiteți: /*&limit=

Nu permiteți: /*?filter_name=

Nu permiteți: /*&filter_name=

Nu permiteți: /*?filter_sub_category=

Nu permiteți: /*&filter_sub_category=

Nu permiteți: /*?filter_description=

Nu permiteți: /*&filter_description=

Nu permiteți: /*?tracking=

Nu permiteți: /*&tracking=

Nu permite: /*?page=

Nu permiteți: /*&page=

Disallow: /listă de dorințe

Nu permite: /login

Agent utilizator: Yandex

Nu permiteți: /*route=account/

Nu permiteți: /*route=afiliat/

Nu permiteți: /*route=checkout/

Nu permiteți: /*route=product/search

Nu permiteți: /index.php?route=product/product*&manufacturer_id=

Nu permite: /admin

Disallow: /catalog

Disallow: /descărcare

Interziceți: /export

Disallow: /system

Nu permite: /*?sort=

Nu permiteți: /*&sort=

Nu permite: /*?comanda=

Nu permiteți: /*&order=

Nu permite: /*?limit=

Nu permiteți: /*&limit=

Nu permiteți: /*?tracking=

Nu permiteți: /*&tracking=

Nu permiteți: /*route=product/search

Nu permite: /*?page=

Nu permiteți: /*&page=

Clean-param: urmărire

Clean-param: nume_filtru

Clean-param: filter_sub_category

Clean-param: filter_description

Disallow: /listă de dorințe

Nu permite: /login

Nu permiteți: /index.php?route=product/manufacturer

Nu permiteți: /index.php?route=product/compare

Nu permiteți: /index.php?route=product/category

gazdă: domeniul_dvs

Harta site-ului: http://domeniul_dvs./sitemap.xml

robots.txt pentru Bitrix

1. Folderele /bitrix și /cgi-bin trebuie să fie închise, deoarece acesta este „gunoaie” pur tehnică, care nu trebuie să strălucească în rezultatele căutării.

Nu permiteți: /bitrix

Nu permiteți: /cgi-bin

2. De asemenea, folderul /search nu prezintă interes nici pentru utilizatori, nici pentru motoarele de căutare. Și nimeni nu are nevoie de formarea de duplicate. Deci îl închidem și noi.

Nu permite: /căutare

Nu permiteți: /auth/

Nu permiteți: /auth.php

4. Materialele de tipărire (de exemplu, facturile) nu au nici un sens să strălucească în rezultatele căutării. Închidem.

Nu permite: /*?print=

Nu permiteți: /*&print=

5. Unul dintre marile avantaje ale Bitrix este că înregistrează întregul istoric al site-ului - cine s-a autentificat când, cine a schimbat parola când și alte informații confidențiale care nu pot fi scurse. Prin urmare, închidem:

Nu permiteți: /*register=da

Nu permiteți: /*forgot_password=da

Nu permiteți: /*change_password=da

Nu permiteți: /*login=da

Nu permite: /*logout=da

Nu permiteți: /*auth=da

6. Nici nu are rost să indexăm adresele din spate. Aceste adrese pot fi formate, de exemplu, atunci când vizualizați un album foto, când îl derulați prima dată „înainte” și apoi „înapoi”. În aceste momente, ceva asemănător unei înjurături poate apărea în bara de adrese: ?back_url_ =%2Fbitrix%2F%2F. Valoarea unor astfel de adrese este egală cu zero, așa că le închidem și de la indexare. Ei bine, ca bonus, scăpăm de potențialele „duble” din rezultatele căutării.

Nu permiteți: /*BACKURL=*

Nu permiteți: /*back_url=*

Nu permiteți: /*BACK_URL=*

Nu permiteți: /*back_url_admin=*

7. Dosarul /upload trebuie închis strict în funcție de circumstanțe. Dacă fotografiile și videoclipurile postate pe pagini sunt stocate acolo, atunci nu este necesar să le ascundeți pentru a nu întrerupe traficul suplimentar. Ei bine, dacă ceva este confidențial, îl închidem cu siguranță:

Nu permite: /încărcare

Fișier robots.txt gata pentru Bitrix:

Permite: /search/map.php

Permite: /bitrix/şabloane/

Nu permiteți: */index.php

Nu permiteți: /*acțiune=

Nu permite: /*print=

Nu permiteți: /*/galerie/*comanda=

Nu permiteți: /*/căutare/

Nu permiteți: /*/slide_show/

Nu permiteți: /*?utm_source=

Nu permiteți: /*ADD_TO_COMPARE_LIST

Nu permiteți: /*arrFilter=

Nu permiteți: /*auth=

Nu permiteți: /*back_url_admin=

Nu permiteți: /*BACK_URL=

Nu permiteți: /*back_url=

Nu permiteți: /*backurl=

Nu permiteți: /*bitrix_*=

Nu permiteți: /*bitrix_include_areas=

Nu permiteți: /*building_directory=

Nu permiteți: /*bxajaxid=

Nu permiteți: /*change_password=

Nu permiteți: /*clear_cache_session=

Nu permiteți: /*clear_cache=

Nu permite: /*count=

Nu permiteți: /*COURSE_ID=

Nu permiteți: /*forgot_password=

Nu permiteți: /*index.php$

Nu permiteți: /*login=

Nu permiteți: /*logout=

Nu permiteți: /*modern-repair/$

Nu permiteți: /*MUL_MODE=

Nu permiteți: /*ORDER_BY

Nu permiteți: /*PAGE_NAME=

Nu permiteți: /*PAGE_NAME=detail_slide_show

Nu permiteți: /*PAGE_NAME=căutare

Nu permiteți: /*PAGE_NAME=post_utilizator

Nu permiteți: /*PAGEN_

Nu permiteți: /*print_course=

Nu permite: /*print=

Nu permiteți: /*register=

Nu permiteți: /*register=da

Nu permiteți: /*set_filter=

Nu permite: /*show_all=

Nu permiteți: /*show_include_exec_time=

Nu permiteți: /*show_page_exec_time=

Nu permiteți: /*show_sql_stat=

Nu permiteți: /*SHOWALL_

Nu permite: /*sort=

Nu permiteți: /*sphrase_id=

Nu permiteți: /*etichete=

Nu permiteți: /access.log

Nu permite: /admin

Nu permiteți: /auth.php

Nu permiteți: /bitrix

Nu permiteți: /bitrix/

Nu permiteți: /cgi-bin

Nu permite: /club/$

Nu permiteți: /club/forum/search/

Nu permiteți: /club/gallery/tags/

Nu permiteți: /club/group/search/

Nu permiteți: /club/log/

Dezactivați: /club/messages/

Nu permiteți: /club/search/

Nu permiteți: /communication/blog/search.php

Interziceți: /communication/forum/search/

Interziceți: /comunicare/forum/utilizator/

Nu permiteți: /content/board/my/

Nu permiteți: /content/links/my/

Disallow: /eroare

Nu permiteți: /e-store/affiliates/

Nu permiteți: /e-store/paid/detail.php

Nu permiteți: /examples/download/download_private/

Disallow: /examples/my-components/

Nu permite: /include

Nu permite: /personal

Nu permite: /căutare

Nu permite: /încărcare

Nu permiteți: /*/*ELEMENT_CODE=

Nu permiteți: /*/*SECTION_CODE=

Nu permiteți: /*/*IBLOCK_CODE

Nu permiteți: /*/*ELEMENT_ID=

Nu permiteți: /*/*SECTION_ID=

Nu permiteți: /*/*IBLOCK_ID=

Nu permiteți: /*/*CODE=

Nu permiteți: /*/*ID=

Nu permiteți: /*/*IBLOCK_EXTERNAL_ID=

Nu permiteți: /*/*SECTION_CODE_PATH=

Nu permiteți: /*/*EXTERNAL_ID=

Nu permiteți: /*/*IBLOCK_TYPE_ID=

Nu permiteți: /*/*SITE_DIR=

Nu permiteți: /*/*SERVER_NAME=

Harta site-ului: http://site.ru/sitemap_index.xml

Harta site-ului: http://site.ru/sitemap.xml

robots.txt pentru Modx și Modx Revo

De asemenea, CMS Modx Revo nu este lipsit de problema duplicatelor. Cu toate acestea, nu este la fel de ascuțit ca în Bitrix. Acum despre decizia ei.

Porniți CNC-ul în setările site-ului.
aproape de la indexare:

Nu permiteți: /index.php # deoarece acesta este un duplicat al paginii principale a site-ului

Disallow: /*? # rezolvați problema cu duplicatele pentru toate paginile simultan

Fișier robots.txt gata pentru Modx și Modx Revo:

Nu permite: /*?id=

Nu permiteți: /assets

Nu permiteți: /assets/cache

Nu permiteți: /assets/components

Nu permiteți: /assets/docs

Nu permiteți: /assets/export

Nu permiteți: /assets/import

Nu permiteți: /assets/modules

Nu permiteți: /assets/plugins

Nu permiteți: /assets/snippets

Nu permiteți: /conectori

Nu permiteți: /index.php

Disallow: /install

Nu permite: /manager

Nepermite: /profil

Nu permite: /căutare

Harta site-ului: http://site.ru/sitemap.xml

concluzii

Fără exagerare, fișierul robots.txt poate fi numit „un ghid pentru roboții de căutare Yandex și Google” (desigur, dacă este compilat corect). Dacă fișierul robots txt lipsește, atunci acesta trebuie creat și încărcat pe găzduirea site-ului dvs. Ajutor Regulile de respingere sunt descrise mai sus în acest articol și le puteți utiliza în siguranță în propriile scopuri.

Să recapitulăm regulile/directivele/instrucțiunile pentru robots.txt:

User-agent - indică pentru ce robot de căutare anume a fost creată lista de reguli.
Disallow - „Recomand ca acest lucru să nu fie indexat”.
Sitemap - specifică locația sitemap-ului XML cu toate adresele URL de indexat. În cele mai multe cazuri, harta se află la http://[sitemap.xml.
Crawl-delay este o directivă care specifică perioada (în secunde) după care va fi încărcată pagina site-ului.
Gazdă - arată Yandex oglinda site-ului principal.
Permite - „Recomand să indexezi acest lucru, în ciuda faptului că contrazice una dintre regulile Disallow”.
Clean-param - ajută în lupta împotriva get-parameters, este folosit pentru a reduce riscul de duplicare a paginilor.

Semne la compilarea robots.txt:

Semnul „$” pentru „asterisc” este „delimitator”.
După slash „/” este indicat numele fișierului/dosarului/extensiei, care trebuie ascuns (în cazul Disallow) sau deschis (în cazul Allow) pentru indexare.
Semnul „*” înseamnă „orice număr de caractere”.
Semnul „#” separă comentariile sau notele lăsate de webmaster pentru el însuși sau pentru altcineva. Roboții de căutare nu îi citesc.