Acesta este un fișier text (document în format .txt) care conține instrucțiuni clare pentru indexarea unui anumit site. Cu alte cuvinte, acest fișier le spune motoarele de căutare care pagini ale resursei web trebuie indexate și care nu - pentru a interzice indexarea.
S-ar părea, de ce interziceți indexarea unui anumit conținut al site-ului? Spune, lasă robotul de căutare să indexeze totul fără discernământ, ghidându-se după principiul: cu cât mai multe pagini, cu atât mai bine! Doar un amator de la CEO poate argumenta așa.
Nu tot conținutul din care constă site-ul este necesar roboților de căutare. Există fișiere de sistem, sunt pagini duplicate, există titluri pentru cuvinte cheie și sunt multe altele care nu sunt deloc necesare pentru a fi indexate. În caz contrar, următoarea situație nu este exclusă.
Robotul de căutare, venind pe site-ul dvs., încearcă în primul rând să găsească notoriul robots.txt. Dacă acest fișier nu este găsit de el sau este găsit, dar în același timp este compilat incorect (fără interdicțiile necesare), „mesagerul” motorului de căutare începe să studieze site-ul la propria discreție.
În procesul unui astfel de studiu, indexează totul și este departe de a fi un fapt că pornește de la acele pagini care trebuie introduse în căutare în primul rând (articole noi, recenzii, reportaje foto etc.). Desigur, în acest caz, indexarea unui site nou poate fi oarecum întârziată.
Pentru a evita o astfel de soartă de neinvidiat, webmasterul trebuie să aibă grijă să creeze la timp fișierul robots.txt corect.
În practică, directivele (comenzile) sunt scrise în robots.txt folosind termeni speciali, principalul dintre care poate fi considerat directiva „ agent utilizator: ". Acesta din urmă este folosit pentru a specifica robotul de căutare, căruia îi vor primi anumite instrucțiuni în viitor. De exemplu:
În fișierul robots.txt, vă puteți referi la toate celelalte motoare de căutare combinate. Comanda în acest caz ar arăta astfel: Agent utilizator: *. Sub simbolul special „*” se obișnuiește să se înțeleagă „orice text”. În cazul nostru - oricare altul, cu excepția Yandex, motoarele de căutare. Google, apropo, ia această directivă personal, dacă nu o contactați personal.
După directiva principală „User-agent:” adresată motoarelor de căutare, pot urma anumite comenzi. Dintre acestea, cele mai frecvente pot fi considerate directiva „ Nu permiteți: ". Cu această comandă, robotului de căutare poate fi interzis să indexeze întreaga resursă web sau o parte a acesteia. Totul depinde de ce extensie va avea directiva dată. Luați în considerare exemple:
Agent utilizator: Yandex Disallow: /
Acest tip de intrare în fișierul robots.txt înseamnă că robotul de căutare Yandex nu are deloc permisiunea de a indexa acest site, deoarece semnul de interzicere „/” stă într-o izolare splendidă și nu este însoțit de nicio clarificare.
Agent utilizator: Yandex Disallow: /wp-admin
După cum puteți vedea, de data aceasta există clarificări și se referă la folderul de sistem wp-admin în . Adică, robotul de indexare care utilizează această comandă (calea specificată în ea) va refuza indexarea întregului folder.
Agent utilizator: Yandex Disallow: /wp-content/themes
O astfel de indicație către robotul Yandex implică admiterea acestuia în categoria mare " wp-conținut ', în care poate indexa tot conținutul, cu excepția lui ' teme ».
Să explorăm în continuare funcțiile „interzise” ale documentului text robots.txt:
Agent utilizator: Yandex Disallow: /index$
În această comandă, după cum reiese din exemplu, este folosit un alt semn special „$”. Utilizarea acestuia îi spune robotului că este imposibil să indexeze acele pagini în link-urile cărora există o secvență de litere " index ". În același timp, indexați un fișier de site separat cu același nume " index.php » Robotul nu este interzis. Astfel, simbolul „$” este folosit atunci când este necesară o abordare selectivă a interzicerii indexării.
Tot în fișierul robots.txt, puteți dezactiva indexarea paginilor individuale ale resursei în care apar anumite caractere. Ar putea arăta astfel:
Agent utilizator: Yandex Disallow: *&*
Această comandă îi instruiește robotului de căutare Yandex să nu indexeze toate acele pagini ale site-ului web ale căror adrese URL conțin simbolul „&”. Mai mult, acest semn din link trebuie să fie între orice alte caractere. Cu toate acestea, poate exista o altă situație:
Agent utilizator: Yandex Disallow: *&
Aici interdicția de indexare se aplică tuturor acelor pagini ale căror linkuri se termină în „&”.
Dacă nu ar trebui să existe probleme cu interzicerea indexării fișierelor de sistem ale site-ului, atunci astfel de probleme pot apărea cu privire la interdicția de a indexa pagini individuale ale resursei. Cum ar fi, de ce este acest lucru necesar în principiu? Un webmaster cu experiență poate avea multe considerații în acest sens, dar principalul este nevoia de a scăpa de paginile duplicat în căutare. Cu ajutorul comenzii „Disallow:” și al grupului de caractere speciale discutat mai sus, este destul de ușor să faci față paginilor „nedorite”.
Antipodul directivei anterioare poate fi considerat comanda " permite: ". Folosind aceleași elemente de clarificare, dar folosind această comandă în fișierul robots.txt, puteți permite robotului de indexare să adauge elementele site-ului de care aveți nevoie la baza de căutare. Iată un alt exemplu pentru a dovedi acest lucru:
Agent utilizator: Yandex Allow: /wp-admin
Din anumite motive, webmasterul s-a răzgândit și a făcut ajustările corespunzătoare la robots.txt. Ca urmare, de acum înainte conținutul folderului wp-admin oficial permis pentru indexare de către Yandex.
În ciuda faptului că comanda „Permite:” există, în practică nu este folosită foarte des. În general, nu este nevoie de el, deoarece se aplică automat. Este suficient ca proprietarul site-ului să folosească directiva „Disallow:”, interzicând indexarea unuia sau altuia dintre conținutul acestuia. După aceea, orice alt conținut al resursei care nu este interzis în fișierul robots.txt este perceput de robotul de căutare ca unul care poate și ar trebui să fie indexat. Totul este ca în jurisprudență: „Tot ceea ce nu este interzis de lege este permis”.
Comenzile „ gazdă: " Și " harta site: ". În ceea ce privește primul, este destinat exclusiv Yandex, indicându-i ce oglindă a site-ului (cu sau fără www) ar trebui considerată principală. Un exemplu de site ar putea arăta astfel:
Agent utilizator: Gazdă Yandex: site
Agent utilizator: Yandex Gazdă: www.site
Utilizarea acestei comenzi evită, de asemenea, duplicarea inutilă a conținutului site-ului.
La rândul său, directiva harta site: ” indică robotului de indexare calea corectă către așa-numitele Sitemap - fișiere sitemap.xml Și sitemap.xml.gz (în cazul CMS WordPress). Un exemplu ipotetic ar putea fi:
Agent utilizator: * Harta site-ului: http://site/sitemap.xml Harta site-ului: http://site/sitemap.xml.gz
Prescrierea acestei comenzi în fișierul robots.txt va ajuta robotul de căutare să indexeze Sitemap-ul mai rapid. Acest lucru, la rândul său, va accelera și procesul de introducere a paginilor de resurse web în rezultatele căutării.
Să presupunem că tu, ca webmaster începător, ai stăpânit toate informațiile pe care le-am dat mai sus. Ce să faci după? Creați un document text robots.txt adaptat site-ului dvs. Pentru asta ai nevoie de:
Da, aproape am uitat. Un webmaster începător, fără îndoială, înainte de a experimenta el însuși, va dori mai întâi să se uite la exemple gata făcute ale acestui fișier realizate de alții. Nu este nimic mai ușor. Pentru a face acest lucru, în bara de adrese a browserului, trebuie doar să introduceți site.ru/robots.txt . În loc de „site.ru” - numele resursei de care sunteți interesat. Numai și totul.
Experimentare fericită și mulțumesc pentru lectură!
Fișierul robots.txt se află în directorul rădăcină al site-ului dvs. web. De exemplu, pe www.example.com, adresa fișierului robots.txt ar fi www.example.com/robots.txt. Este un fișier text simplu care se conformează standardului de excludere a botului și include una sau mai multe reguli, fiecare dintre acestea refuzând sau permite accesul unuia sau altui crawler la o anumită cale de pe site.
Mai jos este un exemplu de fișier robots.txt simplu care conține două reguli și interpretarea acestuia.
# Regula 1 User-agent: Googlebot Nepermite: /nogooglebot/ # Regula 2 User-agent: * Permite: / Sitemap: http://www.example.com/sitemap.xml
Interpretare
Iată câteva sfaturi pentru lucrul cu fișierele robots.txt. Vă recomandăm să învățați sintaxa completă a fișierelor robots.txt, deoarece regulile de sintaxă folosite pentru a crea fișiere robots.txt nu sunt evidente și trebuie să le înțelegeți.
Puteți crea un fișier robots.txt în aproape orice editor de text (trebuie să accepte codarea ASCII sau UTF-8). Nu folosiți procesoare de text: acestea salvează adesea fișiere într-un format proprietar și le adaugă caractere ilegale, cum ar fi ghilimele, care nu sunt recunoscute de roboții de căutare.
Utilizați instrumentul de inspecție a fișierelor robots.txt când creați și testați aceste fișiere. Vă permite să analizați sintaxa unui fișier și să aflați cum va funcționa acesta pe site-ul dvs.
Formatul fișierului și regulile de locație
Directive utilizate în fișierele robots.txt
Cuvintele cheie necunoscute sunt ignorate.
Fișierul robots.txt constă dintr-unul sau mai multe seturi de reguli. Fiecare set începe cu un șir User-agent, care specifică robotul care respectă regulile din set. Iată un exemplu de fișier cu două reguli; acestea sunt explicate prin comentarii inline:
# Blocați accesul Googlebot la example.com/directory1/... și example.com/directory2/... # dar permiteți accesul la directory2/subdirectory1/... # Accesul la toate celelalte directoare este permis în mod implicit. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blocați accesul altor motoare de căutare pe întregul site. Agent utilizator: un alt crawler Nu permite: /
Sintaxa completă este descrisă în acest articol. Vă recomandăm să vă familiarizați cu acesta, deoarece există câteva nuanțe importante în sintaxa fișierului robots.txt.
Iată câteva reguli comune pentru fișierul robots.txt:
regulă | Exemplu |
---|---|
Preveniți accesarea cu crawlere a întregului site. Rețineți că, în unele cazuri, adresele URL ale site-urilor pot fi indexate chiar dacă nu au fost accesate cu crawlere. Vă rugăm să rețineți că această regulă nu se aplică AdsBots, care trebuie listate separat. | Agent utilizator: * Nu permite: / |
Pentru a preveni scanarea unui director și a întregului conținut al acestuia, puneți o bară oblică după numele directorului. Nu utilizați fișierul robots.txt pentru a proteja informațiile confidențiale! În aceste scopuri, ar trebui utilizată autentificarea. URL-urile blocate de fișierul robots.txt pot fi indexate, iar conținutul fișierului robots.txt poate fi vizualizat de orice utilizator, și astfel aflați locația fișierelor cu informații confidențiale. | User-agent: * Disallow: /calendar/ Disallow: /junk/ |
Permite accesarea cu crawler doar pentru un singur crawler | User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Permite accesarea cu crawlere pentru toate crawlerele, cu excepția unuia | User-agent: Unnecessarybot Disallow: / User-agent: * Permite: / |
Pentru a dezactiva scanarea unei pagini individuale, specificați această pagină după bară oblică. |
Nu permiteți: /private_file.html |
Pentru a ascunde o anumită imagine din botul Google Images |
Agent de utilizator: Googlebot-Image Disallow: /images/dogs.jpg |
Pentru a ascunde toate imaginile de pe site-ul dvs. din botul Google Imagini |
Agent de utilizator: Googlebot-Image Disallow: / |
Pentru a preveni scanarea tuturor fișierelor de un anumit tip(în acest caz GIF) |
Agent utilizator: Googlebot Disallow: /*.gif$ |
Pentru a bloca anumite pagini de pe site-ul dvs., dar continuați să afișați anunțuri AdSense pe acestea, utilizați regula de respingere pentru toți roboții, cu excepția Mediapartners-Google. Drept urmare, acest robot va putea accesa paginile eliminate din rezultatele căutării pentru a selecta anunțuri pentru a le afișa unui anumit utilizator. |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Pentru a specifica adrese URL care se termină cu anumite caractere, utilizați simbolul $. De exemplu, pentru adresele URL care se termină în .xls , utilizați următorul cod: | Agent de utilizator: Googlebot Disallow: /*.xls$ |
A fost de ajutor articolul?
Cum poate fi îmbunătățit acest articol?
Nu există lucruri mărunte în SEO. Uneori, un singur fișier mic, Robots.txt, poate afecta promovarea site-ului.
Dacă doriți ca site-ul dvs. să intre corect în index, astfel încât roboții de căutare să ocolească paginile de care aveți nevoie, trebuie să scrieți recomandări pentru acestea.
„Este posibil?” întrebi.Pot fi. Pentru a face acest lucru, site-ul dvs. trebuie să aibă un fișier robots.txt.
Cum să îl compuneți corect și să îl încărcați pe site - înțelegem în acest articol.
Fișierul Robots.txt terminat trebuie să fie localizat în folderul rădăcină al site-ului. Doar un fișier, fără folder:
Vrei să verifici dacă este pe site-ul tău? Introduceți în bara de adrese: site.ru/robots.txt. Veți vedea următoarea pagină (dacă fișierul există):
Fișierul este format din mai multe blocuri separate printr-o indentare. Fiecare bloc conține recomandări pentru roboții de căutare ai diferitelor motoare de căutare (plus un bloc cu reguli generale pentru toată lumea) și un bloc separat cu link-uri către sitemap - Sitemap.
Nu este nevoie să indentați în interiorul blocului cu reguli pentru un robot de căutare.
Fiecare bloc începe cu directiva User-agent.
Fiecare directivă este urmată de semnul „:” (coloană), un spațiu, după care este indicată valoarea (de exemplu, ce pagină să se închidă de la indexare).
Trebuie să specificați adresele paginilor relative, nu absolute. Relativ - aceasta este fără „www.site.ru”. De exemplu, trebuie să dezactivați indexarea unei paginiwww.site.ru/shop. Deci, după două puncte punem un spațiu, o bară oblică și „shopping”:
Renunțați: /shop.
Un asterisc (*) indică orice set de caractere.
Semnul dolarului ($) este sfârșitul liniei.
Puteți decide - de ce să scrieți un fișier de la zero dacă îl puteți deschide pe orice site și îl puteți copia pentru dvs.?
Pentru fiecare site trebuie să prescrii reguli unice. Este necesar să se țină cont de caracteristici. De exemplu, același panou de administrare se află la /wp-admin pe motorul WordPress, pe o altă adresă va fi diferit. La fel și cu adresele paginilor individuale, cu o hartă a site-ului și așa mai departe.
După cum ați văzut deja în captură de ecran, directiva User-agent este pe primul loc. Indică pentru ce robot de căutare vor merge regulile de mai jos.
User-agent: * - reguli pentru toți roboții de căutare, adică orice motor de căutare (Google, Yandex, Bing, Rambler etc.).
Agent utilizator: Googlebot - Indică regulile pentru păianjenul de căutare Google.
Agent utilizator: Yandex - reguli pentru robotul de căutare Yandex.
Pentru care robot de căutare să prescrie mai întâi regulile, nu există nicio diferență. Dar, de obicei, recomandările pentru toți roboții sunt scrise mai întâi.
Pentru a dezactiva indexarea site-ului ca întreg sau a paginilor individuale, utilizați directiva Disallow.
De exemplu, puteți închide complet site-ul de la indexare (dacă resursa este în curs de finalizare și nu doriți ca aceasta să intre în rezultatele căutării în această stare). Pentru a face acest lucru, scrieți următoarele:
Agent utilizator: *
interzice: /
Astfel, tuturor roboților de căutare le este interzis să indexeze conținutul de pe site.
Și așa puteți deschide un site pentru indexare:
Agent utilizator: *
Nu permiteți:
Prin urmare, verificați dacă există o bară oblică după directiva Disallow dacă doriți să închideți site-ul. Dacă doriți să o deschideți mai târziu - nu uitați să eliminați regula (și acest lucru se întâmplă adesea).
Pentru a închide paginile individuale de la indexare, trebuie să specificați adresa acestora. Am scris deja cum se face:
Agent utilizator: *
Nu permiteți: /wp-admin
Astfel, panoul de administrare a fost închis pe site din vizualizări terțe.
Ce trebuie să închideți de la indexare fără greș:
Puteți închide de la indexare și anumite tipuri de fișiere. Să presupunem că aveți câteva fișiere .pdf pe site-ul dvs. pe care nu doriți să le indexați. Și roboții de căutare scanează foarte ușor fișierele încărcate pe site. Le puteți închide de la indexare după cum urmează:
Agent utilizator: *
Nu permite: /*. pdf$
Chiar și cu un site complet închis de la indexare, puteți deschide calea către anumite fișiere sau pagini pentru roboți. Să presupunem că reproiectați site-ul, dar directorul de servicii rămâne intact. Puteți direcționa roboții de căutare acolo, astfel încât aceștia să continue să indexeze secțiunea. Pentru aceasta, se utilizează directiva Allow:
Agent utilizator: *
Permite: /servicii
interzice: /
Până pe 20 martie 2018, în fișierul robots.txt pentru robotul de căutare Yandex, a fost necesar să se specifice oglinda site-ului principal prin directiva Gazdă. Acum nu este necesar să faceți acest lucru - este suficient.
Care este oglinda principală? Aceasta este adresa principală a site-ului dvs. - cu sau fără www. Dacă nu configurați o redirecționare, atunci ambele site-uri vor fi indexate, adică vor fi duplicate ale tuturor paginilor.
După ce toate directivele pentru roboți sunt scrise, trebuie să specificați calea către Harta site-ului. Harta site-ului arată roboților că toate adresele URL care trebuie indexate sunt situate la o anumită adresă. De exemplu:
Harta site-ului: site.ru/sitemap.xml
Când robotul accesează cu crawlere site-ul, va vedea ce modificări au fost aduse acestui fișier. Ca rezultat, paginile noi vor fi indexate mai rapid.
În 2009, Yandex a introdus o nouă directivă - Clean-param. Poate fi folosit pentru a descrie parametrii dinamici care nu afectează conținutul paginilor. Cel mai adesea, această directivă este folosită pe forumuri. Există o mulțime de gunoi aici, de exemplu ID-ul sesiunii, parametrii de sortare. Dacă înregistrați această directivă, robotul de căutare Yandex nu va descărca în mod repetat informațiile care sunt duplicate.
Puteți scrie această directivă oriunde în fișierul robots.txt.
Parametrii de care robotul nu trebuie să ia în considerare sunt enumerați în prima parte a valorii prin semnul &:
Clean-param: sid&sort /forum/viewforum.php
Această directivă evită paginile duplicat cu adrese URL dinamice (care conțin un semn de întrebare).
Această directivă va veni în ajutorul celor care au un server slab.
Sosirea unui robot de căutare este o încărcare suplimentară pe server. Dacă aveți un trafic mare pe site, atunci resursa poate pur și simplu să nu reziste și să "se întindă". Ca rezultat, robotul va primi un mesaj de eroare 5xx. Daca aceasta situatie se repeta constant, site-ul poate fi recunoscut de motorul de cautare ca nefunctional.
Imaginează-ți că lucrezi și, în paralel, trebuie să răspunzi constant la apeluri. Apoi productivitatea ta scade.
La fel si cu serverul.
Să revenim la directivă. Crawl-delay vă permite să setați o întârziere în scanarea paginilor site-ului web pentru a reduce sarcina de pe server. Cu alte cuvinte, stabilești perioada după care se vor încărca paginile site-ului. Acest parametru este specificat în secunde, ca număr întreg:
Fişier robots.txt este un fișier obișnuit cu extensia .txt, care poate fi creat folosind un bloc de note Windows obișnuit. Acest fișier conține instrucțiuni de indexare pentru roboții de căutare. Plasați acest fișier director rădăcină pe găzduire.
Când vizitează site-ul, robotul de căutare se referă în primul rând la fișierul robots.txt pentru a primi instrucțiuni pentru acțiuni ulterioare și pentru a afla care fișiere și directoare sunt interzise la indexare. Fişier robots.txt este o recomandare pentru motoarele de căutare. Este imposibil să spunem cu siguranță că toate fișierele care sunt interzise de la indexare nu vor fi indexate ca urmare.
Luați în considerare cel mai simplu exemplu de fișier robots.txt. Acest fișier conține următoarele rânduri:
User-agent: * Disallow: /wp-admin/ Disallow: /images/
Prima linie indică pentru ce roboți de căutare se aplică aceste instrucțiuni. În acest exemplu, este indicat un asterisc, ceea ce înseamnă că instrucțiunile se aplică tuturor crawlerelor. Dacă este necesar să specificați instrucțiuni pentru un anumit robot de căutare, trebuie să introduceți numele acestuia. Al doilea și al treilea rând dezactivează indexarea directoarelor „wp-admin” și „images”.
Pentru robotul de căutare Yandex, este, de asemenea, relevant să prescrieți directorul gazdă pentru a indica oglinda site-ului principal:
Agent utilizator: Yandex Disallow: /wp-admin/ Disallow: /images/ Gazdă: yoursite.ru
1. Nu interziceți roboților niciunui motoare de căutare să indexeze site-ul:
Agent de utilizator: googlebot Disallow: /
4. Nu interziceți indexarea de către un singur robot (de exemplu, googlebot) și interziceți indexarea tuturor celorlalți roboți de căutare:
Agent utilizator: googlebot Disallow:
User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php
Agent utilizator: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html
Greșeli sunt adesea făcute la scrierea fișierului robots.txt. Pentru a le evita, să ne uităm la regulile de bază:
1. Trebuie să scrieți conținutul fișierului numai cu majuscule.
2. În instrucțiunea Disallow trebuie specificat un singur director sau un fișier.
3. Șirul „User-agent” nu trebuie să fie gol. Dacă instrucțiunea se aplică tuturor roboților de căutare, atunci trebuie să specificați un asterisc, iar dacă se referă la un anumit robot de căutare, atunci indicați numele acestuia.
4. Nu puteți schimba declarațiile Disallow și User-agent.
5. În directiva Gazdă, care este utilizată pentru Yandex, adresa site-ului nostru trebuie specificată fără protocolul HTTP și fără bara oblică de închidere.
6. Când se interzice indexarea directoarelor, este necesar să se prescrie bare oblice.
7. Ar trebui să verificați fișierul robots.txt înainte de a-l încărca pe server. Acest lucru va evita posibile probleme cu indexarea site-ului în viitor.
Robots.txt pentru site este un fișier text index codificat UTF-8.
A fost numit index deoarece conține recomandări pentru roboții de căutare - ce pagini trebuie accesate cu crawlere și care nu.
Dacă codificarea fișierului diferă de UTF-8, atunci roboții de căutare pot interpreta greșit informațiile conținute în acesta.
Fișierul este valabil pentru protocoalele http, https, ftp și are, de asemenea, „validitate” doar în cadrul numărului de gazdă/protocol/port pe care se află.
Fișierul robots.txt poate avea o singură locație - directorul rădăcină de pe găzduire. Arată cam așa: http://your-site.xyz/robots.txt
Componentele obligatorii ale fișierului robots.txt al site-ului sunt regula Disallow și instrucțiunea User-agent. Există și reguli secundare.
Disallow este o regulă prin care robotul de căutare este informat despre paginile pe care nu are sens să le acceseze cu crawlere. Și imediat câteva exemple concrete de aplicare a acestei reguli:
Exemplul 1 - permis indexarea întregului site:
Exemplul 2 - dezactivați complet indexarea site-ului:
În acest caz, va fi inutil. Utilizarea acestui exemplu este relevantă dacă site-ul este „închis” pentru revizuire (de exemplu, nu funcționează corect). În acest caz, site-ul nu are loc în rezultatele căutării, așa că trebuie să fie închis de la indexare prin fișierul robots txt. Desigur, după finalizarea site-ului, interdicția de indexare trebuie ridicată, dar acest lucru este uitat.
Exemplul 6 - cum să închideți fișierele cu o anumită extensie de la indexare în robots txt (în acest caz, .gif):
Asteriscul înainte de .gif$ indică faptul că numele fișierului poate fi orice, iar semnul $ indică sfârșitul liniei. Acestea. o astfel de „mască” interzice scanarea tuturor fișierelor GIF în general.
Regula Permite face totul exact invers - permite indexarea fișierului/dosarului/paginii.
Și acum un exemplu concret:
Știm deja că, cu ajutorul directivei Disallow: /, putem bloca site-ul de la robots txt indexing. În același timp, avem regula Allow: /catalog, care permite scanarea folderului /catalog. Prin urmare, combinația acestor două reguli va fi percepută de roboții de căutare ca „este interzisă accesarea cu crawlere a site-ului, cu excepția folderului / catalog”
Regulile și directivele Allow și Disallow sunt sortate în ordinea crescătoare a lungimii prefixului URL și sunt aplicate secvenţial. Dacă mai multe reguli se potrivesc cu aceeași pagină, atunci robotul o alege pe ultima care se potrivește din listă.
Să luăm în considerare 2 situații cu două reguli care se contrazic – o regulă interzice indexarea folderelor /content, iar cealaltă o permite.
În acest caz, directiva Allow va avea prioritate, deoarece este listat mai jos:
Și aici directiva Disallow are prioritate din aceleași motive (enumerate mai jos):
User-agent - o regulă care este o „referință” la robotul de căutare, spun ei, „o listă de recomandări special pentru tine” (apropo, pot exista mai multe liste în robots.txt - pentru diferiți roboți de căutare de la Google și Yandex).
De exemplu, în acest caz, spunem „Hei Googlebot, vino aici, iată o listă special pregătită de recomandări pentru tine”, iar el este ca „OK, mai ales pentru mine - înseamnă special pentru mine” și nu va accesa cu crawlere altele. liste.
Textul corect al roboților pentru Google (Googlebot)
Aproximativ aceeași poveste cu botul de căutare Yandex. Privind în viitor, lista de recomandări pentru Yandex în aproape 100% din cazuri este ușor diferită de lista pentru alți roboți de căutare (vă vom spune despre asta puțin mai târziu). Dar esența este aceeași: „Hei, Yandex, există o listă separată pentru tine” - „OK, să o studiem acum”.
Acestea. dacă în același robots.txt există 3 liste cu User-agent: *, User-agent: Googlebot și User-agent: Yandex, aceasta înseamnă că prima este „unul pentru toți”, cu excepția Googlebot și Yandex, adică. la. există liste „personale” pentru ei.
Regula sitemap - locația unui fișier cu un sitemap XML, care conține adresele tuturor paginilor care trebuie accesate cu crawlere. De regulă, este specificată adresa formularului http://site.ua/sitemap.xml.
Acestea. de fiecare dată robotul de căutare se va uita pe harta site-ului pentru noi adrese, apoi le va urma pentru accesarea cu crawlere în continuare pentru a reîmprospăta informațiile despre site din bazele de date ale motorului de căutare.
Regula Sitemap trebuie introdusă în Robots.txt după cum urmează:
Directiva gazdă în secțiune transversală din fișierul robots.txt este, de asemenea, necesară. Este necesar pentru robotul de căutare Yandex - îi spune care dintre oglinzile site-ului ar trebui să fie luate în considerare la indexare. De aceea, se formează o listă separată de reguli pentru Yandex. Google și alte motoare de căutare nu înțeleg directiva Gazdă. Prin urmare, dacă site-ul dvs. are copii sau site-ul se poate deschide sub adrese URL diferite, atunci adăugați directiva gazdă în fișierul robots txt, astfel încât paginile site-ului să fie indexate corect.
Un „site-oglindă” este de obicei numit „copie” exactă sau aproape exactă a site-ului, care este disponibil la o altă adresă.
Adresa oglinzii principale trebuie specificată după cum urmează:
Pentru site-urile care operează pe http - Gazdă: site.ua sau Gazdă: http://site.ua (adică http:// este opțional)
Pentru site-urile care operează pe https - Gazdă: https://site.ua (adică https:// este obligatoriu)
Un exemplu de directivă gazdă în robots txt pentru un site pe protocolul HTTPS:
Spre deosebire de cele anterioare, parametrul Crawl-delay nu mai este necesar. Sarcina sa principală este de a spune robotului de căutare câte secunde se vor încărca paginile. Utilizat de obicei dacă utilizați servere slabe. Relevant doar pentru Yandex.
Folosind directiva Clean-param, vă puteți ocupa de get-parameters, astfel încât să nu existe o duplicare a conținutului, deoarece același conținut este disponibil prin diferite link-uri dinamice (acestea sunt cele cu semne de întrebare). Legăturile dinamice pot fi generate de site atunci când sunt folosite diferite sortări, sunt utilizați identificatori de sesiune etc.
De exemplu, același conținut poate fi disponibil la trei adrese:
www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1
În acest caz, directiva Clean-param este formatată astfel:
Acestea. după două puncte se scrie atributul ref, indicând sursa link-ului și abia atunci este indicată „coada” acestuia (în acest caz, /catalog/get_phone.ua).
În aceste scopuri, a fost inventată regula Disallow: i.e. copiați linkul către documentul/fișierul care trebuie închis de la indexare, lipiți-l după două puncte:
Nu permiteți: http://your-site.xyz/privance.html
Nu permiteți: http://your-site.xyz/foord.doc
Nu permiteți: http://site-ul-voastră.xyz/barcode.jpg
Și apoi ștergeți adresa de domeniu (în acest caz, trebuie să ștergeți această parte - http://your-site.xyz). După ștergere, vom avea exact ceea ce ar trebui să rămână:
Nu permiteți: /privacy.html
Nu permiteți: /food.doc
Nu permiteți: /barcode.jpg
Ei bine, dacă doriți să închideți toate fișierele cu o anumită extensie de la indexare, atunci regulile vor arăta astfel:
Nu permiteți: /*.html
Nu permiteți: /*.doc
Nu permiteți: /*.jpg
În aceste scopuri, a fost inventată directiva Gazdă. Acestea. dacă adresele http://your-site.xyz și http://yoursite.com sunt „oglinzi” ale aceluiași site, atunci una dintre ele trebuie specificată în directiva Gazdă. Lăsați oglinda principală să fie http://your-site.xyz. În acest caz, opțiunile corecte ar fi:
Dacă site-ul funcționează pe protocolul https, atunci trebuie doar să faceți acest lucru:
Agent utilizator: Yandex
Nu permiteți: /privacy.html
Nu permiteți: /food.doc
Nu permiteți: /barcode.jpg
Gazdă: https://your-site.xyz
Dacă site-ul funcționează pe protocolul http, atunci ambele opțiuni următoare vor fi corecte:
Agent utilizator: Yandex
Nu permiteți: /privacy.html
Nu permiteți: /food.doc
Nu permiteți: /barcode.jpg
Gazdă: http://your-site.xyz
Agent utilizator: Yandex
Nu permiteți: /privacy.html
Nu permiteți: /food.doc
Nu permiteți: /barcode.jpg
Gazdă: site-ul tău.xyz
Cu toate acestea, rețineți că directiva Gazdă este o recomandare, nu o regulă. Acestea. este posibil ca un domeniu să fie specificat în gazdă, iar Yandex să considere un altul ca oglindă principală dacă are setările corespunzătoare în panoul webmaster.
În această formă, fișierul robots.txt poate fi plasat pe aproape orice site (cu ajustări minore).
Să aruncăm o privire acum la ce este acolo.
DAR... Acest lucru NU înseamnă că trebuie să formatați robots.txt în acest fel. Regulile trebuie scrise strict individual pentru fiecare site. De exemplu, nu are sens să indexezi pagini „tehnice” (pagini de introducere a parolei de conectare sau pagini de test pe care se elaborează un nou design de site etc.). Regulile, de altfel, depind și de CMS-ul folosit.
Oferim imediat un cod gata făcut care vă va permite să interziceți indexarea site-ului, indiferent de CMS:
Foarte simplu:
Gazdă: https://your-site.xyz
IMPORTANT!!! Pentru site-urile https, protocolul trebuie specificat strict!
Special pentru tine, am pregătit o selecție a celor mai frecvente greșeli făcute în robots.txt. Aproape toate aceste greșeli au un lucru în comun - sunt făcute din cauza neatenției.
1. Instrucțiuni confuze:
Opțiunea corectă:
2. O grămadă de foldere sunt inserate într-un singur Disallow:
Într-o astfel de înregistrare, robotul poate deveni confuz. Ce folder nu poate fi indexat? Primul? Ultimul? Sau toate? Sau cum? Sau ce? Un folder = o regulă de interzicere și nimic altceva.
3. Este permis un singur nume de fișier - robots.txt, iar toate literele sunt mici. Numele Robots.txt, ROBOTS.TXT etc. nepermis.
4. Regula User-agent nu trebuie lăsată goală. Fie specificați numele robotului de căutare (de exemplu, pentru Yandex), fie puneți un asterisc (pentru toate celelalte).
5. Gunoi în fișier (bare oblice suplimentare, asteriscuri etc.).
6. Adăugarea adreselor complete ale paginilor ascunse în fișier și, uneori, chiar și fără regula de respingere.
Nu dreapta:
http://mega-site.academy/serrot.html
De asemenea, greșit:
Nu permiteți: http://mega-site.academy/serrot.html
Dreapta:
Nu permiteți: /serrot.html
Există mai multe moduri de a valida un fișier robots.txt în raport cu un standard web general acceptat.
Metoda 1. Înregistrați-vă în panourile pentru webmasteri Yandex și Google. Singurul negativ este că trebuie să sapi pentru a-ți da seama de funcționalitatea. În plus, modificările recomandate sunt făcute și fișierul terminat este încărcat în găzduire.
Metoda 2. Utilizați serviciile online:
https://services.sl-team.ru/other/robots/
https://technicalseo.com/seo-tools/robots-txt/
http://tools.seochat.com/tools/robots-txt-validator/
Deci, robots.txt este format. Rămâne doar să-l verificăm pentru erori. Cel mai bine este să folosiți instrumentele oferite de motoarele de căutare în sine pentru aceasta.
Google Webmasters (Google Search Console): conectați-vă la contul dvs., dacă site-ul nu este verificat în acesta - confirmați, apoi accesați Crawl -> instrument de verificare a fișierului Robots.txt.
Aici poti:
Este similar cu cel precedent, cu excepția:
Nu permiteți: /cgi-bin # clasic
interzice: /? # orice parametri de interogare pe principal
Nu permiteți: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins
Nu permiteți: **s= # căutare
Nu permiteți: *&s= # căutare
Nu permiteți: /căutare # căutare
Nu permiteți: **attachment_id= # pagină de atașare. De fapt, are o redirecționare...
Nu permiteți: */feed # toate fluxurile
Nu permiteți: */rss # rss feed
Nu permiteți: */embed # toate înglobările
Nu permiteți: */page/ # toate tipurile de paginare
Permite: */încărcări # încărcări deschise
Permite: /*/*.js # în /wp- (/*/ - pentru prioritate)
Permite: /*/*.css # în /wp- (/*/ - pentru prioritate)
Permite: /wp-*.png # imagini în pluginuri, folderul cache etc.
Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc.
Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc.
Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc.
Permite: /wp-*.svg # imagini în pluginuri, folderul cache etc.
Permite: /wp-*.pdf # fișiere în pluginuri, folderul cache etc.
#Disallow: /wp/ # când WP este instalat în subdirectorul wp
Harta site-ului: http://site.ru/sitemap2.xml # încă un fișier
#Sitemap: http://site.ru/sitemap.xml.gz # versiune comprimată (.gz)
Gazdă: www.site.ru # pentru Yandex și Mail.RU. (intersecțional)
# Versiune cod: 1.0
# Nu uitați să schimbați `site.ru` pe site-ul dvs.
Să aruncăm o privire la codul fișierului roboți txt pentru CMS WordPress:
Aici indicăm că toate regulile sunt relevante pentru toți roboții de căutare (cu excepția celor pentru care sunt compilate liste „personale”). Dacă lista este făcută pentru un anumit robot, atunci * este schimbat cu numele robotului:
Agent utilizator: Yandex
Agent utilizator: Googlebot
Permite: */încărcări
Aici, în mod deliberat, dăm voie indexării link-urilor care conțin /uploads. În acest caz, această regulă este obligatorie, deoarece. motorul WordPress are un director /wp-content/uploads (care poate conține imagini sau alt conținut „deschis”), a cărui indexare este interzisă de regula Disallow: /wp-. Deci, cu Allow: */uploads facem o excepție de la regula Disallow: /wp-.
În caz contrar, există pur și simplu interdicții privind indexarea:
Disallow: /cgi-bin - dezactivează indexarea scriptului
Disallow: /feed - interzicerea scanării fluxului RSS
Disallow: /trackback - interzice scanarea notificărilor
Disallow: ?s= sau Disallow: *?s= - interzicerea indexării paginilor căutării interne a site-ului
Disallow: */page/ - interzicerea indexării tuturor tipurilor de paginare
Regula Sitemap: http://site.ru/sitemap.xml îi spune robotului Yandex calea către fișierul cu harta xml. Calea trebuie scrisă în întregime. Dacă există mai multe astfel de fișiere, scriem mai multe reguli Sitemap (1 fișier = 1 regulă).
În linia Gazdă: site.ru, am înregistrat special pentru Yandex oglinda principală a site-ului. Se precizeaza astfel incat restul oglinzilor sa fie indexate in acelasi mod. Linia goală înainte de Host: este necesară.
Probabil că știți cu toții unde se află txt-ul roboților WordPress - ca și în alt CMS, acest fișier ar trebui să fie localizat în directorul rădăcină al site-ului.
Joomla este aproape cel mai popular motor printre webmasteri, deoarece. în ciuda celor mai largi posibilități și a multor soluții gata făcute, vine gratuit. Cu toate acestea, robots.txt obișnuit are întotdeauna sens să fie corectat, deoarece. prea mult „gunoi” este deschis pentru indexare, dar pozele sunt închise (asta e rău).
Iată cum arată robots.txt corect pentru Joomla:
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permiteți: /components/
Nu permiteți: /imagini/
Nu permite: /include/
Disallow: /instalare/
Nu permiteți: /limba/
Nu permiteți: /layouts/
Nu permiteți: /biblioteci/
Nu permiteți: /logs/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Platforma Wix generează automat fișiere robots.txt individual pentru fiecare site Wix. Acestea. adăugați /robots.txt la domeniul dvs. (de exemplu: www.domain.com/robots.txt) și puteți examina în siguranță conținutul fișierului robots.txt aflat pe site-ul dvs.
Nu puteți edita robots.txt. Cu toate acestea, cu ajutorul noindex, puteți închide anumite pagini de la indexare.
Fișier robots.txt standard pentru OpenCart:
Nu permiteți: /*route=account/
Nu permiteți: /*route=afiliat/
Nu permiteți: /*route=checkout/
Nu permite: /admin
Disallow: /catalog
Disallow: /descărcare
Interziceți: /export
Disallow: /system
Nu permite: /*?sort=
Nu permiteți: /*&sort=
Nu permite: /*?comanda=
Nu permiteți: /*&order=
Nu permite: /*?limit=
Nu permiteți: /*&limit=
Nu permiteți: /*?filter_name=
Nu permiteți: /*&filter_name=
Nu permiteți: /*?filter_sub_category=
Nu permiteți: /*&filter_sub_category=
Nu permiteți: /*?filter_description=
Nu permiteți: /*&filter_description=
Nu permiteți: /*?tracking=
Nu permiteți: /*&tracking=
Nu permite: /*?page=
Nu permiteți: /*&page=
Disallow: /listă de dorințe
Nu permite: /login
Agent utilizator: Yandex
Nu permiteți: /*route=account/
Nu permiteți: /*route=afiliat/
Nu permiteți: /*route=checkout/
Nu permiteți: /*route=product/search
Nu permiteți: /index.php?route=product/product*&manufacturer_id=
Nu permite: /admin
Disallow: /catalog
Disallow: /descărcare
Interziceți: /export
Disallow: /system
Nu permite: /*?sort=
Nu permiteți: /*&sort=
Nu permite: /*?comanda=
Nu permiteți: /*&order=
Nu permite: /*?limit=
Nu permiteți: /*&limit=
Nu permiteți: /*?tracking=
Nu permiteți: /*&tracking=
Nu permiteți: /*route=product/search
Nu permite: /*?page=
Nu permiteți: /*&page=
Clean-param: urmărire
Clean-param: nume_filtru
Clean-param: filter_sub_category
Clean-param: filter_description
Disallow: /listă de dorințe
Nu permite: /login
Nu permiteți: /index.php?route=product/manufacturer
Nu permiteți: /index.php?route=product/compare
Nu permiteți: /index.php?route=product/category
gazdă: domeniul_dvs
Harta site-ului: http://domeniul_dvs./sitemap.xml
1. Folderele /bitrix și /cgi-bin trebuie să fie închise, deoarece acesta este „gunoaie” pur tehnică, care nu trebuie să strălucească în rezultatele căutării.
Nu permiteți: /bitrix
Nu permiteți: /cgi-bin
2. De asemenea, folderul /search nu prezintă interes nici pentru utilizatori, nici pentru motoarele de căutare. Și nimeni nu are nevoie de formarea de duplicate. Deci îl închidem și noi.
Nu permite: /căutare
Nu permiteți: /auth/
Nu permiteți: /auth.php
4. Materialele de tipărire (de exemplu, facturile) nu au nici un sens să strălucească în rezultatele căutării. Închidem.
Nu permite: /*?print=
Nu permiteți: /*&print=
5. Unul dintre marile avantaje ale Bitrix este că înregistrează întregul istoric al site-ului - cine s-a autentificat când, cine a schimbat parola când și alte informații confidențiale care nu pot fi scurse. Prin urmare, închidem:
Nu permiteți: /*register=da
Nu permiteți: /*forgot_password=da
Nu permiteți: /*change_password=da
Nu permiteți: /*login=da
Nu permite: /*logout=da
Nu permiteți: /*auth=da
6. Nici nu are rost să indexăm adresele din spate. Aceste adrese pot fi formate, de exemplu, atunci când vizualizați un album foto, când îl derulați prima dată „înainte” și apoi „înapoi”. În aceste momente, ceva asemănător unei înjurături poate apărea în bara de adrese: ?back_url_ =%2Fbitrix%2F%2F. Valoarea unor astfel de adrese este egală cu zero, așa că le închidem și de la indexare. Ei bine, ca bonus, scăpăm de potențialele „duble” din rezultatele căutării.
Nu permiteți: /*BACKURL=*
Nu permiteți: /*back_url=*
Nu permiteți: /*BACK_URL=*
Nu permiteți: /*back_url_admin=*
7. Dosarul /upload trebuie închis strict în funcție de circumstanțe. Dacă fotografiile și videoclipurile postate pe pagini sunt stocate acolo, atunci nu este necesar să le ascundeți pentru a nu întrerupe traficul suplimentar. Ei bine, dacă ceva este confidențial, îl închidem cu siguranță:
Nu permite: /încărcare
Permite: /search/map.php
Permite: /bitrix/şabloane/
Nu permiteți: */index.php
Nu permiteți: /*acțiune=
Nu permite: /*print=
Nu permiteți: /*/galerie/*comanda=
Nu permiteți: /*/căutare/
Nu permiteți: /*/slide_show/
Nu permiteți: /*?utm_source=
Nu permiteți: /*ADD_TO_COMPARE_LIST
Nu permiteți: /*arrFilter=
Nu permiteți: /*auth=
Nu permiteți: /*back_url_admin=
Nu permiteți: /*BACK_URL=
Nu permiteți: /*back_url=
Nu permiteți: /*backurl=
Nu permiteți: /*bitrix_*=
Nu permiteți: /*bitrix_include_areas=
Nu permiteți: /*building_directory=
Nu permiteți: /*bxajaxid=
Nu permiteți: /*change_password=
Nu permiteți: /*clear_cache_session=
Nu permiteți: /*clear_cache=
Nu permite: /*count=
Nu permiteți: /*COURSE_ID=
Nu permiteți: /*forgot_password=
Nu permiteți: /*index.php$
Nu permiteți: /*login=
Nu permiteți: /*logout=
Nu permiteți: /*modern-repair/$
Nu permiteți: /*MUL_MODE=
Nu permiteți: /*ORDER_BY
Nu permiteți: /*PAGE_NAME=
Nu permiteți: /*PAGE_NAME=detail_slide_show
Nu permiteți: /*PAGE_NAME=căutare
Nu permiteți: /*PAGE_NAME=post_utilizator
Nu permiteți: /*PAGEN_
Nu permiteți: /*print_course=
Nu permite: /*print=
Nu permiteți: /*register=
Nu permiteți: /*register=da
Nu permiteți: /*set_filter=
Nu permite: /*show_all=
Nu permiteți: /*show_include_exec_time=
Nu permiteți: /*show_page_exec_time=
Nu permiteți: /*show_sql_stat=
Nu permiteți: /*SHOWALL_
Nu permite: /*sort=
Nu permiteți: /*sphrase_id=
Nu permiteți: /*etichete=
Nu permiteți: /access.log
Nu permite: /admin
Nu permiteți: /auth.php
Nu permiteți: /bitrix
Nu permiteți: /bitrix/
Nu permiteți: /cgi-bin
Nu permite: /club/$
Nu permiteți: /club/forum/search/
Nu permiteți: /club/gallery/tags/
Nu permiteți: /club/group/search/
Nu permiteți: /club/log/
Dezactivați: /club/messages/
Nu permiteți: /club/search/
Nu permiteți: /communication/blog/search.php
Interziceți: /communication/forum/search/
Interziceți: /comunicare/forum/utilizator/
Nu permiteți: /content/board/my/
Nu permiteți: /content/links/my/
Disallow: /eroare
Nu permiteți: /e-store/affiliates/
Nu permiteți: /e-store/paid/detail.php
Nu permiteți: /examples/download/download_private/
Disallow: /examples/my-components/
Nu permite: /include
Nu permite: /personal
Nu permite: /căutare
Nu permite: /încărcare
Nu permiteți: /*/*ELEMENT_CODE=
Nu permiteți: /*/*SECTION_CODE=
Nu permiteți: /*/*IBLOCK_CODE
Nu permiteți: /*/*ELEMENT_ID=
Nu permiteți: /*/*SECTION_ID=
Nu permiteți: /*/*IBLOCK_ID=
Nu permiteți: /*/*CODE=
Nu permiteți: /*/*ID=
Nu permiteți: /*/*IBLOCK_EXTERNAL_ID=
Nu permiteți: /*/*SECTION_CODE_PATH=
Nu permiteți: /*/*EXTERNAL_ID=
Nu permiteți: /*/*IBLOCK_TYPE_ID=
Nu permiteți: /*/*SITE_DIR=
Nu permiteți: /*/*SERVER_NAME=
Harta site-ului: http://site.ru/sitemap_index.xml
Harta site-ului: http://site.ru/sitemap.xml
De asemenea, CMS Modx Revo nu este lipsit de problema duplicatelor. Cu toate acestea, nu este la fel de ascuțit ca în Bitrix. Acum despre decizia ei.
Nu permiteți: /index.php # deoarece acesta este un duplicat al paginii principale a site-ului
Disallow: /*? # rezolvați problema cu duplicatele pentru toate paginile simultan
Fișier robots.txt gata pentru Modx și Modx Revo:
Nu permite: /*?id=
Nu permiteți: /assets
Nu permiteți: /assets/cache
Nu permiteți: /assets/components
Nu permiteți: /assets/docs
Nu permiteți: /assets/export
Nu permiteți: /assets/import
Nu permiteți: /assets/modules
Nu permiteți: /assets/plugins
Nu permiteți: /assets/snippets
Nu permiteți: /conectori
Nu permiteți: /index.php
Disallow: /install
Nu permite: /manager
Nepermite: /profil
Nu permite: /căutare
Harta site-ului: http://site.ru/sitemap.xml
Fără exagerare, fișierul robots.txt poate fi numit „un ghid pentru roboții de căutare Yandex și Google” (desigur, dacă este compilat corect). Dacă fișierul robots txt lipsește, atunci acesta trebuie creat și încărcat pe găzduirea site-ului dvs. Ajutor Regulile de respingere sunt descrise mai sus în acest articol și le puteți utiliza în siguranță în propriile scopuri.
Să recapitulăm regulile/directivele/instrucțiunile pentru robots.txt:
Semne la compilarea robots.txt: