Ce înseamnă din motive tehnice. Ce înseamnă o "încercare de prezentare nereușită" ("postul rusesc")? Ce este această operație? Status FSE "Mail of Rusia". Urmăriți ceea ce este "tehnic" în alte dicționare

Fișierul Robots.txt este unul dintre cele mai importante atunci când optimizați orice site. Absența sa poate duce la o încărcătură ridicată pe site de la roboții de căutare și indexarea lentă și reintroducerea și stabilirea greșită a faptului că site-ul va dispărea complet din căutare sau pur și simplu nu va fi indexat. În consecință, nu va fi căutat în Yandex, Google și alte motoare de căutare. Să ne dăm seama în toate nuanțele roboturilor de configurare corecte .Txt.

Pentru a începe un videoclip scurt care va crea o idee generală despre ceea ce este fișierul robots.txt.

Cum afectează robots.txt indexarea site-ului

Roboții de căutare vor indexa site-ul dvs. indiferent de disponibilitatea fișierului robots.txt. Dacă există un astfel de fișier, roboții pot fi ghidați de regulile care sunt prescrise în acest fișier. În același timp, unii roboți pot ignora aceste sau alte reguli, sau unele reguli pot fi specifice numai pentru unele roboți. În special, GoogleBOT nu utilizează Directiva privind întârzierea gazdei și cu crawlere, Yandexnews a început recent să ignore Directiva privind întârzierea cu crawlere, iar YandexDirect și YandexvideOpelars ignoră mai multe directive generale în roboți (dar sunt ghidate de cele care sunt specificate în mod specific pentru ele).

Mai multe despre excepții:
Excepții Yandex.
Excepții standard pentru roboți (Wikipedia)

Încărcarea maximă a site-ului creează roboți care descarcă conținut de pe site-ul dvs. Prin urmare, indicând faptul că este de a indexa și ce să ignorăm, precum și cu ce intervale de timp pentru descărcare, puteți, pe de o parte, să reduceți semnificativ sarcina de pe site de la roboți și pe de altă parte, viteza până la procesul de descărcare, interzicând ocolirea paginilor inutile.

Astfel de pagini inutile includ script-uri Ajax, JSON, responsabil pentru ferestre pop-up, bannere, încheierea de limitare etc., formularul de comandă și coș cu toate etapele achiziției, căutarea funcțională, contul personal, admin.

Pentru majoritatea roboților, este de dorit să dezactivați indexarea tuturor JS și CSS. Dar pentru GoogleBot și Yandex, astfel de fișiere trebuie să fie lăsate pentru indexare, deoarece acestea sunt utilizate de motoarele de căutare pentru a analiza confortul site-ului și clasamentul său (Google Dova, Pruf Yandex).

Directivele Robots.txt

Directivele sunt reguli pentru roboți. Există o specificație W3C din 30 ianuarie 1994 și standardul avansat din 1996. Cu toate acestea, nu toate motoarele de căutare și roboții sprijină anumite directive. În acest sens, nu va fi mai util pentru noi, dar principalii roboți sunt ghidați de aceste sau alte directive.

Să luăm în considerare în ordine.

Agent utilizator

Aceasta este principala directivă care determină pentru care roboții vor urma regulile.

Pentru toți roboții:
Agent utilizator: *

Pentru un anumit bot:
Agent de utilizator: GoogleBot

Rețineți că registrul de simbol nu este important în Robots.txt. Acestea. Agentul de utilizator pentru Google poate fi scris cu același succes cu modul sărat:
Agent de utilizator: GoogleBot

Mai jos este un tabel de agenți de utilizator de bază al diferitelor motoare de căutare.

Bot.	Funcţie
Google
GoogleBot.	principalul robot de indexare Google
GoogleBot-News.	Stiri google
GoogleBot-Image.	Imagini Google.
GoogleBot-Video.	video
MediaPartners-Google.
Mediapartners.	Google AdSense, Google Mobile AdSense
ADSBOT-Google.	verificați calitatea paginii țintă
ADSBOT-Google-Mobile-Apps	Google robotul pentru aplicații
Yandex.
Yandexbot.	principalul robot de indexare Yandex
Yandeximages.	Yandex.martinki.
Yandexvideo.	Yandex.videos.
Yandexmedia.	date multimedia.
Yandexblogs.	robot de căutare blog
Yandexaddurl.	robot care accesează pagina când o adăugați prin formularul "Add URL"
Yandexfavicons.	robot, pictograme de indexare a site-urilor (favicons)
Yandexdirect.	Yandex.direct
Yandexmetrika.	Yandex.metrica.
Yandexcatalog.	Yandex.Catalog.
Yandexnews.	Yandex.news.
Yandeximageresizer.	robot de service mobil
Bing.
Bingbot.	principalul robot de indexare Bing
Yahoo!
Slurp.	principalul robot de indexare Yahoo!
Mail.ru.
Mail.ru.	indexarea principală Robot Mail.ru
Hoinar.
Stackrambler.	Anterior, principalul robot de indexare Rambler. Cu toate acestea, de la 06/23/11, Rambler încetează să-și susțină propriul motor de căutare și acum utilizează tehnologia Yandex pe serviciile sale. Mai puțin relevante.

Interzice și permite

Nu permiteți închiderea paginilor de indexare și secțiuni de site-uri.
Permiteți cu forța să se deschidă la indexarea paginii și a secțiunilor site-ului.

Dar aici nu este atât de simplu.

În primul rând, trebuie să cunoașteți operatori suplimentari și să înțelegeți cum sunt utilizate este *, $ și #.

* - Acesta este un număr de caractere, inclusiv absența lor. În același timp, la sfârșitul rândului, steaua nu poate fi setată, se înțelege că este situată acolo în mod implicit.
$ - arată că simbolul din fața lui ar trebui să fie ultimul.
# - Comentariu, tot ceea ce după acest simbol în robotul rând nu este luat în considerare.

Exemple de utilizare:

Nu permiteți: *? S \u003d
Nu permiteți: / Categorie / $

În al doilea rând, trebuie să înțelegeți cum sunt efectuate regulile imbricate.
Amintiți-vă că procedura de înregistrare a directivelor nu este importantă. Regulile de moștenire care se deschid sau aproape de indexare sunt determinate de ceea ce sunt indicate directoare. Vom analiza exemplul.

Permiteți: * .Css
Nu permiteți: / Șablon /

http://site.ru/template/ - Închis de la indexare
http://site.ru/template/style.css - Închis de la indexare
http://site.ru/style.css - Deschis la indexare
http://site.ru/theme/style.css - deschis la indexare

Dacă aveți nevoie de toate fișierele. CSSS sunt deschise spre indexare, va trebui să vă înregistrați suplimentar pentru fiecare dintre folderele închise. În cazul nostru:

Permiteți: * .Css
Permiteți: / WebsitePlate.com.css
Nu permiteți: / Șablon /

Repet, ordinea directivelor nu este importantă.

Sitemap.

Directivă pentru a specifica calea către site-ul de fișier XML. Adresa URL este prescrisă în același mod ca și în bara de adrese.

De exemplu,

Sitemap: http://site.ru/sitemap.xml.

Directiva Sitemap este specificată oriunde în fișierul robots.txt fără referire la un anumit agent de utilizator. Puteți specifica mai multe reguli de sitemap.

Gazdă.

Directivă pentru a indica principala oglindă a site-ului (în majoritatea cazurilor: cu www sau fără www). Rețineți că oglinda principală este indicată fără http: //, dar cu https: //. De asemenea, dacă este necesar, portul este indicat.
Directiva este susținută numai de Bots of Yandex și Mail.ru. Alți roboți, în special GoogleBot, echipa nu va fi luată în considerare. Gazda este prescrisă o singură dată!

Exemplul 1:
Gazdă: site.ru.

Exemplul 2:
Gazdă: https://siite.ru.

Crawl-întârzie

Directiva pentru a stabili intervalul de timp între descărcarea robotului paginilor site-ului. Susținute de roboți Yandex, mail.ru, Bing, Yahoo. Valoarea poate fi instalată în unități întregi sau fracționare (punct de separare), timp în secunde.

Exemplul 1:
Întârzierea cu crawlere: 3

Exemplul 2:
Întârzierea cu crawlere: 0.5

Dacă site-ul are o încărcătură mică, atunci nu este nevoie să setați o astfel de regulă. Cu toate acestea, în cazul în care indexarea robotului de pagini conduce la faptul că site-ul depășește limitele sau se confruntă cu încărcături semnificative până la întreruperile operației de server, atunci această directivă va contribui la reducerea încărcăturii.

Cu cât este mai mare valoarea, cu atât paginile robotului se vor descărca într-o singură sesiune. Valoarea optimă este determinată individual pentru fiecare site. Este mai bine să începeți cu valori nu foarte mari - 0,1, 0,2, 0,5 - și crește treptat. Pentru roboții motoarelor de căutare cu o importanță mai mare pentru rezultatele de promovare, cum ar fi Mail.ru, Bing și Yahoo, este posibil să se stabilească inițial valori mari decât pentru roboții Yandex.

Clean-Param.

Această regulă raportează crawlerul că adresele URL cu parametrii specificați nu trebuie să fie indexați. Pentru regulă, sunt specificate două argumente: parametrul și adresa URL a secțiunii. Directiva este susținută de Yandex.

Clean-Param: autor_id http://site.ru/articles/

Clean-Param: autor_id & sid http://site.ru/articles/

Clean-Param: UTM_SOURCE & UTM_MEDIUM & UTM_CAMPAIGN

Alți parametri

În specificația Robots.txt îmbunătățită, puteți găsi o altă opțiune de solicitare și de vizită-timp. Cu toate acestea, în prezent nu sunt acceptate de principalele motoare de căutare.

Înțeles directivele:
Cerere-rată: 1/5 - Descărcați nu mai mult de o pagină în cinci secunde
Vizita-timp: 0600-0845 - Descărcați pagini numai la intervalul de la ora 6 dimineața la 8:45 Grinvich.

Închiderea robots.txt.

Dacă trebuie să configurați site-ul dvs. pentru a fi indexat de către roboții de căutare, atunci trebuie să înregistrați următoarele directive:

Agent utilizator: *
Nu permiteți:

Verificați dacă aceste directive sunt prescrise pe site-urile de testare ale site-ului dvs.

Corect Roboții de configurare .TTXT.

Pentru țările Rusia și CSI, unde se observă cota de yandex, directivele pentru toți roboții ar trebui să fie prescrise și separat pentru Yandex și Google.

Pentru a configura în mod corespunzător robots.txt, utilizați următorul algoritm:

Închideți de la indexarea administrației site-ului
Închideți de la indexarea contului personal, autorizația, înregistrarea
Închideți de la coșul de indexare, formularul de comandă, datele de livrare și comenzile
Închideți de la indexarea Ajax, scripturile JSON
Închideți de la indexarea dosarului CGI
Închideți de la indexarea plug-in-ului, decor, JS, CSS pentru toți roboții, cu excepția Yandex și Google
Închideți de la indexarea funcționalității căutării
Închideți de la indexarea secțiunilor de service care nu conțin nicio valoare pentru site-ul din căutare (eroare 404, lista autorilor)
Închideți de la indexarea paginilor tehnice Duplicas, precum și a paginilor pe care toate conținutul dintr-o singură formă sau altul este duplicat din alte pagini (calendare, arhive, RSS)
Închideți de la indexarea unei pagini cu filtre, sortare, comparații
Închideți de la indexarea unei pagini cu parametrii și sesiunile UTM
Verificați că Yandex și Google sunt indexate utilizând parametrul "Site:" (în bara de căutare, tastați "site-ul: site.ru"). Dacă căutarea conține pagini care au nevoie și de închidere prin indexare, adăugați-le la robots.txt
Specificați site-ul și gazda
Dacă este necesar, scrieți cu crawlere-întârziere și curat-param
Verificați corectitudinea robots.txt prin Google și Yandex Tools (descris mai jos)
După 2 săptămâni, verificați dacă pagini noi au apărut în rezultatele căutării care nu ar trebui să fie indexate. Dacă este necesar, repetați pașii de mai sus de mai sus.

Exemplu robots.txt.

Exemplu de fișier robots.txt pentru a configura site-ul ipotetic https://site.ru Agent de utilizator: * Nu permiteți: / admin / dezactivați: / pluginuri / dezactivați: / Căutare / dezactivare: / Cart / dezactiveaza: * /? S \u003d dezactiva : * Sortare \u003d dezactiva: * Vizualizare \u003d dezactiva: * UTM \u003d întârziere cu crawlere: 5 UTM-Agent: GoogleBot dezactivat: / admin / dezactiva: / Plugins / dezactivare: / Căutare / dezactivare: / Cart / Dislow: * /? S \u003d Dezactivați: * Sortare \u003d dezactivați: * Vizualizare \u003d dezactivați: * UTM \u003d Permiteți: /Plugins/2.js Permiteți: /Plugins/*.jpg Permiteți: /Plugins/*.jpg permite: /Plugins.com Agent utilizator: Yandex interzice: / admin / dezactivează: / Plugin / dezactivează: / Căutare / dezactivare: / Cart / dezactivare: * /? S \u003d dezactivați: * Sortare \u003d dezactivați: * Vizualizare \u003d Permiteți: / Plugin / * JS Permiteți: / Plugins / * HIDSMAP.XML Host: https://siite.ru

Cum se adaugă și unde este robots.txt

După ce ați creat fișierul robots.txt, acesta trebuie să fie plasat pe site-ul dvs. la site.ru/robots.txt - adică În directorul rădăcină. Robotul de căutare se referă întotdeauna la fișierul de pe adresa url /robots.txt

Cum să verificați roboți.txt

Verificarea robots.txt este efectuată la următoarele link-uri:

În Yandex.vebmaster - în fila Instrumente\u003e Analiza Robots.txt
ÎN Consola de căutare Google. - În fila Scanare\u003e Instrumentul de verificare a fișierelor robots.txt

Erori tipice în robots.txt

La sfârșitul articolului, voi da câteva erori tipice ale fișierului robots.txt

robots.txt este absent
robots.txt Site-ul este închis de la indexare (dezactivați: /)
există doar cele mai de bază directive din fișier, nu există un studiu detaliat de fișiere.
fișierul nu este închis de la indexarea paginii cu UTM Etichete și identificatori de sesiune
numai directivele sunt indicate în fișier.
Permiteți: * .Css
Permiteți: * .js
Permiteți: * .png
Permiteți: * .jpg
Permiteți: * .gif
În acest caz, CSS, JS, PNG, JPG, fișierele GIF sunt închise de alt director într-un număr de director.
directiva gazdă este înregistrată de mai multe ori
gazdă nu este specificată protocolul HTTPS
calea către sitemap este incorectă sau este specificată protocolul sau oglinda greșită a site-ului.

P.S.

P.S.2.

Video util de la Yandex (atenție! Unele recomandări sunt potrivite numai pentru yandex).

Sitemap, simplifică foarte mult indexarea blogului dvs. Harta site-ului trebuie să fie obligatorie pentru fiecare site și blog. Dar și pe fiecare site și blog ar trebui să fie dosar roboți.tXT.. Fișierul Robots.txt conține un set de instrucțiuni pentru roboții de căutare. Putem spune - regulile pentru comportamentul roboților de căutare pe blogul dvs. Precum și în acest fișier conține calea către harta site-ului a blogului dvs. Și, de fapt, cu fișierul Robots.txt compilat corect, robotul de căutare nu cheltuiește timp prețios pe căutarea hărții site-ului și indexarea fișierelor nu necesare.

Care este fișierul robots.txt?

robots.txt. - Acesta este un fișier text, poate fi creat în "Notebook" obișnuit, situat la rădăcina blogului dvs., care conține instrucțiuni pentru roboții de căutare.

Aceste instrucțiuni limitează roboții de căutare din indexarea aleatorie a tuturor fișierelor Dumnezeului dvs. și vizați aceste pagini la indexarea acestor pagini care ar trebui să fie accesate în emiterea de căutare.

Folosind acest fișier, puteți preveni indexarea fișierelor de motor WordPress. Sau, spuneți, secțiunea secretă a blogului dvs. Puteți specifica calea spre harta blogului dvs. și oglinda principală a blogului dvs. Aici vreau să spun, numele dvs. de domeniu cu www și fără www.

Indexarea site-ului cu robots.txt și fără

Acest ecran este indicat în mod clar modul în care fișierul robots.txt interzice indexarea anumitor foldere de pe site. Fără un fișier, un robot este disponibil pe site-ul dvs.

Principalele directive ale fișierului robots.txt

Pentru a face față instrucțiunilor care conțin fișierul robots.txt, trebuie să vă ocupați de comandanții principali (directive).

Agent utilizator - Această comandă indică accesul la roboți la site-ul dvs. Folosind această directivă, puteți crea instrucțiuni individual pentru fiecare robot.

Agent de utilizator: Yandex - Reguli pentru robotul yandex

Agent de utilizator: * - Reguli pentru toți roboții

Interzice și permiteți. - directive de interzicere și permisiune. Folosind Directiva privind interzicerea, indexarea este interzisă și utilizarea permitului este permisă.

Exemplu de interdicție:

Agent utilizator: *

Nu permiteți: / - interzice întregului site.

Agent utilizator: Yandex

Nu permiteți: / admin - interzicerea robotului Yandex la paginile situate în dosarul admin.

Exemplu de permisiune:

Agent utilizator: *

Permiteți: / Foto

Nu permiteți: / - interzicerea tuturor site-ului, cu excepția paginilor dosarului foto.

Notă! Nu permite directiva: Fără un parametru permite totul, iar directiva Permite: fără un parametru interzice totul. Și să permită directivele fără dezactivare nu ar trebui să fie.

Sitemap. - Specifică calea către harta site-ului în format XML.

Sitemap: https: //syt/sitemap.xml.gz

Sitemap: https: //syt/sitemap.xml

Gazdă. - Directiva determină oglinda principală a blogului dvs. Se crede că această directivă este prescrisă numai pentru roboții Yandex. Prezenta directivă ar trebui specificată la sfârșitul fișierului Robots.txt.

Agent utilizator: Yandex

Nu permiteți: / WP-include

Gazdă: Site.

Notă! Adresa oglinzii principale este indicată fără a specifica protocolul de transmisie HyperText (http: //).

Cum să creați robots.txt

Acum, când am întâlnit comenzile principale ale fișierului robots.txt, puteți începe să creați fișierul nostru. Pentru a vă crea propriul fișier Robots.txt cu setările individuale, trebuie să cunoașteți structura blogului dvs.

Vom examina crearea unui fișier standard (universal) robots.txt pentru blog pe WordPress. Puteți să o completați întotdeauna cu setările dvs.

Deci, procedați. Avem nevoie de un "notebook" obișnuit, care este în fiecare sistem de operare Windows. Sau textedit în MacOS.

Deschideți un document nou și introduceți aceste comenzi:

Agent de utilizator: * Nu permiteți: sitemap: https: //sitemap.xml.gz Sitemap: https: //sitemap.xml Agent utilizator: Yandex dezactivează: /wp-login.php dezactivați: / wp-registru .php dezactivați: / CGI-BIN dezactiva: / WP-admin interzice: / wp-include dezactivarea: /xmlrpc.php dezactiva: / wp-content / plugins dezactiva: / wp-content / cache dezactiva: / wp-content / teme dezamorcare: / wp -Content / limbi dezvăluie: / categorie / * / * dezactivează: / trackback dezactivați: * / trackback dezactivează: * / * / trackback dezvăluie: / tag / dezactivează: / feed / dezactivare: * / * / hrană / * / * / * Nu permiteți: * / Feed Distint: / * / Feed Dislow: / *? * Nu permiteți: /? S \u003d gazdă: site-ul

Nu uitați să înlocuiți parametrii site-ului și ale directivelor gazdă pe cont propriu.

Important! Când scrieți comenzi, este permisă un singur spațiu. Între directivă și parametru. În nici un caz nu faceți spații după parametru sau chiar acolo unde a căzut.

Exemplu: Nu permiteți:<пробел>/ A hrani /

Acest exemplu al fișierului robots.txt este universal și este potrivit pentru orice blog pe WordPress cu adresele adreselor CNC. Despre ce CNC este citit. Dacă nu ați configurat CNC, vă recomand să eliminați dezactivarea: / *? * Nu permiteți: /? S \u003d din fișierul propus

Încărcarea fișierului robots.txt pe server

Cea mai bună modalitate de manipulare este conexiunea FTP. Despre cum să configurați conexiunea FTP pentru TOTOLCOMMANDER Citiți. Sau puteți utiliza managerul de fișiere pe găzduirea dvs.

Folosesc conexiunea FTP la TotolCommander.

Rețea\u003e Conectează cu serverul FTP.

Selectați conexiunea dorită și faceți clic pe butonul Conectare.

Deschideți rădăcina blogului și copiați fișierul robots.txt apăsând tasta F5.

Copierea robots.txt la server

Acum, fișierul dvs. Robots.txt va executa funcția corect. Dar tot mai recomandăm să efectuați o analiză robots.txt pentru a vă asigura că nu există greșeli.

Pentru a face acest lucru, trebuie să vă conectați la cabinetul Yandex sau Google Webmaster. Luați în considerare exemplul lui Yandex. Aici puteți analiza chiar și fără a confirma dreptul la site. Aveți suficient pentru a avea o cutie poștală pe Yandex.

Deschideți cabinetul yandex.vebmaster.

Pe pagina principală a cabinetului webmaster, deschideți link-ul "Verificaroboți.tXT ".

Pentru analiză, va trebui să introduceți adresa URL a blogului dvs. și să faceți clic pe " Descarca roboți.txt de la site." Odată ce fișierul este încărcat făcând clic pe buton "Verifica".

Lipsa înregistrărilor de avertizare indică corectitudinea creării fișierului robots.txt.

Rezultatul va fi prezentat. În cazul în care este clar și înțelegeți ce materiale sunt permise să afișeze roboții de căutare și care sunt interzise.

Rezultatul analizei fișierelor robots.txt

Aici puteți efectua modificări în robots.txt și experimentați până la rezultatul de care aveți nevoie. Dar amintiți-vă, fișierul situat pe blogul dvs. nu se schimbă. Pentru a face acest lucru, aveți nevoie de rezultatul obținut aici pentru a copia într-un notebook, salvați ca robots.txt și copiați blogul pe dvs.

Apropo, dacă vă întrebați cum arată fișierul robots.txt pe blogul cuiva, îl puteți vedea cu ușurință. Pentru a face acest lucru, trebuie să adăugați /roobots.txt pentru a adresa site-ului

https: //syt/robots.txt.

Acum, roboții dvs. este gata. Și amintiți-vă că nu întârziați crearea fișierului robots.txt în cutia lungă, indexarea blogului dvs. va depinde de el.

Dacă doriți să creați roboții potriviți și, în același timp, este încrezător că numai paginile necesare se încadrează în indicele motorului de căutare, acest lucru poate fi făcut și utilizând automat plug-in-ul.

Am totul pe asta. Vă doresc toate succesele. Dacă sunteți întrebări sau completări, scrieți comentariile.

Pe curând.

Cu sinceritate, Maxim Zaitsev.

Abonați-vă la articole noi!

Cu promovarea independentă și promovarea site-ului, nu numai crearea unui conținut unic sau a cererilor în statisticile lui Yandex, dar și ar trebui să se acorde atenția cuvenită unui astfel de indicator ca indexarea resurselor motorului de căutare, deoarece tot succesul continuu al promoției De asemenea, depinde de acest lucru.

Avem la dispoziție două instrumente principale cu care putem gestiona acest proces. În primul rând, este, bineînțeles, fișierul robots.txt, care ne va ajuta să interzicem index ceea ce nu conține conținutul principal (motor și fișiere duplicate) și este vorba despre el care va fi discutat în acest articol, dar în plus Există un alt instrument important - sitemap xml.

De ce este atât de important să gestionați indexarea site-ului

Instrumentele menționate mai sus sunt foarte importante pentru dezvoltarea cu succes a proiectului dvs. și acest lucru nu este deloc o declarație alegator. În articolul de pe sitemap XML (a se vedea link-ul de mai sus), am adus rezultatele unui studiu foarte important în cele mai frecvente erori tehnice ale webmasterii novice, există doar lipsa acestor roboți de fișiere și sitemap-ul sau derularea lor incorectă si foloseste.

Este necesar să înțelegeți foarte clar că nu toate conținutul proiectului de Internet (fișiere și directoare) create pe orice motor ar trebui să fie disponibil pentru roboții motoarelor de căutare.

Dacă nu înregistrați anumite reguli pentru comportament în robotse pentru aceste roboți, atunci multe pagini vor intra în indicele motoarelor de căutare care nu sunt legate de semnificația resursei, precum și duplicarea repetată a conținutului (pentru diferite legături pe care le va face să fie disponibile și același conținut intersectat.) că motoarele de căutare nu le place.

O soluție bună va fi interzicerea tuturor lucrurilor inutile în robots.txt (toate scrisorile din titlu ar trebui să fie în litere mici - fără majuscule).

Cu aceasta, putem influența procesul de indexare a site-ului Yandex și Google. Acesta prezintă un fișier text obișnuit pe care îl puteți crea și edita în continuare în orice editor de text (de exemplu, Notepad ++). Botul de căutare va căuta acest fișier în directorul rădăcină al resursei dvs. și dacă nu va găsi, va intra în indexul tuturor, cum poate fi atinsă.

Prin urmare, după ce ați scris roboții necesari, trebuie să îl salvați în dosarul rădăcină, de exemplu, utilizând client FileZilla FTP, astfel încât să fie disponibil, de exemplu, în această adresă:

Https: //syt/robots.txt.

Apropo, dacă doriți să știți cum arată acest fișier într-o rețea din rețea, acesta va fi suficient pentru a adăuga sfârșitul vizualizării de /roobots.txt la Ulla din pagina principală. Poate fi utilă pentru înțelegerea faptului că ar trebui să fie în ea.

Cu toate acestea, ar trebui să se țină cont de faptul că, pentru diferite motoare, acest fișier va arăta în moduri diferite (dosarele de motor care trebuie să fie indexate vor fi numite diferit în diferite CMS). Prin urmare, dacă doriți să decideți cu privire la cea mai bună opțiune de roboți, să spunem pentru forumul pe SMF, atunci trebuie să studiați numai forumurile construite pe acest motor.

Directive și Robots.txt Reguli de scriere a fișierelor (dezactivare, agent de utilizator, gazdă)

Roboții nu au o sintaxă complexă care este descrisă în detaliu, de exemplu, în Helpe Yandex. De obicei, este indicat pentru care Bot Bot este proiectat pentru a fi următoarele directive: numele de bot ("Agent de utilizator") a permis ("Permite") și Prohibitiv ("dezactivați") și, de asemenea, utilizat în mod activ "Sitemap" pentru a indica căutarea Motoare, unde este exact fișierul hărții.

De asemenea, este util să specificați în acest fișier care dintre oglinzile WebPower-ului dvs. este cea principală din directiva specială "gazdă", pe care numai Yandex înțelege. Dacă resursa dvs. nu are oglinzi, va fi utilă indicarea care dintre opțiunile de scriere este principalul lucru - cu www sau fără ea. pentru că Acesta este, de asemenea, un fel de oglindă. I-am spus despre asta în detaliu în articolul circa 301 de redirecționare pentru domenii cu www și fără ea.

Acum, să vorbim puțin despre sintaxa acestui fișier. Directivele din Robots.txt au următoarea formă:

<поле>:<пробел><значение><пробел>

<поле>:<пробел><значение><пробел>
Codul corect trebuie să conțină cel puțin o directivă "dezactivată" după fiecare înregistrare "utilizator-agent". Un fișier gol implică permisiunea de a indexa site-ul.

Directiva privind agentul utilizator trebuie să conțină numele bot de căutare. Folosind acest lucru, puteți configura regulile de comportament pentru fiecare motor de căutare specific (de exemplu, creând o indexare separată a folderului numai pentru numai Yandex). Un exemplu de scriere a "agent de utilizator", adresat tuturor roboților la resursa dvs., arată astfel:

Agent utilizator: *
Dacă doriți să stabiliți anumite condiții în "Agentul de utilizator" numai pentru un singur bot, de exemplu, Yandex, atunci trebuie să scrieți astfel:

Agent utilizator: Yandex
Bot al fiecărui motor de căutare are numele său (de exemplu, pentru Rambler este Stackrambler). Aici voi da o listă cu cele mai renumite:

Google http://www.google.com GoogleBot Yahoo! http://www.yahoo.com Slurp (sau Yahoo! Slurp) AOL http://www.aol.com Slurp MSN http://www.msn.com msnbot live http://www.live.com Msnbot Cere http://www.ask.com Teoma Altavista http://www.altavista.com Scooter Alexa http://www.alexa.com Ia_archiver Lycos http://www.lycos.com lycos yandex http: // www. Ya.ru Yandex Rambler http://www.rambler.ru Stackrambler Mill.ru http://mail.ru mail.ru aport http://www.aport.ru http://www.webalta.ru webalta (Crawler Webalta / 2.0)

Motoarele de căutare mari, uneori, cu excepția roboților principale, există, de asemenea, instanțe separate pentru indexarea blogurilor, știrilor, imaginilor etc. Multe informații despre soiurile de roboți pe care le puteți învăța din această resursă.

Voi da câteva exemple simple de utilizare a directivelor cu o explicație a acțiunilor sale.

1. Codul de mai jos permite tuturor roboților să indice întregul conținut fără excepții. Acest lucru este definit printr-o directivă goală de respingere.

Agent utilizator: * Nu permiteți:

2. Următorul cod, dimpotrivă, interzice complet toate motoarele de căutare să adauge indicele paginii acestei resurse. Setează acest dezactivat cu "/" în câmpul Valoare.

Agent de utilizator: * Nu permiteți:

3. În acest caz, toate robotul vor fi interzise să vizualizeze conținutul directorului / imaginii / (http://mysite.ru/image/ - Calea absolută spre acest catalog)

Agent de utilizator: * Nu permiteți: / Imagine /

4. Exemplul "Image" director va fi interzis în exemplul de mai jos, precum și toate fișierele și directoarele începând cu caracterele "imagine", adică fișiere: "imagine.htm", "imagini.htm", directoare: "imagine" , "Imagini1", "image34" și așa mai departe.):

Agent de utilizator: * Nu permiteți: / imagine

5. Când descrieți căile pentru directivele Permite-Disallow, puteți utiliza caracterele "*" și "$", specificând astfel anumite expresii logice. Caracterul "*" înseamnă orice secvență (inclusiv o goală) de caractere. Următorul exemplu interzice toate motoarele de căutare să indexeze fișiere cu extensia ".aspx":

Agent de utilizator: * Nu permiteți: * .Spx

Pentru a evita probleme neplăcute cu oglinzile de site, se recomandă adăugarea unei directive gazdă în robots.txt, ceea ce indică botul Yandex de pe oglinda principală. Conform regulilor de scriere pentru agentul de utilizator, trebuie să existe cel puțin o directivă de respingere (de obicei pusă goală, nimic care interzice):

Agent de utilizator: Yandex dezactivează: gazdă: www.site.ru

Agent de utilizator: Yandex interzice: gazdă: site.ru

În funcție de ceea ce este mai optim pentru dvs.

Directiva Sitemap indică locația fișierului hărții site-ului (numit de obicei sitemap.xml, dar nu întotdeauna). Ca parametru, se specifică calea către acest fișier, inclusiv http: // (adică ul său). De exemplu:

Sitemap: http://site.ru/sitemap.xml.
Meta Tag Robots - ajută la închiderea conținutului conținutului

Există o altă modalitate de a configura (rezolva sau interzice) indexarea paginilor web individuale, atât pentru Yandex, cât și pentru Google. Pentru a face acest lucru, în interiorul etichetei "cap" a paginii web dorite se adaugă la eticheta Meta Robots cu parametrii doritori și este repetată pentru toate documentele la care trebuie să aplicați acest lucru sau această regulă (interdicție sau permisiune). Poate arata ca aceasta, de exemplu, deci:

... ...

În acest caz, boturile tuturor motoarelor de căutare vor trebui să uite de indexarea acestei pagini web (aceasta este indicată de prezența NoIndEx în această etichetă meta) și analiza legăturilor plasate pe acesta (acest lucru este indicat de prezența din Nofollow - Botul este interzis din legăturile pe care le va găsi în acest document).

Există doar două perechi de parametri din această methega: index și urmați:

Index - Indicați dacă robotul poate indexa acest document
Urmăriți - poate să urmeze legăturile găsite în acest document
Valorile implicite - "Index" și "Urmați". Există, de asemenea, o opțiune de scriere scurtată folosind "toate" și "none", care indică activitatea ambelor parametri, fie, respectiv, dimpotrivă: all \u003d index, urmați și nimeni \u003d NoIndEx, Nofollow.

Pentru blog-ul pe WordPress, puteți configura eticheta Meta roboților, de exemplu, cu plug-in-ul Toate într-un pachet SEO. Ei bine, totul, cu teoria, este terminat și este timpul să mergem la practică, și anume să compileze roboți optimi.txt pentru Joomla, SMF și WordPress.

După cum știți, proiectele create pe baza oricărui motor (Joomla, WordPress, SMF etc.) au numeroase obiecte auxiliare care nu transportă încărcarea informativă.

Dacă nu interzice indexarea tuturor acestor gunoi, timpul alocat de motoarele de căutare pe indexarea site-ului dvs. va cheltui bani în căutarea fișierelor motorului (pentru căutarea informațiilor din componenta informației, adică conținutul).

Dar cipul este că în majoritatea CMS, conținutul este stocat nu în fișiere, ci în baza de date la care boturile de căutare nu pot obține. Prin urcarea motoarelor motorului, Botul epuizează timpul eliberat și nu va părăsi pâinea Solono.

În plus, ar trebui să vă deplasați pentru conținutul unic al conținutului de pe proiectul dvs. și nu ar trebui să se facă o duplicare completă sau chiar parțială a conținutului (conținutul informațiilor). Duplicarea poate apărea dacă același material este disponibil la adrese diferite (URL).

Yandex și Google, conducând indexarea, au descoperit duplicat și, poate, ia măsuri pentru o anumită pesimizare a resurselor dvs. cu cantitățile mari (ele, de asemenea, nu doresc să găsească boabele în grămada de gunoi de grajd).

Dacă proiectul dvs. este creat pe baza oricărui motor, atunci duplicarea conținutului va avea loc cu o probabilitate ridicată, ceea ce înseamnă că trebuie să vă ocupați de aceasta, inclusiv utilizarea interdicției în robots.txt., Mai ales într-o etichetă Meta, pentru că în primul caz, Banul Google poate ignora și ignora, dar el nu va mai putea să-i dea naibii (atât de elev).

De exemplu, în WordPress. Paginile cu conținut foarte similar pot ajunge la indexul de căutare dacă sunt indexarea și conținutul titlurilor și conținutul arhivei etichetelor și conținutul arhivelor temporare.

Dar dacă utilizați eticheta Meta descrisă mai sus, creați o interdicție pentru arhiva tag-ului și o arhivă temporară (puteți pleca, dar pentru a interzice indexarea conținutului titlurilor), apoi duplicarea conținutului nu va apărea. În acest scop, WordPress va folosi cel mai bine capabilitățile lui Al într-un Plugin SEO, link-ul la care caută un pic mai mare în text.

Chiar mai dificil, cu duplicarea conținutului este cazul în motorul forumului SMF. Dacă nu produceți o setare fină (interzicere) prin roboți, atunci căutarea va primi un duplicat multiplu de aceleași postări. În Joomla, de asemenea, apropo, uneori există o problemă cu duplicarea documentelor obișnuite și a copiilor lor destinate tipăririi.

Rezumarea, voi spune că fișierul Robosts este conceput pentru a stabili regulile globale de interzicere a accesului la întregul director al site-ului sau în fișierele și folderele, în titlul de caractere specificate (masca). Exemple de sarcină a unor astfel de interdicții Puteți vedea puțin mai mare.

Pentru a interzice indexarea unei singure pagini, este convenabil să utilizați aceeași etichetă Meta care este prescrisă în antet (între etichetele capului) a documentului dorit. Detalii despre sintaxa Metatega Vezi puțin mai mare în text.

Corecte robots.txt pentru joomla, wordpress și SMF

Acum, să luăm în considerare exemple specifice de roboți destinate diferitelor motoare - Joomla, WordPress și SMF. Firește, toate cele trei opțiuni create pentru diferite CMS vor fi semnificative (dacă nu vor spune dramatic) diferă unul de celălalt. Adevărat, toți au un timp general și acest moment este asociat cu motorul de căutare al lui Yandex.

pentru că În Renet, Yandex are o greutate suficientă, atunci trebuie să țineți cont de toate nuanțele muncii sale, iar aici se va ajuta Directiva gazdă. Ea specifică în mod explicit acest motor de căutare, oglinda principală a site-ului dvs.

Se recomandă utilizarea unui blog separat al agentului de utilizator destinat numai pentru Yandex (Agent utilizator: Yandex). Acest lucru se datorează faptului că motoarele de căutare rămase nu pot înțelege gazda și, în consecință, includerea sa în înregistrarea agentului de utilizator destinată tuturor motoarelor de căutare (agent de utilizator: *) poate duce la consecințe negative și indexarea incorectă.

Care este cazul - este dificil de spus, pentru că algoritmii de căutare sunt un lucru în sine, deci este mai bine să faci așa cum sfătuiește. Dar, în acest caz, va trebui să duplicați în directiveser-agent: Yandex toate regulile pe care le-am cerut agentului utilizator: *. Dacă lăsați agentul de utilizator: Yandex cu dezactivare goală: în acest fel vă permiteți Yandex să intre oriunde și să trageți totul la rând la index.

Înainte de a trece la luarea în considerare a opțiunilor specifice, vreau să vă reamintesc că puteți verifica activitatea Robots.txt puteți în Yandex Webmaster și Google Webmaster. Acolo puteți specifica UM-urile concretare ale resurselor dvs. și puteți vedea (verificați) dacă acest motor de căutare îi va adăuga la indexul dvs. sau această acțiune este interzisă cu succes într-un fișier miracol.

CORECT ROBOTS.TXT SETUP PENTRU FORUM SMF

Pentru forumul de pe motorul SMF, următoarele vor fi următoarele (luate din forumul de asistență tehnică din acest subiect):

Agent utilizator: * Permite: / Forum / * Arcade Permite: / Forum / * RSS Distinge: / Forum / Atasamente / Distinge: / Forum / Avatare / Distinge: / Forum / Pachete / Distint: / Forum / Forum / Distinge: / Forum / 7s / Distinge: /Forum/*.New Distinge: / Forum / * Sortare Distinge: / Forum / * TOPICSEEN Distinge: / Forum / * WAP Distinge: / Forum / * Action Utilizator-Agent: Slurp Crawl-Întârzie: 100

Rețineți că această opțiune este dată pentru cazul în care forumul dvs. SMF este instalat în directorul Forum al site-ului principal. Dacă forumul nu este în director, atunci pur și simplu ștergeți din toate regulile / forumul.

URL-urile prietenoase din SMF pot fi activate sau dezactivate în forumul Admin în calea următoare: în coloana din stânga a administratorului Selectarea elementului "Caracteristici și setări", în partea de jos a ferestrei care deschide fereastra la "Permite URL-ul prietenos" , unde puteți pune sau elimina caseta de selectare.

Există o altă opțiune robots.txt pentru SMF (dar, probabil, încă complet întinsă):

Agent utilizator: * Permiteți: / Forum / * Harta site-ului permite: / forum / * arcade # Dacă nu aveți jocuri distractive, eliminați fără a trece permisiunea: / forum / * RSS permite: / forum / * tip \u003d RSS dezactivează : / Forum / Avatare / Distinge: / Forum / Pachete / Distinge: / Forum / Smileys / Distinge: / Forum / Surse / Distinge: / Forum / Teme / Distinge: / Forum / * .msg Distinge: / Forum / *. Nou Distingeți: / Forum / * Sortare Distinge: / Forum / * TOPICSEEN Distingeți: / Forum / * WAP dezactivează: / forum / * Distanță de acțiune: / forum / * prev_next dezvăluie: / forum / * toate dezactiveaza: /forum/2Go.php # sau care redirecționează că aveți gazdă: www.mi Website.ru # Specificați-vă oglinda principală Agent utilizator: Slurp Crawl-întârzie: 100

După cum puteți vedea în acest fișier, directiva gazdă, destinată numai pentru Yandex, este activată în agentul de utilizator pentru toate motoarele de căutare. Probabil că probabil aș adăuga încă o directivă separată a agentului utilizator numai pentru Yandex, cu o repetare a tuturor regulilor. Dar decideți pentru voi înșivă.

Agent de utilizator: Slurp Crawl-Întârzie: 100

se datorează faptului că motorul de căutare Yahoo (Slurp este numele botului său de căutare) scanează serverul în multe fluxuri, ceea ce poate afecta negativ performanța sa.

În această regulă, directiva privind întârzierea cu crawlere vă permite să specificați Yahoo Bot cu perioada minimă de timp (în secunde) între sfârșitul injecției unui document și începutul descărcarea următoarelor. Aceasta va elimina sarcina de pe server.

În fișierul de surse / PrintPage.php, găsiți (de exemplu, utilizând căutarea încorporată în Notepad ++) String:

fatal_lang_error (472, fals);
Introduceți imediat sub ea:

$ context ["robot_no_index" \u003d adevărat;
În Teme File / Title_text_template.php_template.php Găsiți un șir:

Introduceți următoarea linie de mai jos:

Dacă doriți, de asemenea, un link care să comute la versiunea completă a forumului (în cazul în care o porțiune a paginii tipărite a trecut deja indexarea în Yandex și Google), apoi în aceeași imprimare.template.php găsiți un șir cu etichetă de deschidere Cap:

Și introduceți șirul de mai jos:

Pe forum

Puteți obține mai multe informații despre această versiune a fișierului Robots.txt, citiți această ramură a asistenței forumului de limbă rusă.

Robots.txt pentru Joomla.

Agent de utilizator: * Nu permiteți: / Administrator / dezactivat: / Cache / dezactivare: / Componente / dezactivare: / dezactivați: / Instalare / dezactivare: / Limbaj / dezactivare: / Biblioteci / Distinge: / Media / Distinge: / Module / Distinge: / Șabloane / dezactivați: / TMP / dezactivați: / XMLRPC /

În principiu, aici aproape totul este luat în considerare și funcționează bine. Singurul lucru pentru a adăuga o regulă separată a agentului utilizator pentru a introduce directiva gazdă care determină oglinda principală pentru Yandex, precum și specificați calea către fișierul Sitemap.

Prin urmare, în forma finală, roboții corecți pentru Joomla, în opinia mea, ar trebui să arate astfel:

Agent de utilizator: * Nu permiteți: / Administrator / dezactivat: / Cache / dezactivare: / Inclace / dezactivează: / Instalare / dezactivare: / Limbă / dezactivare: / Biblioteci / Distinge: / Media / Distinge: / Module / Distinge: / Plugins / Nu permiteți: / dezactivați: / XMLRRPC / Agent utilizator: Yandex dezactivează: / Administrator / dezactivare: / Cache / dezactivează: / Include / dezactivează: / Instalare / dezactivare: / Limbă / dezactivare: / Biblioteci / Distinge: / Media / Distinge: .

Da, rețineți că în a doua versiune nu există nicio directivă nu permiteți: / imagini / care oferă o interdicție de indexare a imaginilor site-ului dvs. Am uitat mai întâi să vă atragă atenția asupra acestui lucru, dar mi-a fost amintit de dragul Alex.

Complet este de acord cu el că, dacă imaginile sunt unice și doriți ca vizitatorii să găsească resursele dvs. și să caute imagini de la Yandex și Google, veți șterge cu siguranță această regulă din fișierul dvs., dar, de asemenea, nu uitați să vă prescrieți toate atributele Alt și titlul în eticheta IMG.

La crearea unui magazin online pentru Joomla pe baza componentei VirtueMart, am întâmpinat faptul că indicele motorului de căutare au început să obțină versiuni pentru imprimarea paginilor acestui magazin. Butonul care a condus la pagina de imprimare a fost necesar (clientul a dorit atât de mult), astfel încât doar opțiunea cu interdicția lor în robots.txt a rămas.

Dar totul sa dovedit a fi deloc dificil. Faptul este că, pentru a crea o versiune pentru imprimarea în Jumle, site-ul web este folosit pe aceeași pagină Web Ulla, cu excepția unuia: apelul nu merge la index.php, ci la index2.php. Acest lucru nu încarcă șablonul, adică Numai conținutul este afișat pe întregul ecran.

Prin urmare, să interzică versiunile pentru tipărirea în Virtuemart, am adăugat la următoarea regulă:

Nu permiteți: /index2.php?page\u003dShop.

Robots.txt pentru WordPress.

Nu voi da un exemplu de dosar pe care dezvoltatorii le recomandă. Puteți vedea singur. Mulți bloggeri nu limitează roboții de yandex și Google în plimbările lor pe conținutul motorului WordPress. Cel mai adesea în bloguri, puteți găsi roboți, completați automat cu pluginul Google XML Sitemaps.

Dar, în opinia mea, ar trebui să fie ajutat de găsirea în cazul dificil de a cusui boabele din provocare. În primul rând, indexarea acestui gunoi va lăsa mult timp la boots of Yandex și Google și poate că nu este deloc pentru a adăuga webcase la indexul cu noile dvs. articole. În al doilea rând, bots, fișierele transversale ale motorului dus, vor crea o sarcină suplimentară pe serverul gazdei dvs., care nu este bun.

Prin urmare, aici îmi voi da propria opțiune, dar puteți decide deja, utilizați-l în acest formular sau pentru a vă adapta nevoilor dvs .:

Agent de utilizator: * Nu permiteți: /wp-login.php dezactivează: /wp-register.php dezactivează: / webStat / dezactivați: / feed / dezactivare: / tag / disallow: / trackback dezactivează: * / trackback dezactivați: * / feed Nu permiteți: * / Comentarii dezactivează: / *? * Nu permiteți: / *? Nu permiteți: / WP-Content / Plugins dezactivează: / WP-Conținut / dezvăluie: / WP-include / dezactivează: / comentarii utilizator-agent: Yandex dezactivează: /wp-login.php dezactivați: / wp-register.php dezactivați: / WebStat / Distinge: / Feed / Distinge: / Tag / Distinge: / Trackback Distinge: * / Trackback Nu permite: * / Feed Dislow: * / Comentarii Nu permite: / *? * Nu permite: / *? .Com / sitemap.xml ( 4 Voce (a) ca rezultat: 5,00 din 5)

Instrucțiuni detaliate despre cum să creați un fișier robots.txt pentru site. Robots.txt este unul dintre cele mai necesare aspecte ale optimizării complete a motorului de căutare. Observând termenii utilizării competente a acestui fișier, puteți obține un anumit efect pozitiv pe site. Este posibil să specificați o varietate de instrucțiuni pentru majoritatea PS. Ceea ce indică restricțiile sau permisiunile de căutare necesare pentru scanarea paginilor, directoarelor sau partițiilor site-ului.

Conținutul articolului:

Fișier robots.txt - Definiție de bază

Robots.txt - are anumite standarde de excepție pentru agenții de căutare (Bots), care a fost adoptată în ianuarie 1944. Regulile acestui dosar urmează în mod voluntar cele mai comune PS. Fișierul poate consta în una sau mai multe reguli, fiecare blochează sau permite accesul robotului de căutare la anumite căi de pe site.

În mod implicit, acest fișier nu este pe site - ceea ce oferă tuturor permisiunea Full pentru a indexa conținutul site-ului. Această permisiune poate duce la indexul motoarelor de căutare ale paginilor tehnice importante ale site-ului, care nu ar trebui să fie acolo.

Ceea ce este necesar Robots.txt pe site - influența sa asupra promovării în motoarele de căutare

Robots.txt este cel mai mare factor de optimizare a motorului de căutare. Datorită setului corect de reguli prescrise pentru boturile de căutare, puteți obține o anumită creștere a clasamentului site-ului în căutare. Ce oferă astfel de instrucțiuni:

Blocat pentru a indexa anumite pagini, partiții, director de site-uri.
Excluderea paginilor de a nu conține conținut util.
Excluderea foilor de pagini și așa mai departe.

Pentru cele mai multe site-uri, astfel de restricții privind indexarea sunt pur și simplu necesare pentru o mică bandă completă. Cu toate acestea, anumite directive trebuie adăugate la fiecare site. De exemplu, interdicțiile de indexare:

Pagini de înregistrare, introducând administrarea, recuperarea parolei.
Cataloage tehnice.
RSS - benzi site-uri.
Replytocom și alte lucruri.

Cum de a crea roboții potriviți

Dificultăți atunci când creați un fișier robots.txt nu pot avea nici măcar începători. Este suficient să urmați o anumită secvență de acțiuni:

Robots.txt este un document text și creat de orice editor de text disponibil.
Extensia fișierului trebuie să fie necesară .txt.
Numele este în mod necesar roboți.
Pe un singur site, este permisă doar un astfel de fișier.
Acesta este situat numai în directorul rădăcină al site-ului.

Trebuie să utilizați un editor de text obișnuit (Notepad ca alternativă). Creați un format de document .Txt și roboții de nume. Apoi salvați și transferați acest document utilizând clientul FTP din directorul rădăcină al site-ului. Acestea sunt principalele acțiuni care trebuie executate.

Crearea robots.txt folosind servicii online

Această metodă este cea mai ușoară și mai rapidă, potrivită pentru cei care se tem să creeze robots.txt sau pur și simplu leneș. Serviciile care oferă crearea acestui fișier sunt un set imens. Dar merită să luați în considerare unele nuanțe cu privire la această metodă. De exemplu:

Este necesar să se ia în considerare în prealabil exact ce doriți să interziceți sau să permiteți agentului.
Verificarea obligatorie a fișierului finalizat înainte de ao descărca pe site.
Fiți atenți, deoarece roboturile de fișiere create incorect .Txt online va duce la o situație deplorabilă. Astfel, căutarea poate obține, pagini tehnice și alte site-uri pe care nu ar trebui să le existe în a priori.

La fel, este mai bine să petreceți timp și efort pentru a crea un robot de utilizator corect. Astfel, este posibil să se recreeze o structură evidentă de interdicții și permisiuni ale site-ului corespunzător.

Editarea și corectarea sintaxei de fișiere robots.txt

După crearea cu succes de Robots.txt, poate fi editată calm și schimbarea după cum doriți. Acest lucru ar trebui să țină seama de anumite reguli și o sintaxă competentă. După ceva timp, veți schimba în mod repetat acest fișier. Dar nu uitați, după modificarea lucrărilor, va trebui să încărcați acest fișier pe site. Astfel, actualizarea conținutului său pentru roboții de căutare.

Scrie Robots.txt este foarte simplu, motivul pentru aceasta este o structură destul de simplă de design a acestui fișier. Principalul lucru la scrierea regulilor, utilizați sintaxa strict definită. Aceste reguli vor urma în mod voluntar, aproape toate PS majore. Iată o listă a unor reguli, pentru a evita cele mai multe erori în fișierul robots.txt:

O linie nu ar trebui să fie mai mare de o directivă specificată.
Fiecare regulă începe cu o linie nouă.
Exclude decalajul la începutul liniei.
Comentariile admise după simbol #.
Roboții goi vor fi considerați ca o permisiune completă de a indexa.
Numele acestui fișier este posibil numai în formatul permis de "roboți".
Dimensiunea fișierului nu trebuie să depășească 32KB.
În permis și interzice directivele, este permisă o singură regulă. Valoarea goală după ce permite: sau să nu dezactivați: echivalentă cu rezoluția completă.
Toate regulile trebuie să fie scrise în litere mici.
Fișierul trebuie să fie întotdeauna disponibil.
O linie goală după regulile specificate, indică încheierea completă a regulilor Directivei utilizator-agent.
Este recomandabil să înregistrați regulile, fiecare PS separat.
Dacă regula este directorul site-ului, apoi puneți cu siguranță slash (/) înainte de a începe.
Citatele într-un șir sau în regulă nu ar trebui să fie.
Este necesar să se țină seama de structura strictă a regulilor corespunzătoare site-ului dvs. nu mai mult.
Robots.txt trebuie să fie minimalizat și să afișeze în mod clar sensul transmis.

Configurarea competentă a fișierului robots.txt - comenzi corecte de scriere

Pentru a obține un rezultat pozitiv atunci când utilizați roboți, trebuie să îl configurați corect. Toate comenzile majore ale acestui fișier cu instrucțiuni sunt urmate de cele mai ambițioase motoare de căutare Google și Yandex. Restul PS poate ignora unele instrucțiuni. Cum să faci robots.txt cele mai receptive motoare de căutare majoritate? Aici este necesar să se înțeleagă regulile de bază pentru lucrul cu acest fișier menționat mai sus.
Luați în considerare principalele echipe:

Agent utilizator: *- Instrucțiunile se vor referi absolut la toate boturile PS. De asemenea, este posibilă specificarea anumitor motoare de căutare separat, de exemplu: Agent utilizator: GoogleBot și agent de utilizator: Yandexbot. Astfel, regulile pentru PS importante sunt desemnate corect.

Nu permiteți:- interzice pe deplin ocolire și indexare (pagini, director sau fișiere).

Permite:- Permise complet de ocolire și indexare (pagini, director sau fișiere).

Clean-Param:- Necesitatea de a elimina paginile site-ului cu conținut dinamic. Datorită acestei reguli, puteți scăpa de conținutul duplicat de pe site.

Întârzierea cu crawlere:- regula indică intervalul de timp al potarilor pentru a descărca documentele de pe site. Vă permite să reduceți semnificativ sarcina de pe server. De exemplu: "Întârzierea cu crawlere: 5" - va spune P-Robus că descărcarea documentelor de pe site este posibilă nu mai des decât o dată la 5 secunde.

Gazdă: Your_Sait.ru.- Responsabil pentru oglinda principală a site-ului. În prezenta directivă, trebuie să înregistrați versiunea prioritară a site-ului.

Sitemap: http: //vash_site.ru/sitemap.xml- Cum ați putea ghici această directivă sugerează un P-Bot despre disponibilitatea site-ului pe site.

# - Vă permite să lăsați comentarii. Puteți să comentați, numai după semnul zăbrească. Puteți să o plasați atât în \u200b\u200bnoua linie, cât și în continuarea directivei. Toate aceste opțiuni vor fi ignorate de Bots când trece manualul.

Exemple de roboți.Txs pentru toate sistemele de gestionare a conținutului de bază (CMS)

Pentru a copia instrucțiunile, trebuie să faceți clic pe butonul cu promptul.

WordPress (WP)

Agent utilizator: *

Permiteți: / WP-Content / Încărcări /

Nu permiteți: /wp-login.php.

Nu permiteți: /wp-register.php.

Nu permiteți: /xmlrpc.php.

Distingeți: /template.html.

Dezactivați: / WP-admin

Nu permiteți: / WP-include

Dezactivați: / wp-content

Nu permiteți: / Categorie

Nu permiteți: / Arhiva

Dezactivați: * / trackback /

Nu permiteți: * / Feed /

Nu permiteți: * / Comentarii /

Nu permiteți: /? Feed \u003d

Gazdă: site.ru.
»

Hostcms.

Agent utilizator: *

Nu permiteți: captcha.php.

Nu permiteți: descărcare_file.php.

Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.

Joomla.

Agent utilizator: *

Nu permiteți: / Administrator /

Nu permiteți: / Cache /

Nu permiteți: / Componente /

Nu permiteți: / Imagini /

Nu permiteți: / Include /

Dezactivați: / Instalare /

Dezactivați: / Limba /

Nu permiteți: / Biblioteci /

Nu permiteți: / Media /

Nu permiteți: / Module /

Nu permiteți: / Plugin-uri /

Nu permiteți: / Șabloane /

Nu permiteți: / XMLRPC /

Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.

Joomla 3.

Agent utilizator: *

Nu permiteți: / Administrator /

Nu permiteți: / Cache /

Nu permiteți: / Include /

Dezactivați: / Instalare /

Dezactivați: / Limba /

Nu permiteți: / Biblioteci /

Nu permiteți: / Media /

Nu permiteți: / Module /

Nu permiteți: / Plugin-uri /

Nu permiteți: / Șabloane /

Nu permiteți: / XMLRPC /

MODX EVO.

Agent utilizator: *

Nu permiteți: / Active / Cache /

Nu permiteți: / Active / Docs /

Nu permiteți: / Active / Export /

Nu permiteți: / Active / Import /

Nu permiteți: / Active / Module /

Nu permiteți: / active / plugin-uri /

Nu permiteți: / Active / Fragmente /

Dezactivați: / Instalați /

Dezactivați: / manager /

Nu permiteți: /index.php.

Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML

NetCat.

Agent utilizator: *

Dezactivați: / Instalați /

Nu permiteți: / link-uri /

Nu permiteți: / Netcat /

Dezactivați: / netcat_files /

Nu permiteți: /*.swf.

Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML

MODX.

Agent utilizator: *

Nu permiteți: / Active / Cache /

Nu permiteți: / Active / Docs /

Nu permiteți: / Active / Export /

Nu permiteți: / Active / Import /

Nu permiteți: / Active / Module /

Nu permiteți: / active / plugin-uri /

Nu permiteți: / Active / Fragmente /

Dezactivați: / Instalați /

Dezactivați: / manager /

Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.

Opencart.

Agent utilizator: *

Dezactivați: / * rute \u003d cont /

Nu permiteți: / * rută \u003d afiliate /

Nu permiteți: / * Route \u003d Checkout /

Nu permiteți: / * Route \u003d Produs / Căutare

Nu permiteți: /index.php?Route\u003dproduc/product*&manufacturer_id\u003d.

Dezactivați: / admin

Nu permiteți: / Catalog

Nu permiteți: / Descărcați

Dezactivați: / Export

Nu permiteți: / sistem

Nu permiteți: / *? Sortare \u003d

Nu permiteți: / * & Sort \u003d

Nu permiteți: / *? Comandă \u003d

Nu permiteți: / * & Comandă \u003d

Nu permiteți: / *? Limita \u003d

Nu permiteți: / * & Limit \u003d

Nu permiteți: / *? Filter_name \u003d

Dezactivați: / * & filter_name \u003d

Nu permiteți: / *? Filter_sub_category \u003d

Nu permiteți: / * & Filter_Sub_Category \u003d

Nu permiteți: / *? Filter_description \u003d

Dezactivați: / * & filtru_description \u003d

Nu permiteți: / *?

Nu permiteți: / * & Urmărire \u003d

Nu permiteți: / *? Pagina \u003d

Nu permiteți: / * & pagina \u003d

Dezactivați: / Listă de dorințe

Nu permiteți: / Conectați-vă

Nu permiteți: /index.php?route\u003dproduct/manufacturer.

Nu permiteți: /index.php?route\u003dproduct/compare.

Nu permiteți: /index.php?route\u003dproduct/category.

Host: Vash_Sait.ru (sau www.vash_sait.ru)

Umi.

Agent utilizator: *

Nu permiteți: / Emarket / Addtocompare

Dezactivați: / eminket / coș

Nu permiteți: /go_out.php.

Nu permiteți: / Imagini

Nu permiteți: / Imagini / Lizing

Dezactivați: / Imagini / NTC

Nu permiteți: / fișiere

Dezactivați: / Utilizatori

Dezactivați: / admin

Disalow: / căutare

Dezactivați: / install-temp

Dezactivați: / install-static

Dezactivați: / install-libs

Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML

Amiro.cms.

Agent utilizator: *

Dezactivați: / admin

Interzice: / _admin /

Nu permiteți: / Membri

Disalow: / căutare

Nu permiteți: / Abonați-vă

Dezactivați: / Utilizatori

Nu permiteți: / * Offset \u003d 0

Dezactivați: / * forum_ext \u003d

Nu permiteți: / * _ Print_version \u003d

Nu permiteți: / * acțiune \u003d export_rss

Dezactivați: / * acțiune \u003d căutare

Dezactivați: / * acțiune \u003d view_posts

Nu permiteți: / * Display_form \u003d

Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xm.

Bitrix.

Agent utilizator: *

Dezactivați: /*index.php$.

Nu permiteți: / Bitrix /

Nu permiteți: /

Nu permiteți: / Încărcați /

Disalow: / Căutare /

Nu permiteți: / * / Căutare /

Nu permiteți: / * / slide_show /

Nu permiteți: / * / Galerie / * Comandă \u003d *

Nu permiteți: / *? Imprimare \u003d

Nu permiteți: / * & Print \u003d

Nu permiteți: / * Înregistrare \u003d

Dezactivați: / * uitat_password \u003d

Dezactivați: / * schimbare_password \u003d

Dezactivați: / * Login \u003d

Dezactivați: / * logout \u003d

Nu permiteți: / * Auth \u003d

Nu permiteți: / *? Acțiune \u003d

Nu permiteți: / * acțiune \u003d add_to_compare_list

Nu permiteți: / * acțiune \u003d delete_from_compare_list

Nu permiteți: / * acțiune \u003d add2basket

Nu permiteți: / * acțiune \u003d cumpăra

Nu permiteți: / * Bitrix _ * \u003d

Nu permiteți: / * backurl \u003d *

Nu permiteți: / * back_url \u003d *

Nu permiteți: / * back_url_admin \u003d *

Dezactivați: / * imprimare_course \u003d y

Dezactivați: / * curse_id \u003d

Interzice: / *? Curs_id \u003d

Interzice: / *? Pagen

Nu permiteți: / * Pagen_1 \u003d

Nu permiteți: / * Pagen_2 \u003d

Dezactivați: / * Pagen_3 \u003d

Nu permiteți: / * Pagen_4 \u003d

Nu permiteți: / * Pagen_5 \u003d

Nu permiteți: / * Pagen_6 \u003d

Nu permiteți: / * Pagen_7 \u003d

Dezactivați: / * pagina_name \u003d căutare

Nu permiteți: / * pagina_name \u003d user_post

Nu permiteți: / * pagina_name \u003d detaliu_slide_show

Nu permiteți: / * Afișați

Dezactivați: / * show_all \u003d

Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML

Drupal.

Agent utilizator: *

Nu permiteți: / Baza de date /

Nu permiteți: / Include /

Nu permiteți: / Misc /

Nu permiteți: / Module /

Nu permiteți: / site-uri /

Nu permiteți: / Teme /

Dezactivați: / scripturi /

Nu permiteți: / Actualizări /

Nu permiteți: / Profiluri /

Dezactivați: / profil

Nu permiteți: / Profil / *

Nu permiteți: /xmlrpc.php.

Nu permiteți: /Cron.php.

Nu permiteți: /Update.php.

Nu permiteți: /Install.php.

Nu permiteți: /index.php.

Dezactivați: / admin /

Nu permiteți: / Comentariu / Răspuns /

Dezactivați: / contact /

Dezactivați: / logout /

Disalow: / Căutare /

Nu permiteți: / utilizator / înregistrare /

Nu permiteți: / Utilizator / Parolă /

Nu permiteți: * Înregistrați-vă *

Dezactivați: * Login *

Nu permiteți: / sus-

Dezactivați: / mesaje /

Nu permiteți: / Book / Export /

Dezactivați: / user2UserPoints /

Nu permiteți: / MyUserPoints /

Nu permiteți: / Cadadelice /

Nu permiteți: / sesizare /

Nu permiteți: / Agregregator /

Nu permiteți: / Fișiere / PIN /

Dezactivați: / voturile dvs.

Nu permiteți: / Comentarii / Recent

Interzice: / * / editare /

Nu permiteți: / * / Ștergere /

Nu permiteți: / * / Export / HTML /

Nu permiteți: / Taxonomie / Term / * $

Nu permiteți: / * / Editați $

Dezactivați: / * / contur $

Nu permiteți: / * / revizii $

Nu permiteți: / * / Contactați $

Nu permiteți: / * downloadPipe

Dezactivați: / nod $

Nu permiteți: / Nod / * / Track $

Nu permiteți: / *? Pagina \u003d 0

Dezactivați: / * secțiunea

Nu permiteți: / * Comandă

Nu permiteți: / *? Sortare *

Nu permiteți: / * & Sortare *

Nu permiteți: / * VotatUndown

Nu permiteți: / * Calendar

Nu permiteți: / indictex.php.

Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML

Cum să verificați robots.txt folosind Google sau Yandex

Așa cum nu este ciudat să verificați acest fișier, sunt necesare numai Webmasteri Google sau Yandex. Care, la rândul său, facilitează în mare măsură căutarea erorilor.

Google Webmaster. - Selectați "Scanare" din meniul din stânga și apoi fila "Robots.txt File de verificare a fișierelor". Apoi, la linia de jos, ferestrele apărute adăugați numele fișierului. Apoi faceți clic pe "Verificați" și consultați modul în care robotul dvs. este vede un bot Google.

Webmaster Yandex. - În meniul din stânga, selectați analiza "Tools" și "Robots.txt". După aceea, în fereastra care apare, faceți clic pe butonul "Verificați".

Este demn de remarcat faptul că validatorii online pentru verificarea acestui fișier foarte mult. Am vorbit despre cele mai accesibile, care sunt întotdeauna la îndemână.

Concluzie

Scrieți un robot perfect pentru toate site-urile este imposibil. Motivul pentru aceasta este siturile în sine, dintre care unele sunt făcute manual, în timp ce altele sunt situate pe diverse CMS. Absolut toate site-urile au o structură diferită de director și alte lucruri. Prin urmare, fiecare webmaster este pur și simplu obligat să creeze un set unic de reguli pentru P-Bots. Un astfel de fișier va fi responsabil pentru prioritățile dvs. și nu va permite căutarea unor informații confidențiale. Datorită acestui lucru, indicele va fi un conținut de înaltă calitate fără exces de gunoi.

Bună, astăzi vă vom spune cum să creați roboții potriviți TXT și de ce este, în general, este necesar.

Conţinut:

Ce este roboții txt

Într-unul din articolele noastre din trecut, am spus, de asemenea, cum funcționează roboții de căutare. Fișierul TXT Robots oferă instrucțiuni pentru a căuta roboți, cum să indexați corect site-ul dvs. Cu ajutorul directivelor, puteți specifica, de exemplu, robotul pe care paginile sau directoarele ar trebui să fie indexate și care nu sunt, pentru a forma un grup de oglinzi pentru site-ul dvs. (dacă aveți), specificați calea către sitemap fișier și așa mai departe. Este folosit în principal pentru a interzice indexarea anumitor pagini ale site-ului.

Cum se creează roboții potriviți TXT

În orice editor de text, creați un fișier numit roboți txt. Apoi, folosind directivele descrise mai jos, specificați robotul de pe paginile site-ului pe care trebuie să-l adăugați sau, dimpotrivă, să eliminați din rezultatele căutării. După ce ați creat un fișier, verificați-l pentru erori utilizând Webmaster Yandex sau Consola de Căutare Google.

Puneți fișierul finit în directorul rădăcină al site-ului dvs. (unde se află fișierul index.html).

Directiva utilizator-agent

Acesta este un fel de salut al roboților de căutare.

Șirul "utilizator-agent: *" va spune că toate roboții de căutare pot utiliza instrucțiunile conținute în acest fișier. Și, de exemplu, șirul "utilizator-agent: Yandex" va da instrucțiuni numai pentru robotul de căutare Yandex. Exemple de utilizare sunt enumerate mai jos. De asemenea, motoarele de căutare au roboți auxiliari pentru diferite categorii. De exemplu, Yandexnews și GoogleBot-News sunt roboți pentru a lucra cu știri.

Permiteți și dezactivați directivele

Cu directiva privind interzicerea, specificați care directoare de pagină sau de site este interzisă indexarea. Și cu ajutorul directivei permit, puteți.

Exemple:
Agent utilizator: *
Nu permiteți:
Permiteți: / Catalog /

O astfel de înregistrare va informa toate roboții de căutare care din întregul site pot fi indexate numai de către directorul de catalog.

Apropo, simbolul # este conceput pentru a descrie comentariile. Tot ceea ce este după acest simbol nu este luat în considerare până la sfârșit.

Dar exemplu roboți txt.cu instrucțiunile individuale pentru diferite motoare de căutare:

# Permite robotului să indice întregul site, cu excepția secțiunii bicicletelor
Agent utilizator: *
Nu permiteți: / biciclete /

# interzice indicele robotului site-ului, cu excepția secțiunii cu bărci
Agent de utilizator: GoogleBot
Permiteți: / bărci /
Nu permiteți:

# interzice toate celelalte motoare de căutare pentru a indexa site-ul
Agent utilizator: *
Nu permiteți:

Notă Că între direcțiile agentului de utilizator, permiteți și dezactivați nu pot fi linii goale!

Moli speciale * și $

În Permiteți și dezactivați directivele, puteți utiliza SpecialImillers * și $ pentru a seta expresii regulate. * - Selectează secvența specificată

De exemplu: # interzice roboții pentru a indexa toate paginile a căror adresă URL conține privat
Agent utilizator: *
Dezactivați: / * privat

În mod implicit, la sfârșitul fiecărei reguli, este necesar să se înregistreze un specialist *. Și pentru a anula * La sfârșitul regulii, se utilizează simbolul $.

De exemplu: # interzice "/ blocare"
# Dar nu interzice "/lock.html"
Agent utilizator: *
Dezactivați: / blocați $ # Interzice și "/ blocare"
# și "/lock.html"
Agent utilizator: *
Dezactivați: / blocare

Scopul special $ nu interzice specificația * la final, adică:

Agent utilizator: *
Dezactivați: / blocați $# Interzice numai "/ blocare"
Nu permiteți: / Lock * $ # La fel ca "dezactivarea: / blocare"
# interzice și / butlock.html și / blocare

Directiva Sitemap.

Dacă utilizați harta site-ului Sitemap, utilizați directiva Sitemap și specificați calea către unul (sau mai multe fișiere).

Agent utilizator: *
sitemap: https: //site.com/sitemap.xml

Directivă.

Dacă site-ul dvs. are oglinzi, apoi cu această directivă, un robot special va forma un grup de oglinzi ale site-ului dvs. și numai oglinda principală va adăuga la căutare. Prezenta directivă nu garantează alegerea site-ului specificat în IT ca principală oglindă, dar îi conferă o prioritate ridicată atunci când se decide.

Exemplu:

# Indicați oglinda principală a site-ului

Agent utilizator: Yandex
Nu permiteți: / mg-admin
Gazdă: https://www.zerkalo.ru.

Notă. Prezenta directivă este utilizată exclusiv pentru yandex! + Pentru fiecare fișier robots.txt, este procesată o singură directivă gazdă.Dacă în fișier sunt specificate mai multe directive, robotul utilizează primul.

Directiva privind gazda trebuie să conțină:

Protocolul HTTPS Dacă oglinda este disponibilă numai prin canal protejat. Dacă utilizați protocolul HTTP, nu este necesar să o specificați.
Un nume de domeniu corect corespunzător RFC 952 și nu este o adresă IP.
Numărul portului, dacă este necesar (gazdă: myhost.ru:8080).

Pot folosi chirilicul în roboți txt?

Nu, este imposibil să folosiți chirilicul. Pentru a specifica numele de domenii pe chirilice, utilizați, de exemplu, acest serviciu.

Setup Roboții TXT Mogutacms

Mogutacms umple robots.txt nu este necesar, pentru că Se completează automat când motorul este instalat.

Acum știți cum să setați roboții potriviți TXT, precum și să știți cum să utilizați diverse directive pentru gestionarea indexării site-ului dvs. și dacă aveți întrebări la stânga, ne pregătim să le răspundem într-o discuție specială în VC sau în comentariile de mai jos. La noi întâlniri!