Fișierul Robots.txt este unul dintre cele mai importante atunci când optimizați orice site. Absența sa poate duce la o încărcătură ridicată pe site de la roboții de căutare și indexarea lentă și reintroducerea și stabilirea greșită a faptului că site-ul va dispărea complet din căutare sau pur și simplu nu va fi indexat. În consecință, nu va fi căutat în Yandex, Google și alte motoare de căutare. Să ne dăm seama în toate nuanțele roboturilor de configurare corecte .Txt.
Pentru a începe un videoclip scurt care va crea o idee generală despre ceea ce este fișierul robots.txt.
Roboții de căutare vor indexa site-ul dvs. indiferent de disponibilitatea fișierului robots.txt. Dacă există un astfel de fișier, roboții pot fi ghidați de regulile care sunt prescrise în acest fișier. În același timp, unii roboți pot ignora aceste sau alte reguli, sau unele reguli pot fi specifice numai pentru unele roboți. În special, GoogleBOT nu utilizează Directiva privind întârzierea gazdei și cu crawlere, Yandexnews a început recent să ignore Directiva privind întârzierea cu crawlere, iar YandexDirect și YandexvideOpelars ignoră mai multe directive generale în roboți (dar sunt ghidate de cele care sunt specificate în mod specific pentru ele).
Mai multe despre excepții:
Excepții Yandex.
Excepții standard pentru roboți (Wikipedia)
Încărcarea maximă a site-ului creează roboți care descarcă conținut de pe site-ul dvs. Prin urmare, indicând faptul că este de a indexa și ce să ignorăm, precum și cu ce intervale de timp pentru descărcare, puteți, pe de o parte, să reduceți semnificativ sarcina de pe site de la roboți și pe de altă parte, viteza până la procesul de descărcare, interzicând ocolirea paginilor inutile.
Astfel de pagini inutile includ script-uri Ajax, JSON, responsabil pentru ferestre pop-up, bannere, încheierea de limitare etc., formularul de comandă și coș cu toate etapele achiziției, căutarea funcțională, contul personal, admin.
Pentru majoritatea roboților, este de dorit să dezactivați indexarea tuturor JS și CSS. Dar pentru GoogleBot și Yandex, astfel de fișiere trebuie să fie lăsate pentru indexare, deoarece acestea sunt utilizate de motoarele de căutare pentru a analiza confortul site-ului și clasamentul său (Google Dova, Pruf Yandex).
Directivele sunt reguli pentru roboți. Există o specificație W3C din 30 ianuarie 1994 și standardul avansat din 1996. Cu toate acestea, nu toate motoarele de căutare și roboții sprijină anumite directive. În acest sens, nu va fi mai util pentru noi, dar principalii roboți sunt ghidați de aceste sau alte directive.
Să luăm în considerare în ordine.
Aceasta este principala directivă care determină pentru care roboții vor urma regulile.
Pentru toți roboții:
Agent utilizator: *
Pentru un anumit bot:
Agent de utilizator: GoogleBot
Rețineți că registrul de simbol nu este important în Robots.txt. Acestea. Agentul de utilizator pentru Google poate fi scris cu același succes cu modul sărat:
Agent de utilizator: GoogleBot
Mai jos este un tabel de agenți de utilizator de bază al diferitelor motoare de căutare.
Bot. | Funcţie |
---|---|
GoogleBot. | principalul robot de indexare Google |
GoogleBot-News. | Stiri google |
GoogleBot-Image. | Imagini Google. |
GoogleBot-Video. | video |
MediaPartners-Google. | |
Mediapartners. | Google AdSense, Google Mobile AdSense |
ADSBOT-Google. | verificați calitatea paginii țintă |
ADSBOT-Google-Mobile-Apps | Google robotul pentru aplicații |
Yandex. | |
Yandexbot. | principalul robot de indexare Yandex |
Yandeximages. | Yandex.martinki. |
Yandexvideo. | Yandex.videos. |
Yandexmedia. | date multimedia. |
Yandexblogs. | robot de căutare blog |
Yandexaddurl. | robot care accesează pagina când o adăugați prin formularul "Add URL" |
Yandexfavicons. | robot, pictograme de indexare a site-urilor (favicons) |
Yandexdirect. | Yandex.direct |
Yandexmetrika. | Yandex.metrica. |
Yandexcatalog. | Yandex.Catalog. |
Yandexnews. | Yandex.news. |
Yandeximageresizer. | robot de service mobil |
Bing. | |
Bingbot. | principalul robot de indexare Bing |
Yahoo! | |
Slurp. | principalul robot de indexare Yahoo! |
Mail.ru. | |
Mail.ru. | indexarea principală Robot Mail.ru |
Hoinar. | |
Stackrambler. | Anterior, principalul robot de indexare Rambler. Cu toate acestea, de la 06/23/11, Rambler încetează să-și susțină propriul motor de căutare și acum utilizează tehnologia Yandex pe serviciile sale. Mai puțin relevante. |
Nu permiteți închiderea paginilor de indexare și secțiuni de site-uri.
Permiteți cu forța să se deschidă la indexarea paginii și a secțiunilor site-ului.
Dar aici nu este atât de simplu.
În primul rând, trebuie să cunoașteți operatori suplimentari și să înțelegeți cum sunt utilizate este *, $ și #.
* - Acesta este un număr de caractere, inclusiv absența lor. În același timp, la sfârșitul rândului, steaua nu poate fi setată, se înțelege că este situată acolo în mod implicit.
$ - arată că simbolul din fața lui ar trebui să fie ultimul.
# - Comentariu, tot ceea ce după acest simbol în robotul rând nu este luat în considerare.
Exemple de utilizare:
Nu permiteți: *? S \u003d
Nu permiteți: / Categorie / $
În al doilea rând, trebuie să înțelegeți cum sunt efectuate regulile imbricate.
Amintiți-vă că procedura de înregistrare a directivelor nu este importantă. Regulile de moștenire care se deschid sau aproape de indexare sunt determinate de ceea ce sunt indicate directoare. Vom analiza exemplul.
Permiteți: * .Css
Nu permiteți: / Șablon /
http://site.ru/template/ - Închis de la indexare
http://site.ru/template/style.css - Închis de la indexare
http://site.ru/style.css - Deschis la indexare
http://site.ru/theme/style.css - deschis la indexare
Dacă aveți nevoie de toate fișierele. CSSS sunt deschise spre indexare, va trebui să vă înregistrați suplimentar pentru fiecare dintre folderele închise. În cazul nostru:
Permiteți: * .Css
Permiteți: / WebsitePlate.com.css
Nu permiteți: / Șablon /
Repet, ordinea directivelor nu este importantă.
Directivă pentru a specifica calea către site-ul de fișier XML. Adresa URL este prescrisă în același mod ca și în bara de adrese.
De exemplu,
Sitemap: http://site.ru/sitemap.xml.
Directiva Sitemap este specificată oriunde în fișierul robots.txt fără referire la un anumit agent de utilizator. Puteți specifica mai multe reguli de sitemap.
Directivă pentru a indica principala oglindă a site-ului (în majoritatea cazurilor: cu www sau fără www). Rețineți că oglinda principală este indicată fără http: //, dar cu https: //. De asemenea, dacă este necesar, portul este indicat.
Directiva este susținută numai de Bots of Yandex și Mail.ru. Alți roboți, în special GoogleBot, echipa nu va fi luată în considerare. Gazda este prescrisă o singură dată!
Exemplul 1:
Gazdă: site.ru.
Exemplul 2:
Gazdă: https://siite.ru.
Directiva pentru a stabili intervalul de timp între descărcarea robotului paginilor site-ului. Susținute de roboți Yandex, mail.ru, Bing, Yahoo. Valoarea poate fi instalată în unități întregi sau fracționare (punct de separare), timp în secunde.
Exemplul 1:
Întârzierea cu crawlere: 3
Exemplul 2:
Întârzierea cu crawlere: 0.5
Dacă site-ul are o încărcătură mică, atunci nu este nevoie să setați o astfel de regulă. Cu toate acestea, în cazul în care indexarea robotului de pagini conduce la faptul că site-ul depășește limitele sau se confruntă cu încărcături semnificative până la întreruperile operației de server, atunci această directivă va contribui la reducerea încărcăturii.
Cu cât este mai mare valoarea, cu atât paginile robotului se vor descărca într-o singură sesiune. Valoarea optimă este determinată individual pentru fiecare site. Este mai bine să începeți cu valori nu foarte mari - 0,1, 0,2, 0,5 - și crește treptat. Pentru roboții motoarelor de căutare cu o importanță mai mare pentru rezultatele de promovare, cum ar fi Mail.ru, Bing și Yahoo, este posibil să se stabilească inițial valori mari decât pentru roboții Yandex.
Această regulă raportează crawlerul că adresele URL cu parametrii specificați nu trebuie să fie indexați. Pentru regulă, sunt specificate două argumente: parametrul și adresa URL a secțiunii. Directiva este susținută de Yandex.
Clean-Param: autor_id http://site.ru/articles/
Clean-Param: autor_id & sid http://site.ru/articles/
Clean-Param: UTM_SOURCE & UTM_MEDIUM & UTM_CAMPAIGN
În specificația Robots.txt îmbunătățită, puteți găsi o altă opțiune de solicitare și de vizită-timp. Cu toate acestea, în prezent nu sunt acceptate de principalele motoare de căutare.
Înțeles directivele:
Cerere-rată: 1/5 - Descărcați nu mai mult de o pagină în cinci secunde
Vizita-timp: 0600-0845 - Descărcați pagini numai la intervalul de la ora 6 dimineața la 8:45 Grinvich.
Dacă trebuie să configurați site-ul dvs. pentru a fi indexat de către roboții de căutare, atunci trebuie să înregistrați următoarele directive:
Agent utilizator: *
Nu permiteți:
Verificați dacă aceste directive sunt prescrise pe site-urile de testare ale site-ului dvs.
Pentru țările Rusia și CSI, unde se observă cota de yandex, directivele pentru toți roboții ar trebui să fie prescrise și separat pentru Yandex și Google.
Pentru a configura în mod corespunzător robots.txt, utilizați următorul algoritm:
După ce ați creat fișierul robots.txt, acesta trebuie să fie plasat pe site-ul dvs. la site.ru/robots.txt - adică În directorul rădăcină. Robotul de căutare se referă întotdeauna la fișierul de pe adresa url /robots.txt
Verificarea robots.txt este efectuată la următoarele link-uri:
La sfârșitul articolului, voi da câteva erori tipice ale fișierului robots.txt
Video util de la Yandex (atenție! Unele recomandări sunt potrivite numai pentru yandex).
Sitemap, simplifică foarte mult indexarea blogului dvs. Harta site-ului trebuie să fie obligatorie pentru fiecare site și blog. Dar și pe fiecare site și blog ar trebui să fie dosar roboți.tXT.. Fișierul Robots.txt conține un set de instrucțiuni pentru roboții de căutare. Putem spune - regulile pentru comportamentul roboților de căutare pe blogul dvs. Precum și în acest fișier conține calea către harta site-ului a blogului dvs. Și, de fapt, cu fișierul Robots.txt compilat corect, robotul de căutare nu cheltuiește timp prețios pe căutarea hărții site-ului și indexarea fișierelor nu necesare.
robots.txt. - Acesta este un fișier text, poate fi creat în "Notebook" obișnuit, situat la rădăcina blogului dvs., care conține instrucțiuni pentru roboții de căutare.
Aceste instrucțiuni limitează roboții de căutare din indexarea aleatorie a tuturor fișierelor Dumnezeului dvs. și vizați aceste pagini la indexarea acestor pagini care ar trebui să fie accesate în emiterea de căutare.
Folosind acest fișier, puteți preveni indexarea fișierelor de motor WordPress. Sau, spuneți, secțiunea secretă a blogului dvs. Puteți specifica calea spre harta blogului dvs. și oglinda principală a blogului dvs. Aici vreau să spun, numele dvs. de domeniu cu www și fără www.
Acest ecran este indicat în mod clar modul în care fișierul robots.txt interzice indexarea anumitor foldere de pe site. Fără un fișier, un robot este disponibil pe site-ul dvs.
Pentru a face față instrucțiunilor care conțin fișierul robots.txt, trebuie să vă ocupați de comandanții principali (directive).
Agent utilizator - Această comandă indică accesul la roboți la site-ul dvs. Folosind această directivă, puteți crea instrucțiuni individual pentru fiecare robot.
Agent de utilizator: Yandex - Reguli pentru robotul yandex
Agent de utilizator: * - Reguli pentru toți roboții
Interzice și permiteți. - directive de interzicere și permisiune. Folosind Directiva privind interzicerea, indexarea este interzisă și utilizarea permitului este permisă.
Exemplu de interdicție:
Agent utilizator: *
Nu permiteți: / - interzice întregului site.
Agent utilizator: Yandex
Nu permiteți: / admin - interzicerea robotului Yandex la paginile situate în dosarul admin.
Exemplu de permisiune:
Agent utilizator: *
Permiteți: / Foto
Nu permiteți: / - interzicerea tuturor site-ului, cu excepția paginilor dosarului foto.
Notă! Nu permite directiva: Fără un parametru permite totul, iar directiva Permite: fără un parametru interzice totul. Și să permită directivele fără dezactivare nu ar trebui să fie.
Sitemap. - Specifică calea către harta site-ului în format XML.
Sitemap: https: //syt/sitemap.xml.gz
Sitemap: https: //syt/sitemap.xml
Gazdă. - Directiva determină oglinda principală a blogului dvs. Se crede că această directivă este prescrisă numai pentru roboții Yandex. Prezenta directivă ar trebui specificată la sfârșitul fișierului Robots.txt.
Agent utilizator: Yandex
Nu permiteți: / WP-include
Gazdă: Site.
Notă! Adresa oglinzii principale este indicată fără a specifica protocolul de transmisie HyperText (http: //).
Acum, când am întâlnit comenzile principale ale fișierului robots.txt, puteți începe să creați fișierul nostru. Pentru a vă crea propriul fișier Robots.txt cu setările individuale, trebuie să cunoașteți structura blogului dvs.
Vom examina crearea unui fișier standard (universal) robots.txt pentru blog pe WordPress. Puteți să o completați întotdeauna cu setările dvs.
Deci, procedați. Avem nevoie de un "notebook" obișnuit, care este în fiecare sistem de operare Windows. Sau textedit în MacOS.
Deschideți un document nou și introduceți aceste comenzi:
Agent de utilizator: * Nu permiteți: sitemap: https: //sitemap.xml.gz Sitemap: https: //sitemap.xml Agent utilizator: Yandex dezactivează: /wp-login.php dezactivați: / wp-registru .php dezactivați: / CGI-BIN dezactiva: / WP-admin interzice: / wp-include dezactivarea: /xmlrpc.php dezactiva: / wp-content / plugins dezactiva: / wp-content / cache dezactiva: / wp-content / teme dezamorcare: / wp -Content / limbi dezvăluie: / categorie / * / * dezactivează: / trackback dezactivați: * / trackback dezactivează: * / * / trackback dezvăluie: / tag / dezactivează: / feed / dezactivare: * / * / hrană / * / * / * Nu permiteți: * / Feed Distint: / * / Feed Dislow: / *? * Nu permiteți: /? S \u003d gazdă: site-ul
Nu uitați să înlocuiți parametrii site-ului și ale directivelor gazdă pe cont propriu.
Important! Când scrieți comenzi, este permisă un singur spațiu. Între directivă și parametru. În nici un caz nu faceți spații după parametru sau chiar acolo unde a căzut.
Exemplu:
Nu permiteți:<пробел>/ A hrani /
Acest exemplu al fișierului robots.txt este universal și este potrivit pentru orice blog pe WordPress cu adresele adreselor CNC. Despre ce CNC este citit. Dacă nu ați configurat CNC, vă recomand să eliminați dezactivarea: / *? * Nu permiteți: /? S \u003d din fișierul propus
Cea mai bună modalitate de manipulare este conexiunea FTP. Despre cum să configurați conexiunea FTP pentru TOTOLCOMMANDER Citiți. Sau puteți utiliza managerul de fișiere pe găzduirea dvs.
Folosesc conexiunea FTP la TotolCommander.
Rețea\u003e Conectează cu serverul FTP.
Selectați conexiunea dorită și faceți clic pe butonul Conectare.
Deschideți rădăcina blogului și copiați fișierul robots.txt apăsând tasta F5.
Copierea robots.txt la server
Acum, fișierul dvs. Robots.txt va executa funcția corect. Dar tot mai recomandăm să efectuați o analiză robots.txt pentru a vă asigura că nu există greșeli.
Pentru a face acest lucru, trebuie să vă conectați la cabinetul Yandex sau Google Webmaster. Luați în considerare exemplul lui Yandex. Aici puteți analiza chiar și fără a confirma dreptul la site. Aveți suficient pentru a avea o cutie poștală pe Yandex.
Deschideți cabinetul yandex.vebmaster.
Pe pagina principală a cabinetului webmaster, deschideți link-ul "Verificaroboți.tXT ".
Pentru analiză, va trebui să introduceți adresa URL a blogului dvs. și să faceți clic pe " Descarca roboți.txt de la site." Odată ce fișierul este încărcat făcând clic pe buton "Verifica".
Lipsa înregistrărilor de avertizare indică corectitudinea creării fișierului robots.txt.
Rezultatul va fi prezentat. În cazul în care este clar și înțelegeți ce materiale sunt permise să afișeze roboții de căutare și care sunt interzise.
Rezultatul analizei fișierelor robots.txt
Aici puteți efectua modificări în robots.txt și experimentați până la rezultatul de care aveți nevoie. Dar amintiți-vă, fișierul situat pe blogul dvs. nu se schimbă. Pentru a face acest lucru, aveți nevoie de rezultatul obținut aici pentru a copia într-un notebook, salvați ca robots.txt și copiați blogul pe dvs.
Apropo, dacă vă întrebați cum arată fișierul robots.txt pe blogul cuiva, îl puteți vedea cu ușurință. Pentru a face acest lucru, trebuie să adăugați /roobots.txt pentru a adresa site-ului
https: //syt/robots.txt.
Acum, roboții dvs. este gata. Și amintiți-vă că nu întârziați crearea fișierului robots.txt în cutia lungă, indexarea blogului dvs. va depinde de el.
Dacă doriți să creați roboții potriviți și, în același timp, este încrezător că numai paginile necesare se încadrează în indicele motorului de căutare, acest lucru poate fi făcut și utilizând automat plug-in-ul.
Am totul pe asta. Vă doresc toate succesele. Dacă sunteți întrebări sau completări, scrieți comentariile.
Pe curând.
Cu sinceritate, Maxim Zaitsev.
Abonați-vă la articole noi!
Cu promovarea independentă și promovarea site-ului, nu numai crearea unui conținut unic sau a cererilor în statisticile lui Yandex, dar și ar trebui să se acorde atenția cuvenită unui astfel de indicator ca indexarea resurselor motorului de căutare, deoarece tot succesul continuu al promoției De asemenea, depinde de acest lucru.
Avem la dispoziție două instrumente principale cu care putem gestiona acest proces. În primul rând, este, bineînțeles, fișierul robots.txt, care ne va ajuta să interzicem index ceea ce nu conține conținutul principal (motor și fișiere duplicate) și este vorba despre el care va fi discutat în acest articol, dar în plus Există un alt instrument important - sitemap xml.
Instrumentele menționate mai sus sunt foarte importante pentru dezvoltarea cu succes a proiectului dvs. și acest lucru nu este deloc o declarație alegator. În articolul de pe sitemap XML (a se vedea link-ul de mai sus), am adus rezultatele unui studiu foarte important în cele mai frecvente erori tehnice ale webmasterii novice, există doar lipsa acestor roboți de fișiere și sitemap-ul sau derularea lor incorectă si foloseste.
Este necesar să înțelegeți foarte clar că nu toate conținutul proiectului de Internet (fișiere și directoare) create pe orice motor ar trebui să fie disponibil pentru roboții motoarelor de căutare.
Dacă nu înregistrați anumite reguli pentru comportament în robotse pentru aceste roboți, atunci multe pagini vor intra în indicele motoarelor de căutare care nu sunt legate de semnificația resursei, precum și duplicarea repetată a conținutului (pentru diferite legături pe care le va face să fie disponibile și același conținut intersectat.) că motoarele de căutare nu le place.
O soluție bună va fi interzicerea tuturor lucrurilor inutile în robots.txt (toate scrisorile din titlu ar trebui să fie în litere mici - fără majuscule).
Cu aceasta, putem influența procesul de indexare a site-ului Yandex și Google. Acesta prezintă un fișier text obișnuit pe care îl puteți crea și edita în continuare în orice editor de text (de exemplu, Notepad ++). Botul de căutare va căuta acest fișier în directorul rădăcină al resursei dvs. și dacă nu va găsi, va intra în indexul tuturor, cum poate fi atinsă.
Prin urmare, după ce ați scris roboții necesari, trebuie să îl salvați în dosarul rădăcină, de exemplu, utilizând client FileZilla FTP, astfel încât să fie disponibil, de exemplu, în această adresă:
Https: //syt/robots.txt.
Apropo, dacă doriți să știți cum arată acest fișier într-o rețea din rețea, acesta va fi suficient pentru a adăuga sfârșitul vizualizării de /roobots.txt la Ulla din pagina principală. Poate fi utilă pentru înțelegerea faptului că ar trebui să fie în ea.
Cu toate acestea, ar trebui să se țină cont de faptul că, pentru diferite motoare, acest fișier va arăta în moduri diferite (dosarele de motor care trebuie să fie indexate vor fi numite diferit în diferite CMS). Prin urmare, dacă doriți să decideți cu privire la cea mai bună opțiune de roboți, să spunem pentru forumul pe SMF, atunci trebuie să studiați numai forumurile construite pe acest motor.
Roboții nu au o sintaxă complexă care este descrisă în detaliu, de exemplu, în Helpe Yandex. De obicei, este indicat pentru care Bot Bot este proiectat pentru a fi următoarele directive: numele de bot ("Agent de utilizator") a permis ("Permite") și Prohibitiv ("dezactivați") și, de asemenea, utilizat în mod activ "Sitemap" pentru a indica căutarea Motoare, unde este exact fișierul hărții.
De asemenea, este util să specificați în acest fișier care dintre oglinzile WebPower-ului dvs. este cea principală din directiva specială "gazdă", pe care numai Yandex înțelege. Dacă resursa dvs. nu are oglinzi, va fi utilă indicarea care dintre opțiunile de scriere este principalul lucru - cu www sau fără ea. pentru că Acesta este, de asemenea, un fel de oglindă. I-am spus despre asta în detaliu în articolul circa 301 de redirecționare pentru domenii cu www și fără ea.
Acum, să vorbim puțin despre sintaxa acestui fișier. Directivele din Robots.txt au următoarea formă:
<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>
Codul corect trebuie să conțină cel puțin o directivă "dezactivată" după fiecare înregistrare "utilizator-agent". Un fișier gol implică permisiunea de a indexa site-ul.
Directiva privind agentul utilizator trebuie să conțină numele bot de căutare. Folosind acest lucru, puteți configura regulile de comportament pentru fiecare motor de căutare specific (de exemplu, creând o indexare separată a folderului numai pentru numai Yandex). Un exemplu de scriere a "agent de utilizator", adresat tuturor roboților la resursa dvs., arată astfel:
Agent utilizator: *
Dacă doriți să stabiliți anumite condiții în "Agentul de utilizator" numai pentru un singur bot, de exemplu, Yandex, atunci trebuie să scrieți astfel:
Agent utilizator: Yandex
Bot al fiecărui motor de căutare are numele său (de exemplu, pentru Rambler este Stackrambler). Aici voi da o listă cu cele mai renumite:
Google http://www.google.com GoogleBot Yahoo! http://www.yahoo.com Slurp (sau Yahoo! Slurp) AOL http://www.aol.com Slurp MSN http://www.msn.com msnbot live http://www.live.com Msnbot Cere http://www.ask.com Teoma Altavista http://www.altavista.com Scooter Alexa http://www.alexa.com Ia_archiver Lycos http://www.lycos.com lycos yandex http: // www. Ya.ru Yandex Rambler http://www.rambler.ru Stackrambler Mill.ru http://mail.ru mail.ru aport http://www.aport.ru http://www.webalta.ru webalta (Crawler Webalta / 2.0)
Motoarele de căutare mari, uneori, cu excepția roboților principale, există, de asemenea, instanțe separate pentru indexarea blogurilor, știrilor, imaginilor etc. Multe informații despre soiurile de roboți pe care le puteți învăța din această resursă.
Voi da câteva exemple simple de utilizare a directivelor cu o explicație a acțiunilor sale.
1. Codul de mai jos permite tuturor roboților să indice întregul conținut fără excepții. Acest lucru este definit printr-o directivă goală de respingere.
Agent utilizator: * Nu permiteți:
2. Următorul cod, dimpotrivă, interzice complet toate motoarele de căutare să adauge indicele paginii acestei resurse. Setează acest dezactivat cu "/" în câmpul Valoare.
Agent de utilizator: * Nu permiteți:
3. În acest caz, toate robotul vor fi interzise să vizualizeze conținutul directorului / imaginii / (http://mysite.ru/image/ - Calea absolută spre acest catalog)
Agent de utilizator: * Nu permiteți: / Imagine /
4. Exemplul "Image" director va fi interzis în exemplul de mai jos, precum și toate fișierele și directoarele începând cu caracterele "imagine", adică fișiere: "imagine.htm", "imagini.htm", directoare: "imagine" , "Imagini1", "image34" și așa mai departe.):
Agent de utilizator: * Nu permiteți: / imagine
5. Când descrieți căile pentru directivele Permite-Disallow, puteți utiliza caracterele "*" și "$", specificând astfel anumite expresii logice. Caracterul "*" înseamnă orice secvență (inclusiv o goală) de caractere. Următorul exemplu interzice toate motoarele de căutare să indexeze fișiere cu extensia ".aspx":
Agent de utilizator: * Nu permiteți: * .Spx
Pentru a evita probleme neplăcute cu oglinzile de site, se recomandă adăugarea unei directive gazdă în robots.txt, ceea ce indică botul Yandex de pe oglinda principală. Conform regulilor de scriere pentru agentul de utilizator, trebuie să existe cel puțin o directivă de respingere (de obicei pusă goală, nimic care interzice):
Agent de utilizator: Yandex dezactivează: gazdă: www.site.ru
Agent de utilizator: Yandex interzice: gazdă: site.ru
În funcție de ceea ce este mai optim pentru dvs.
Directiva Sitemap indică locația fișierului hărții site-ului (numit de obicei sitemap.xml, dar nu întotdeauna). Ca parametru, se specifică calea către acest fișier, inclusiv http: // (adică ul său). De exemplu:
Sitemap: http://site.ru/sitemap.xml.
Meta Tag Robots - ajută la închiderea conținutului conținutului
Există o altă modalitate de a configura (rezolva sau interzice) indexarea paginilor web individuale, atât pentru Yandex, cât și pentru Google. Pentru a face acest lucru, în interiorul etichetei "cap" a paginii web dorite se adaugă la eticheta Meta Robots cu parametrii doritori și este repetată pentru toate documentele la care trebuie să aplicați acest lucru sau această regulă (interdicție sau permisiune). Poate arata ca aceasta, de exemplu, deci:
În acest caz, boturile tuturor motoarelor de căutare vor trebui să uite de indexarea acestei pagini web (aceasta este indicată de prezența NoIndEx în această etichetă meta) și analiza legăturilor plasate pe acesta (acest lucru este indicat de prezența din Nofollow - Botul este interzis din legăturile pe care le va găsi în acest document).
Există doar două perechi de parametri din această methega: index și urmați:
Index - Indicați dacă robotul poate indexa acest document
Urmăriți - poate să urmeze legăturile găsite în acest document
Valorile implicite - "Index" și "Urmați". Există, de asemenea, o opțiune de scriere scurtată folosind "toate" și "none", care indică activitatea ambelor parametri, fie, respectiv, dimpotrivă: all \u003d index, urmați și nimeni \u003d NoIndEx, Nofollow.
Pentru blog-ul pe WordPress, puteți configura eticheta Meta roboților, de exemplu, cu plug-in-ul Toate într-un pachet SEO. Ei bine, totul, cu teoria, este terminat și este timpul să mergem la practică, și anume să compileze roboți optimi.txt pentru Joomla, SMF și WordPress.
După cum știți, proiectele create pe baza oricărui motor (Joomla, WordPress, SMF etc.) au numeroase obiecte auxiliare care nu transportă încărcarea informativă.
Dacă nu interzice indexarea tuturor acestor gunoi, timpul alocat de motoarele de căutare pe indexarea site-ului dvs. va cheltui bani în căutarea fișierelor motorului (pentru căutarea informațiilor din componenta informației, adică conținutul).
Dar cipul este că în majoritatea CMS, conținutul este stocat nu în fișiere, ci în baza de date la care boturile de căutare nu pot obține. Prin urcarea motoarelor motorului, Botul epuizează timpul eliberat și nu va părăsi pâinea Solono.
În plus, ar trebui să vă deplasați pentru conținutul unic al conținutului de pe proiectul dvs. și nu ar trebui să se facă o duplicare completă sau chiar parțială a conținutului (conținutul informațiilor). Duplicarea poate apărea dacă același material este disponibil la adrese diferite (URL).
Yandex și Google, conducând indexarea, au descoperit duplicat și, poate, ia măsuri pentru o anumită pesimizare a resurselor dvs. cu cantitățile mari (ele, de asemenea, nu doresc să găsească boabele în grămada de gunoi de grajd).
Dacă proiectul dvs. este creat pe baza oricărui motor, atunci duplicarea conținutului va avea loc cu o probabilitate ridicată, ceea ce înseamnă că trebuie să vă ocupați de aceasta, inclusiv utilizarea interdicției în robots.txt., Mai ales într-o etichetă Meta, pentru că în primul caz, Banul Google poate ignora și ignora, dar el nu va mai putea să-i dea naibii (atât de elev).
De exemplu, în WordPress. Paginile cu conținut foarte similar pot ajunge la indexul de căutare dacă sunt indexarea și conținutul titlurilor și conținutul arhivei etichetelor și conținutul arhivelor temporare.
Dar dacă utilizați eticheta Meta descrisă mai sus, creați o interdicție pentru arhiva tag-ului și o arhivă temporară (puteți pleca, dar pentru a interzice indexarea conținutului titlurilor), apoi duplicarea conținutului nu va apărea. În acest scop, WordPress va folosi cel mai bine capabilitățile lui Al într-un Plugin SEO, link-ul la care caută un pic mai mare în text.
Chiar mai dificil, cu duplicarea conținutului este cazul în motorul forumului SMF. Dacă nu produceți o setare fină (interzicere) prin roboți, atunci căutarea va primi un duplicat multiplu de aceleași postări. În Joomla, de asemenea, apropo, uneori există o problemă cu duplicarea documentelor obișnuite și a copiilor lor destinate tipăririi.
Rezumarea, voi spune că fișierul Robosts este conceput pentru a stabili regulile globale de interzicere a accesului la întregul director al site-ului sau în fișierele și folderele, în titlul de caractere specificate (masca). Exemple de sarcină a unor astfel de interdicții Puteți vedea puțin mai mare.
Pentru a interzice indexarea unei singure pagini, este convenabil să utilizați aceeași etichetă Meta care este prescrisă în antet (între etichetele capului) a documentului dorit. Detalii despre sintaxa Metatega Vezi puțin mai mare în text.
Acum, să luăm în considerare exemple specifice de roboți destinate diferitelor motoare - Joomla, WordPress și SMF. Firește, toate cele trei opțiuni create pentru diferite CMS vor fi semnificative (dacă nu vor spune dramatic) diferă unul de celălalt. Adevărat, toți au un timp general și acest moment este asociat cu motorul de căutare al lui Yandex.
pentru că În Renet, Yandex are o greutate suficientă, atunci trebuie să țineți cont de toate nuanțele muncii sale, iar aici se va ajuta Directiva gazdă. Ea specifică în mod explicit acest motor de căutare, oglinda principală a site-ului dvs.
Se recomandă utilizarea unui blog separat al agentului de utilizator destinat numai pentru Yandex (Agent utilizator: Yandex). Acest lucru se datorează faptului că motoarele de căutare rămase nu pot înțelege gazda și, în consecință, includerea sa în înregistrarea agentului de utilizator destinată tuturor motoarelor de căutare (agent de utilizator: *) poate duce la consecințe negative și indexarea incorectă.
Care este cazul - este dificil de spus, pentru că algoritmii de căutare sunt un lucru în sine, deci este mai bine să faci așa cum sfătuiește. Dar, în acest caz, va trebui să duplicați în directiveser-agent: Yandex toate regulile pe care le-am cerut agentului utilizator: *. Dacă lăsați agentul de utilizator: Yandex cu dezactivare goală: în acest fel vă permiteți Yandex să intre oriunde și să trageți totul la rând la index.
Înainte de a trece la luarea în considerare a opțiunilor specifice, vreau să vă reamintesc că puteți verifica activitatea Robots.txt puteți în Yandex Webmaster și Google Webmaster. Acolo puteți specifica UM-urile concretare ale resurselor dvs. și puteți vedea (verificați) dacă acest motor de căutare îi va adăuga la indexul dvs. sau această acțiune este interzisă cu succes într-un fișier miracol.
Pentru forumul de pe motorul SMF, următoarele vor fi următoarele (luate din forumul de asistență tehnică din acest subiect):
Agent utilizator: * Permite: / Forum / * Arcade Permite: / Forum / * RSS Distinge: / Forum / Atasamente / Distinge: / Forum / Avatare / Distinge: / Forum / Pachete / Distint: / Forum / Forum / Distinge: / Forum / 7s / Distinge: /Forum/*.New Distinge: / Forum / * Sortare Distinge: / Forum / * TOPICSEEN Distinge: / Forum / * WAP Distinge: / Forum / * Action Utilizator-Agent: Slurp Crawl-Întârzie: 100
Rețineți că această opțiune este dată pentru cazul în care forumul dvs. SMF este instalat în directorul Forum al site-ului principal. Dacă forumul nu este în director, atunci pur și simplu ștergeți din toate regulile / forumul.
URL-urile prietenoase din SMF pot fi activate sau dezactivate în forumul Admin în calea următoare: în coloana din stânga a administratorului Selectarea elementului "Caracteristici și setări", în partea de jos a ferestrei care deschide fereastra la "Permite URL-ul prietenos" , unde puteți pune sau elimina caseta de selectare.
Există o altă opțiune robots.txt pentru SMF (dar, probabil, încă complet întinsă):
Agent utilizator: * Permiteți: / Forum / * Harta site-ului permite: / forum / * arcade # Dacă nu aveți jocuri distractive, eliminați fără a trece permisiunea: / forum / * RSS permite: / forum / * tip \u003d RSS dezactivează : / Forum / Avatare / Distinge: / Forum / Pachete / Distinge: / Forum / Smileys / Distinge: / Forum / Surse / Distinge: / Forum / Teme / Distinge: / Forum / * .msg Distinge: / Forum / *. Nou Distingeți: / Forum / * Sortare Distinge: / Forum / * TOPICSEEN Distingeți: / Forum / * WAP dezactivează: / forum / * Distanță de acțiune: / forum / * prev_next dezvăluie: / forum / * toate dezactiveaza: /forum/2Go.php # sau care redirecționează că aveți gazdă: www.mi Website.ru # Specificați-vă oglinda principală Agent utilizator: Slurp Crawl-întârzie: 100
După cum puteți vedea în acest fișier, directiva gazdă, destinată numai pentru Yandex, este activată în agentul de utilizator pentru toate motoarele de căutare. Probabil că probabil aș adăuga încă o directivă separată a agentului utilizator numai pentru Yandex, cu o repetare a tuturor regulilor. Dar decideți pentru voi înșivă.
Agent de utilizator: Slurp Crawl-Întârzie: 100
se datorează faptului că motorul de căutare Yahoo (Slurp este numele botului său de căutare) scanează serverul în multe fluxuri, ceea ce poate afecta negativ performanța sa.
În această regulă, directiva privind întârzierea cu crawlere vă permite să specificați Yahoo Bot cu perioada minimă de timp (în secunde) între sfârșitul injecției unui document și începutul descărcarea următoarelor. Aceasta va elimina sarcina de pe server.
În fișierul de surse / PrintPage.php, găsiți (de exemplu, utilizând căutarea încorporată în Notepad ++) String:
fatal_lang_error (472, fals);
Introduceți imediat sub ea:
$ context ["robot_no_index" \u003d adevărat;
În Teme File / Title_text_template.php_template.php Găsiți un șir:
Introduceți următoarea linie de mai jos:
Dacă doriți, de asemenea, un link care să comute la versiunea completă a forumului (în cazul în care o porțiune a paginii tipărite a trecut deja indexarea în Yandex și Google), apoi în aceeași imprimare.template.php găsiți un șir cu etichetă de deschidere Cap:
Și introduceți șirul de mai jos:
Pe forum
Puteți obține mai multe informații despre această versiune a fișierului Robots.txt, citiți această ramură a asistenței forumului de limbă rusă.
Agent de utilizator: * Nu permiteți: / Administrator / dezactivat: / Cache / dezactivare: / Componente / dezactivare: / dezactivați: / Instalare / dezactivare: / Limbaj / dezactivare: / Biblioteci / Distinge: / Media / Distinge: / Module / Distinge: / Șabloane / dezactivați: / TMP / dezactivați: / XMLRPC /
În principiu, aici aproape totul este luat în considerare și funcționează bine. Singurul lucru pentru a adăuga o regulă separată a agentului utilizator pentru a introduce directiva gazdă care determină oglinda principală pentru Yandex, precum și specificați calea către fișierul Sitemap.
Prin urmare, în forma finală, roboții corecți pentru Joomla, în opinia mea, ar trebui să arate astfel:
Agent de utilizator: * Nu permiteți: / Administrator / dezactivat: / Cache / dezactivare: / Inclace / dezactivează: / Instalare / dezactivare: / Limbă / dezactivare: / Biblioteci / Distinge: / Media / Distinge: / Module / Distinge: / Plugins / Nu permiteți: / dezactivați: / XMLRRPC / Agent utilizator: Yandex dezactivează: / Administrator / dezactivare: / Cache / dezactivează: / Include / dezactivează: / Instalare / dezactivare: / Limbă / dezactivare: / Biblioteci / Distinge: / Media / Distinge: .
Da, rețineți că în a doua versiune nu există nicio directivă nu permiteți: / imagini / care oferă o interdicție de indexare a imaginilor site-ului dvs. Am uitat mai întâi să vă atragă atenția asupra acestui lucru, dar mi-a fost amintit de dragul Alex.
Complet este de acord cu el că, dacă imaginile sunt unice și doriți ca vizitatorii să găsească resursele dvs. și să caute imagini de la Yandex și Google, veți șterge cu siguranță această regulă din fișierul dvs., dar, de asemenea, nu uitați să vă prescrieți toate atributele Alt și titlul în eticheta IMG.
La crearea unui magazin online pentru Joomla pe baza componentei VirtueMart, am întâmpinat faptul că indicele motorului de căutare au început să obțină versiuni pentru imprimarea paginilor acestui magazin. Butonul care a condus la pagina de imprimare a fost necesar (clientul a dorit atât de mult), astfel încât doar opțiunea cu interdicția lor în robots.txt a rămas.
Dar totul sa dovedit a fi deloc dificil. Faptul este că, pentru a crea o versiune pentru imprimarea în Jumle, site-ul web este folosit pe aceeași pagină Web Ulla, cu excepția unuia: apelul nu merge la index.php, ci la index2.php. Acest lucru nu încarcă șablonul, adică Numai conținutul este afișat pe întregul ecran.
Prin urmare, să interzică versiunile pentru tipărirea în Virtuemart, am adăugat la următoarea regulă:
Nu permiteți: /index2.php?page\u003dShop.
Nu voi da un exemplu de dosar pe care dezvoltatorii le recomandă. Puteți vedea singur. Mulți bloggeri nu limitează roboții de yandex și Google în plimbările lor pe conținutul motorului WordPress. Cel mai adesea în bloguri, puteți găsi roboți, completați automat cu pluginul Google XML Sitemaps.
Dar, în opinia mea, ar trebui să fie ajutat de găsirea în cazul dificil de a cusui boabele din provocare. În primul rând, indexarea acestui gunoi va lăsa mult timp la boots of Yandex și Google și poate că nu este deloc pentru a adăuga webcase la indexul cu noile dvs. articole. În al doilea rând, bots, fișierele transversale ale motorului dus, vor crea o sarcină suplimentară pe serverul gazdei dvs., care nu este bun.
Prin urmare, aici îmi voi da propria opțiune, dar puteți decide deja, utilizați-l în acest formular sau pentru a vă adapta nevoilor dvs .:
Agent de utilizator: * Nu permiteți: /wp-login.php dezactivează: /wp-register.php dezactivează: / webStat / dezactivați: / feed / dezactivare: / tag / disallow: / trackback dezactivează: * / trackback dezactivați: * / feed Nu permiteți: * / Comentarii dezactivează: / *? * Nu permiteți: / *? Nu permiteți: / WP-Content / Plugins dezactivează: / WP-Conținut / dezvăluie: / WP-include / dezactivează: / comentarii utilizator-agent: Yandex dezactivează: /wp-login.php dezactivați: / wp-register.php dezactivați: / WebStat / Distinge: / Feed / Distinge: / Tag / Distinge: / Trackback Distinge: * / Trackback Nu permite: * / Feed Dislow: * / Comentarii Nu permite: / *? * Nu permite: / *? .Com / sitemap.xml ( 4 Voce (a) ca rezultat: 5,00 din 5)
Instrucțiuni detaliate despre cum să creați un fișier robots.txt pentru site. Robots.txt este unul dintre cele mai necesare aspecte ale optimizării complete a motorului de căutare. Observând termenii utilizării competente a acestui fișier, puteți obține un anumit efect pozitiv pe site. Este posibil să specificați o varietate de instrucțiuni pentru majoritatea PS. Ceea ce indică restricțiile sau permisiunile de căutare necesare pentru scanarea paginilor, directoarelor sau partițiilor site-ului.
Robots.txt - are anumite standarde de excepție pentru agenții de căutare (Bots), care a fost adoptată în ianuarie 1944. Regulile acestui dosar urmează în mod voluntar cele mai comune PS. Fișierul poate consta în una sau mai multe reguli, fiecare blochează sau permite accesul robotului de căutare la anumite căi de pe site.
În mod implicit, acest fișier nu este pe site - ceea ce oferă tuturor permisiunea Full pentru a indexa conținutul site-ului. Această permisiune poate duce la indexul motoarelor de căutare ale paginilor tehnice importante ale site-ului, care nu ar trebui să fie acolo.
Robots.txt este cel mai mare factor de optimizare a motorului de căutare. Datorită setului corect de reguli prescrise pentru boturile de căutare, puteți obține o anumită creștere a clasamentului site-ului în căutare. Ce oferă astfel de instrucțiuni:
Pentru cele mai multe site-uri, astfel de restricții privind indexarea sunt pur și simplu necesare pentru o mică bandă completă. Cu toate acestea, anumite directive trebuie adăugate la fiecare site. De exemplu, interdicțiile de indexare:
Dificultăți atunci când creați un fișier robots.txt nu pot avea nici măcar începători. Este suficient să urmați o anumită secvență de acțiuni:
Trebuie să utilizați un editor de text obișnuit (Notepad ca alternativă). Creați un format de document .Txt și roboții de nume. Apoi salvați și transferați acest document utilizând clientul FTP din directorul rădăcină al site-ului. Acestea sunt principalele acțiuni care trebuie executate.
Această metodă este cea mai ușoară și mai rapidă, potrivită pentru cei care se tem să creeze robots.txt sau pur și simplu leneș. Serviciile care oferă crearea acestui fișier sunt un set imens. Dar merită să luați în considerare unele nuanțe cu privire la această metodă. De exemplu:
La fel, este mai bine să petreceți timp și efort pentru a crea un robot de utilizator corect. Astfel, este posibil să se recreeze o structură evidentă de interdicții și permisiuni ale site-ului corespunzător.
După crearea cu succes de Robots.txt, poate fi editată calm și schimbarea după cum doriți. Acest lucru ar trebui să țină seama de anumite reguli și o sintaxă competentă. După ceva timp, veți schimba în mod repetat acest fișier. Dar nu uitați, după modificarea lucrărilor, va trebui să încărcați acest fișier pe site. Astfel, actualizarea conținutului său pentru roboții de căutare.
Scrie Robots.txt este foarte simplu, motivul pentru aceasta este o structură destul de simplă de design a acestui fișier. Principalul lucru la scrierea regulilor, utilizați sintaxa strict definită. Aceste reguli vor urma în mod voluntar, aproape toate PS majore. Iată o listă a unor reguli, pentru a evita cele mai multe erori în fișierul robots.txt:
Pentru a obține un rezultat pozitiv atunci când utilizați roboți, trebuie să îl configurați corect. Toate comenzile majore ale acestui fișier cu instrucțiuni sunt urmate de cele mai ambițioase motoare de căutare Google și Yandex. Restul PS poate ignora unele instrucțiuni. Cum să faci robots.txt cele mai receptive motoare de căutare majoritate? Aici este necesar să se înțeleagă regulile de bază pentru lucrul cu acest fișier menționat mai sus.
Luați în considerare principalele echipe:
Agent utilizator: *- Instrucțiunile se vor referi absolut la toate boturile PS. De asemenea, este posibilă specificarea anumitor motoare de căutare separat, de exemplu: Agent utilizator: GoogleBot și agent de utilizator: Yandexbot. Astfel, regulile pentru PS importante sunt desemnate corect.
Nu permiteți:- interzice pe deplin ocolire și indexare (pagini, director sau fișiere).
Permite:- Permise complet de ocolire și indexare (pagini, director sau fișiere).
Clean-Param:- Necesitatea de a elimina paginile site-ului cu conținut dinamic. Datorită acestei reguli, puteți scăpa de conținutul duplicat de pe site.
Întârzierea cu crawlere:- regula indică intervalul de timp al potarilor pentru a descărca documentele de pe site. Vă permite să reduceți semnificativ sarcina de pe server. De exemplu: "Întârzierea cu crawlere: 5" - va spune P-Robus că descărcarea documentelor de pe site este posibilă nu mai des decât o dată la 5 secunde.
Gazdă: Your_Sait.ru.- Responsabil pentru oglinda principală a site-ului. În prezenta directivă, trebuie să înregistrați versiunea prioritară a site-ului.
Sitemap: http: //vash_site.ru/sitemap.xml- Cum ați putea ghici această directivă sugerează un P-Bot despre disponibilitatea site-ului pe site.
# - Vă permite să lăsați comentarii. Puteți să comentați, numai după semnul zăbrească. Puteți să o plasați atât în \u200b\u200bnoua linie, cât și în continuarea directivei. Toate aceste opțiuni vor fi ignorate de Bots când trece manualul.
Pentru a copia instrucțiunile, trebuie să faceți clic pe butonul cu promptul.
Agent utilizator: *
Permiteți: / WP-Content / Încărcări /
Nu permiteți: /wp-login.php.
Nu permiteți: /wp-register.php.
Nu permiteți: /xmlrpc.php.
Distingeți: /template.html.
Dezactivați: / WP-admin
Nu permiteți: / WP-include
Dezactivați: / wp-content
Nu permiteți: / Categorie
Nu permiteți: / Arhiva
Dezactivați: * / trackback /
Nu permiteți: * / Feed /
Nu permiteți: * / Comentarii /
Nu permiteți: /? Feed \u003d
Gazdă: site.ru.
»
Agent utilizator: *
Nu permiteți: captcha.php.
Nu permiteți: descărcare_file.php.
Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.
Agent utilizator: *
Nu permiteți: / Administrator /
Nu permiteți: / Cache /
Nu permiteți: / Componente /
Nu permiteți: / Imagini /
Nu permiteți: / Include /
Dezactivați: / Instalare /
Dezactivați: / Limba /
Nu permiteți: / Biblioteci /
Nu permiteți: / Media /
Nu permiteți: / Module /
Nu permiteți: / Plugin-uri /
Nu permiteți: / Șabloane /
Nu permiteți: / XMLRPC /
Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.
Agent utilizator: *
Nu permiteți: / Administrator /
Nu permiteți: / Cache /
Nu permiteți: / Include /
Dezactivați: / Instalare /
Dezactivați: / Limba /
Nu permiteți: / Biblioteci /
Nu permiteți: / Media /
Nu permiteți: / Module /
Nu permiteți: / Plugin-uri /
Nu permiteți: / Șabloane /
Nu permiteți: / XMLRPC /
Agent utilizator: *
Nu permiteți: / Active / Cache /
Nu permiteți: / Active / Docs /
Nu permiteți: / Active / Export /
Nu permiteți: / Active / Import /
Nu permiteți: / Active / Module /
Nu permiteți: / active / plugin-uri /
Nu permiteți: / Active / Fragmente /
Dezactivați: / Instalați /
Dezactivați: / manager /
Nu permiteți: /index.php.
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML
Agent utilizator: *
Dezactivați: / Instalați /
Nu permiteți: / link-uri /
Nu permiteți: / Netcat /
Dezactivați: / netcat_files /
Nu permiteți: /*.swf.
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML
Agent utilizator: *
Nu permiteți: / Active / Cache /
Nu permiteți: / Active / Docs /
Nu permiteți: / Active / Export /
Nu permiteți: / Active / Import /
Nu permiteți: / Active / Module /
Nu permiteți: / active / plugin-uri /
Nu permiteți: / Active / Fragmente /
Dezactivați: / Instalați /
Dezactivați: / manager /
Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xml.
Agent utilizator: *
Dezactivați: / * rute \u003d cont /
Nu permiteți: / * rută \u003d afiliate /
Nu permiteți: / * Route \u003d Checkout /
Nu permiteți: / * Route \u003d Produs / Căutare
Nu permiteți: /index.php?Route\u003dproduc/product*&manufacturer_id\u003d.
Dezactivați: / admin
Nu permiteți: / Catalog
Nu permiteți: / Descărcați
Dezactivați: / Export
Nu permiteți: / sistem
Nu permiteți: / *? Sortare \u003d
Nu permiteți: / * & Sort \u003d
Nu permiteți: / *? Comandă \u003d
Nu permiteți: / * & Comandă \u003d
Nu permiteți: / *? Limita \u003d
Nu permiteți: / * & Limit \u003d
Nu permiteți: / *? Filter_name \u003d
Dezactivați: / * & filter_name \u003d
Nu permiteți: / *? Filter_sub_category \u003d
Nu permiteți: / * & Filter_Sub_Category \u003d
Nu permiteți: / *? Filter_description \u003d
Dezactivați: / * & filtru_description \u003d
Nu permiteți: / *?
Nu permiteți: / * & Urmărire \u003d
Nu permiteți: / *? Pagina \u003d
Nu permiteți: / * & pagina \u003d
Dezactivați: / Listă de dorințe
Nu permiteți: / Conectați-vă
Nu permiteți: /index.php?route\u003dproduct/manufacturer.
Nu permiteți: /index.php?route\u003dproduct/compare.
Nu permiteți: /index.php?route\u003dproduct/category.
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Agent utilizator: *
Nu permiteți: / Emarket / Addtocompare
Dezactivați: / eminket / coș
Nu permiteți: /go_out.php.
Nu permiteți: / Imagini
Nu permiteți: / Imagini / Lizing
Dezactivați: / Imagini / NTC
Nu permiteți: / fișiere
Dezactivați: / Utilizatori
Dezactivați: / admin
Disalow: / căutare
Dezactivați: / install-temp
Dezactivați: / install-static
Dezactivați: / install-libs
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML
Agent utilizator: *
Dezactivați: / admin
Interzice: / _admin /
Nu permiteți: / Membri
Disalow: / căutare
Nu permiteți: / Abonați-vă
Dezactivați: / Utilizatori
Nu permiteți: / * Offset \u003d 0
Dezactivați: / * forum_ext \u003d
Nu permiteți: / * _ Print_version \u003d
Nu permiteți: / * acțiune \u003d export_rss
Dezactivați: / * acțiune \u003d căutare
Dezactivați: / * acțiune \u003d view_posts
Nu permiteți: / * Display_form \u003d
Gazdă: site.ru.
Sitemap: http://site.ru/sitemap.xm.
Agent utilizator: *
Dezactivați: /*index.php$.
Nu permiteți: / Bitrix /
Nu permiteți: /
Nu permiteți: /
Nu permiteți: / Încărcați /
Disalow: / Căutare /
Nu permiteți: / * / Căutare /
Nu permiteți: / * / slide_show /
Nu permiteți: / * / Galerie / * Comandă \u003d *
Nu permiteți: / *? Imprimare \u003d
Nu permiteți: / * & Print \u003d
Nu permiteți: / * Înregistrare \u003d
Dezactivați: / * uitat_password \u003d
Dezactivați: / * schimbare_password \u003d
Dezactivați: / * Login \u003d
Dezactivați: / * logout \u003d
Nu permiteți: / * Auth \u003d
Nu permiteți: / *? Acțiune \u003d
Nu permiteți: / * acțiune \u003d add_to_compare_list
Nu permiteți: / * acțiune \u003d delete_from_compare_list
Nu permiteți: / * acțiune \u003d add2basket
Nu permiteți: / * acțiune \u003d cumpăra
Nu permiteți: / * Bitrix _ * \u003d
Nu permiteți: / * backurl \u003d *
Nu permiteți: / * backurl \u003d *
Nu permiteți: / * back_url \u003d *
Nu permiteți: / * back_url \u003d *
Nu permiteți: / * back_url_admin \u003d *
Dezactivați: / * imprimare_course \u003d y
Dezactivați: / * curse_id \u003d
Interzice: / *? Curs_id \u003d
Interzice: / *? Pagen
Nu permiteți: / * Pagen_1 \u003d
Nu permiteți: / * Pagen_2 \u003d
Dezactivați: / * Pagen_3 \u003d
Nu permiteți: / * Pagen_4 \u003d
Nu permiteți: / * Pagen_5 \u003d
Nu permiteți: / * Pagen_6 \u003d
Nu permiteți: / * Pagen_7 \u003d
Dezactivați: / * pagina_name \u003d căutare
Nu permiteți: / * pagina_name \u003d user_post
Nu permiteți: / * pagina_name \u003d detaliu_slide_show
Nu permiteți: / * Afișați
Dezactivați: / * show_all \u003d
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML
Agent utilizator: *
Nu permiteți: / Baza de date /
Nu permiteți: / Include /
Nu permiteți: / Misc /
Nu permiteți: / Module /
Nu permiteți: / site-uri /
Nu permiteți: / Teme /
Dezactivați: / scripturi /
Nu permiteți: / Actualizări /
Nu permiteți: / Profiluri /
Dezactivați: / profil
Nu permiteți: / Profil / *
Nu permiteți: /xmlrpc.php.
Nu permiteți: /Cron.php.
Nu permiteți: /Update.php.
Nu permiteți: /Install.php.
Nu permiteți: /index.php.
Dezactivați: / admin /
Nu permiteți: / Comentariu / Răspuns /
Dezactivați: / contact /
Dezactivați: / logout /
Disalow: / Căutare /
Nu permiteți: / utilizator / înregistrare /
Nu permiteți: / Utilizator / Parolă /
Nu permiteți: * Înregistrați-vă *
Dezactivați: * Login *
Nu permiteți: / sus-
Dezactivați: / mesaje /
Nu permiteți: / Book / Export /
Dezactivați: / user2UserPoints /
Nu permiteți: / MyUserPoints /
Nu permiteți: / Cadadelice /
Nu permiteți: / sesizare /
Nu permiteți: / Agregregator /
Nu permiteți: / Fișiere / PIN /
Dezactivați: / voturile dvs.
Nu permiteți: / Comentarii / Recent
Interzice: / * / editare /
Nu permiteți: / * / Ștergere /
Nu permiteți: / * / Export / HTML /
Nu permiteți: / Taxonomie / Term / * $
Nu permiteți: / * / Editați $
Dezactivați: / * / contur $
Nu permiteți: / * / revizii $
Nu permiteți: / * / Contactați $
Nu permiteți: / * downloadPipe
Dezactivați: / nod $
Nu permiteți: / Nod / * / Track $
Nu permiteți: / *? Pagina \u003d 0
Dezactivați: / * secțiunea
Nu permiteți: / * Comandă
Nu permiteți: / *? Sortare *
Nu permiteți: / * & Sortare *
Nu permiteți: / * VotatUndown
Nu permiteți: / * Calendar
Nu permiteți: / indictex.php.
Host: Vash_Sait.ru (sau www.vash_sait.ru)
Sitemap: http: // calea spre harta formatiei XML
Așa cum nu este ciudat să verificați acest fișier, sunt necesare numai Webmasteri Google sau Yandex. Care, la rândul său, facilitează în mare măsură căutarea erorilor.
Google Webmaster. - Selectați "Scanare" din meniul din stânga și apoi fila "Robots.txt File de verificare a fișierelor". Apoi, la linia de jos, ferestrele apărute adăugați numele fișierului. Apoi faceți clic pe "Verificați" și consultați modul în care robotul dvs. este vede un bot Google.
Webmaster Yandex. - În meniul din stânga, selectați analiza "Tools" și "Robots.txt". După aceea, în fereastra care apare, faceți clic pe butonul "Verificați".
Este demn de remarcat faptul că validatorii online pentru verificarea acestui fișier foarte mult. Am vorbit despre cele mai accesibile, care sunt întotdeauna la îndemână.
Scrieți un robot perfect pentru toate site-urile este imposibil. Motivul pentru aceasta este siturile în sine, dintre care unele sunt făcute manual, în timp ce altele sunt situate pe diverse CMS. Absolut toate site-urile au o structură diferită de director și alte lucruri. Prin urmare, fiecare webmaster este pur și simplu obligat să creeze un set unic de reguli pentru P-Bots. Un astfel de fișier va fi responsabil pentru prioritățile dvs. și nu va permite căutarea unor informații confidențiale. Datorită acestui lucru, indicele va fi un conținut de înaltă calitate fără exces de gunoi.
Bună, astăzi vă vom spune cum să creați roboții potriviți TXT și de ce este, în general, este necesar.
Conţinut:Într-unul din articolele noastre din trecut, am spus, de asemenea, cum funcționează roboții de căutare. Fișierul TXT Robots oferă instrucțiuni pentru a căuta roboți, cum să indexați corect site-ul dvs. Cu ajutorul directivelor, puteți specifica, de exemplu, robotul pe care paginile sau directoarele ar trebui să fie indexate și care nu sunt, pentru a forma un grup de oglinzi pentru site-ul dvs. (dacă aveți), specificați calea către sitemap fișier și așa mai departe. Este folosit în principal pentru a interzice indexarea anumitor pagini ale site-ului.
În orice editor de text, creați un fișier numit roboți txt. Apoi, folosind directivele descrise mai jos, specificați robotul de pe paginile site-ului pe care trebuie să-l adăugați sau, dimpotrivă, să eliminați din rezultatele căutării. După ce ați creat un fișier, verificați-l pentru erori utilizând Webmaster Yandex sau Consola de Căutare Google.
Puneți fișierul finit în directorul rădăcină al site-ului dvs. (unde se află fișierul index.html).
Acesta este un fel de salut al roboților de căutare.
Șirul "utilizator-agent: *" va spune că toate roboții de căutare pot utiliza instrucțiunile conținute în acest fișier. Și, de exemplu, șirul "utilizator-agent: Yandex" va da instrucțiuni numai pentru robotul de căutare Yandex. Exemple de utilizare sunt enumerate mai jos. De asemenea, motoarele de căutare au roboți auxiliari pentru diferite categorii. De exemplu, Yandexnews și GoogleBot-News sunt roboți pentru a lucra cu știri.
Cu directiva privind interzicerea, specificați care directoare de pagină sau de site este interzisă indexarea. Și cu ajutorul directivei permit, puteți.
Exemple:O astfel de înregistrare va informa toate roboții de căutare care din întregul site pot fi indexate numai de către directorul de catalog.
Apropo, simbolul # este conceput pentru a descrie comentariile. Tot ceea ce este după acest simbol nu este luat în considerare până la sfârșit.
Dar exemplu roboți txt.cu instrucțiunile individuale pentru diferite motoare de căutare:
# Permite robotului să indice întregul site, cu excepția secțiunii bicicletelor
Agent utilizator: *
Nu permiteți: / biciclete /
# interzice indicele robotului site-ului, cu excepția secțiunii cu bărci
Agent de utilizator: GoogleBot
Permiteți: / bărci /
Nu permiteți:
# interzice toate celelalte motoare de căutare pentru a indexa site-ul
Agent utilizator: *
Nu permiteți:
Notă Că între direcțiile agentului de utilizator, permiteți și dezactivați nu pot fi linii goale!
În Permiteți și dezactivați directivele, puteți utiliza SpecialImillers * și $ pentru a seta expresii regulate. * - Selectează secvența specificată
De exemplu: # interzice roboții pentru a indexa toate paginile a căror adresă URL conține privatÎn mod implicit, la sfârșitul fiecărei reguli, este necesar să se înregistreze un specialist *. Și pentru a anula * La sfârșitul regulii, se utilizează simbolul $.
De exemplu: # interzice "/ blocare"Scopul special $ nu interzice specificația * la final, adică:
Agent utilizator: *Dacă utilizați harta site-ului Sitemap, utilizați directiva Sitemap și specificați calea către unul (sau mai multe fișiere).
Agent utilizator: *Dacă site-ul dvs. are oglinzi, apoi cu această directivă, un robot special va forma un grup de oglinzi ale site-ului dvs. și numai oglinda principală va adăuga la căutare. Prezenta directivă nu garantează alegerea site-ului specificat în IT ca principală oglindă, dar îi conferă o prioritate ridicată atunci când se decide.
Exemplu:# Indicați oglinda principală a site-ului
Agent utilizator: YandexNotă. Prezenta directivă este utilizată exclusiv pentru yandex! + Pentru fiecare fișier robots.txt, este procesată o singură directivă gazdă.Dacă în fișier sunt specificate mai multe directive, robotul utilizează primul.
Directiva privind gazda trebuie să conțină:
Nu, este imposibil să folosiți chirilicul. Pentru a specifica numele de domenii pe chirilice, utilizați, de exemplu, acest serviciu.
Mogutacms umple robots.txt nu este necesar, pentru că Se completează automat când motorul este instalat.
Acum știți cum să setați roboții potriviți TXT, precum și să știți cum să utilizați diverse directive pentru gestionarea indexării site-ului dvs. și dacă aveți întrebări la stânga, ne pregătim să le răspundem într-o discuție specială în VC sau în comentariile de mai jos. La noi întâlniri!