Kaj počne iz tehničnih razlogov. Kaj pomeni

Kaj počne iz tehničnih razlogov. Kaj pomeni "neuspešni poskus predstavitve" ("ruski post")? Kaj je ta operacija? Status FSUE "Mail of Rusije". Oglejte si, kaj je "tehnično" v drugih slovarjih

Datoteka Robots.txt je ena najpomembnejših pri optimizaciji katerega koli spletnega mesta. Njegova odsotnost lahko privede do visoke obremenitve na spletnem mestu iz iskalnih robotov in počasnega indeksiranja in se ponovno vzpostavlja, in napačno nastavitev dejstva, da bo spletna stran popolnoma izginila iz iskanja ali preprosto ne bo indeksirana. Zato se ne bo iskal Yandex, Google in drugih iskalnikov. Poslušajmo v vseh odtenkih pravilne konfiguracije Robots.txt.

Za začetek kratkega videoposnetka, ki bo ustvaril splošno idejo o tem, kaj je datoteka robots.txt.

Kako Robots.txt vpliva na indeksacijo mesta

Iskalni roboti bodo indeksirali vaše spletno mesto, ne glede na razpoložljivost datoteke Robots.txt. Če taka datoteka obstaja, se roboti lahko vodijo s pravili, ki so predpisane v tej datoteki. Hkrati pa lahko nekateri roboti ignorirajo ta ali druga pravila, nekatera pravila pa so lahko določene le za nekatere robote. Zlasti GoogleBot ne uporablja direktive o gostitelju in zakasnitvi gostitelja, YandexNews pa je pred kratkim začel prezreti Direktivo o zamudi, YandexDirect in YandexVideoparser pa ignorirati bolj splošne direktive v robotih (vendar jih vodijo tiste, ki so posebej določene za njih).

Več o izjemah:
Izjeme Yandex.
Standardne izjeme za robote (Wikipedija)

Največja obremenitev na mestu ustvarja robote, ki prenesejo vsebino s svojega spletnega mesta. Zato, kar kaže, da je indeksiranje in kaj prezreti, kot tudi s katerimi časovnimi intervali, ki jih želite prenesti, lahko na eni strani znatno zmanjšate obremenitev na mestu iz robotov, in na drugi strani, hitrost Postopek prenosa, ki prepoveduje obvoznico nepotrebnih strani.

Takšne nepotrebne strani vključujejo skripte Ajax, JSON, ki je odgovoren za pojavna okna, transparenti, zaključek omejevanja itd., Obrazec za naročilo in košaro z vsemi koraki nakupa, iskalni funkcionalni, osebni račun, admin.

Za večino robotov je zaželeno, da onemogočite indeksacijo vseh JS in CSS. Ampak za GoogleBot in Yandex takšne datoteke je treba pustiti za indeksiranje, saj jih uporabljajo iskalniki, da analizirajo udobje spletnega mesta in njegovo uvrstitev (Google dokaz, Pruf Yandex).

Direktivi Robots.txt.

Direktive so pravila za robote. Obstaja specifikacija W3C od 30. januarja 1994 in naprednega standarda leta 1996. Vendar pa vsi iskalniki in roboti podpirajo nekatere direktive. V zvezi s tem, ne bo bolj koristno za nas, vendar glavne roboti vodijo tiste ali druge direktive.

Razmislimo o tem.

Uporabniški agent.

To je glavna direktiva, ki določa, za katere roboti bodo sledili pravilom.

Za vse robote:
Uporabniški agent: *

Za določen bot:
Uporabniški agent: GoogleBot

Upoštevajte, da register simbolov ni pomemben v Robots.txt. Ti. Uporabniški agent za Google lahko napisal z istim uspehom s slanim načinom:
Uporabniški agent: GoogleBot

Spodaj je tabela osnovnih uporabniških agentov različnih iskalnikov.

Bot. Funkcija
Google.
GoogleBot. robot za glavno indeksiranje Google
GoogleBot-Novice. Google News.
GoogleBot-image. Google Slika
GoogleBot-Video. video.
MediaPartners-Google.
MediaPortners. Google AdSense, Google Mobile Adsense
Adsbot-google. preverite kakovost ciljne strani
ADSBOT-Google-Mobile-Apps Google Robot za aplikacije
Yandex.
Yandexbot. robotski Yandex indeksiranje
Yandeximages. Yandex.martinki.
YandexVideo. Yandex.videos.
Yandexmedia. multimedijski podatki
Yandexblogs. blog iskanje robot.
Yandexaddurl. robot, ki dostopa do strani, ko ga dodamo skozi obliko »Add URL«
Yandexfavicons. robot, indeksiranje piktogramov mest (favicons)
Yandexdirect. Yandex.direct.
Yandexmetrika. Yandex.metica.
Yandexcatalog. Yandex.catalog.
YandexNews. Yandex.news.
Yandeximagerizer. mobilni robot
Bing.
Bingbot. robotski robot indeksiranje
Yahoo!
Slurp. glavni robot indeksiranje Yahoo!
Mail.ru.
Mail.ru. glavni indeksiranje robot mail.ru
Rambler.
Stackrambler. Prej glavni robotski robotski robot. Vendar pa od 06/23/11 Rambler preneha podpirati svoj iskalnik in zdaj uporablja tehnologijo Yandex na svojih storitvah. Več ni pomembno.

Onemogočiti in dovoliti

Obnova zapre indeksiranje strani in odseke strani.
Pustite, da se prisilno odpre indeksiranje strani in oddelkov spletnega mesta.

Ampak tukaj ni tako preprosta.

Najprej morate poznati dodatne operaterje in razumeti, kako se uporabljajo, *, $ in #.

* - To je poljubno število znakov, vključno z njihovo odsotnostjo. Ob istem času, na koncu vrstice, zvezda ni mogoče nastaviti, se razume, da se nahaja tam privzeto.
$ - kaže, da mora biti simbol pred njim zadnji.
# - Komentar, vse, kar po tem simbolu v robotu vrstice ne upošteva.

Primeri uporabe:

Onemogoči: *? S \u003d
Obnova: / Kategorija / $

Drugič, morate razumeti, kako se ugnezdena pravila izvajajo.
Ne pozabite, da postopek za beleženje direktiv ni pomemben. Pravila dediščine, ki so odprta ali blizu indeksiranja, se določijo s katerimi so navedeni imeniki. Na primer bomo analizirali.

Dovoli: * .css
Obnovajte: / Predloga /

http://site.ru/template/ - zaprto iz indeksiranja
http://site.ru/template/style.css - zaprto iz indeksiranja
http://site.ru/style.css - odprta za indeksiranje
http://site.ru/theme/style.css - odprta za indeksiranje

Če potrebujete vse datoteke. CSS so odprte za indeksiranje, se boste morali dodatno registrirati za vsako od zaprtih map. V našem primeru:

Dovoli: * .css
Dovoli: / WebsitePlate.com.csss
Obnovajte: / Predloga /

Ponavljam, da naročilo direktiv ni pomembno.

Zemljevid strani

Direktiva za določitev poti do spletnega mesta XML datoteke. URL je predpisan na enak način kot v naslovni vrstici.

Na primer,

Sitemap: http://site.ru/sitemap.xml.

Direktiva Sitemap je določena kjerkoli v datoteki Robots.txt brez sklicevanja na določeno uporabniško sredstvo. Določite lahko več pravil o kazalniku.

Gostitelj.

Direktiva, ki označuje glavno ogledalo spletnega mesta (v večini primerov: z www ali brez www). Upoštevajte, da je glavno ogledalo označeno brez http: //, vendar iz HTTPS: //. Prav tako je po potrebi navedeno pristanišče.
Direktivo podpirajo le roboti Yandex in Mail.ru. Drugi roboti, zlasti Googlebot, ekipa ne bo upoštevana. Gostitelj je predpisan samo enkrat!

Primer 1:
Host: Site.ru.

Primer 2:
Gostitelj: https://site.ru.

Crawl-Delay.

Direktiva, da se določi časovni interval med prenosom robota na spletnih straneh. Podprti z roboti Yandex, Mail.ru, Bing, Yahoo. Vrednost se lahko namesti v celoglasno ali frakcijskih enotah (ločilo - točka), čas v nekaj sekundah.

Primer 1:
Zakasnitev pajka: 3

Primer 2:
Zakasnitev pajkanja: 0,5

Če ima spletno mesto majhno obremenitev, potem ni treba nastaviti takega pravila. Če pa indeksiranje robota strani vodi do dejstva, da spletno mesto presega omejitve ali pa doživlja pomembne obremenitve do prekinitev delovanja strežnika, potem bo ta direktiva pomagala zmanjšati obremenitev.

Večja je vrednost, manjša page robota, ki jih bodo prenesli na eni seji. Optimalna vrednost se določi posamično za vsako mesto. Bolje je začeti z ne zelo velikimi vrednotami - 0,1, 0,2, 0,5 - in jih postopoma povečati. Za robote iskalnikov z manj pomembno za promocijske rezultate, kot so Mail.Ru, Bing in Yahoo, je mogoče sprva nastavite velike vrednosti kot za Yandex robote.

Čisto param

To pravilo poroča s pajkanjem, da URL-ji z \u200b\u200bdoločenimi parametri ni treba indeksirati. Za pravilo sta določena dva argumenta: parameter in URL oddelka. Direktivo podpira Yandex.

Clean-Param: avtor_id http://site.ru/articles/

Clean-Param: avtor_id & sid http://site.ru/articles/

CLEAN-PARAM: UTM_SOURCE & UTM_MEDIUM & UTM_CAMPIGN

Drugi parametri

V specifikaciji Robots.txt lahko najdete še eno možnosti za zahtevo in obisk. Vendar pa trenutno niso podprti vodilni iskalniki.

Pomen direktiv:
Zahteva: 1/5 - Prenos ne več kot eno stran v petih sekundah
Obisk-Time: 0600-0845 - Nalaganje strani samo v intervalu od 6.00 do 8:45 am Grinvich.

Zapiranje robots.txt.

Če morate konfigurirati svoje spletno mesto, ki ga želite indeksirati z iskalnimi roboti, potem morate registrirati naslednje direktive:

Uporabniški agent: *
Obnova: /

Preverite, ali so te direktive predpisane na preskusnih mestih vašega spletnega mesta.

Pravilna konfiguracija Robots.txt.

Za države Rusije in CIS, kjer je delež Yandex opazen, je treba direktive za vse robote predpisati in ločeno za Yandex in Google.

Za pravilno konfiguriranje robots.txt uporabite naslednji algoritem:

  1. Blizu indeksiranja administracije spletnega mesta
  2. Zapri iz indeksiranja osebnega računa, avtorizacije, registracije
  3. Zapri iz košarice za indeksiranje, naročilnico, podatke o dobavi in \u200b\u200bnaročilih
  4. Zapri iz indeksiranja AJAX, JSON skripte
  5. Zaprite indeksiranje mape CGI
  6. Zapri iz indeksiranja vtičnika, dekor, JS, CSS za vse robote, razen Yandex in Google
  7. Zapri iz funkcionalnosti iskanja indeksiranja
  8. Zaprite oddelkov za indeksiranje, ki ne nosijo nobene vrednosti za spletno mesto v iskanju (napaka 404, seznam avtorjev)
  9. Zapri iz indeksiranja tehničnih strani Dupysas, pa tudi strani, na katerih je vsa vsebina v eni obliki ali drugega podvojena iz drugih strani (koledarji, arhivi, RSS)
  10. Zaprite iz indeksiranja strani s filtri, razvrščanjem, primerjavo
  11. Zaprite iz indeksiranja strani z UTM parametri in sejami
  12. Preverite, ali je Yandex in Google indeksiran z uporabo parametra "Site:" (v iskalni vrstici, tip »Site: Site.RU«). Če iskanje vsebuje strani, ki jih je treba zapreti tudi z indeksiranjem, jih dodajte roboti.txt
  13. Podajte kazalo in gostitelja
  14. Po potrebi napišite zakasnitev pajkanja in čistega paramera
  15. Preverite pravilnost robots.txt prek orodja Google in Yandex (opisano spodaj)
  16. Po 2 tednih ponovite, ali so se nove strani pojavile v rezultatih iskanja, ki jih ne bi smeli indeksirati. Po potrebi ponovite zgornje korake zgoraj.

Primer robots.txt.

Primer robots.txt datoteke za konfiguriranje hipotetičnega spletnega mesta https://site.ru uporabnik-agent: * onemogoči: / admin / onemogočiti: / plugins / onemogočiti: / iskanje / onemogočiti: / košarica / onemogočiti: * /? S \u003d onemogočiti : * Razvrščanje \u003d onemogočiti: * Pogled \u003d onemogočiti: * UTM \u003d zakasnitev pajkanja: 5 UTM-Agent: GoogleBot: / admin / onemogočiti: / plugins / onemogočiti: / iskanje / onemogočiti: / košarica / onemogočiti: * /? S \u003d Obnova: * Razvrsti \u003d Obnova: * View \u003d Onemogoči: * UTM \u003d Dovoli: /Plugins/2.JS Dovoli: /Plugins/*.png Dovoli: /Plugins/*.jpg Dovoli: /Plugins.com Agent: Yandex onemogoči: / admin / onemogočiti: / plugins / onemogočiti: / iskanje / onemogočiti: / košarico / onemogočiti: * /? S \u003d onemogočiti: * Razvrsti \u003d onemogočiti: * View \u003d Dovoli: / Plugins / * JS Dovoli: / Plugins / . Sitemap.xml Host: https://site.ru

Kako dodati in kje je robots.txt

Ko ste ustvarili datoteko robots.txt, jo je treba namestiti na vašo spletno stran na spletnem mestu.ru/robots.txt - i.e. V korenskem imeniku. Robot iskanja se vedno nanaša na datoteko na URL /ROBOTS.TXT

Kako preveriti robots.txt

Robots.txt Check se izvede na naslednjih povezavah:

  • V Yandex.Vebmaster - na kartici Orodja\u003e Robots.txt analiza
  • V Google Search Console. - na kartici Scan\u003e Robots.txt orodje za preverjanje datotek

Tipične napake v Robots.txt

Na koncu članka bom dal nekaj tipičnih napak datoteke robots.txt

  • robots.txt je odsoten
  • robots.txt stran je zaprta iz indeksiranja (onemogoči: /)
  • obstajajo samo najbolj osnovne direktive v datoteki, ni podrobna študija spisa.
  • datoteka ni zaprta od indeksiranja strani z oznakami UTM in identifikatorjev sej
  • v datoteki so navedene samo direktive.
    Dovoli: * .css
    Dovoli: * .js
    Dovoli: * .png
    Dovoli: * .jpg
    Dovoli: * .gif
    V tem primeru, CSS, JS, PNG, JPG, GIF datoteke GIF zaprti z drugimi imenik v številnih imenik.
  • direktiva o gostiteljici je večkrat registrirana
  • gostitelj ni določen protokol HTTPS
  • pot do spletnega mesta je napačna, ali je podan napačen protokol ali ogledalo spletnega mesta.

P.S.

P.S.2. \\ T

Koristen video iz Yandex (Pozor! Nekatera priporočila so primerna samo za Yandex).

Sitemap, zelo poenostavlja indeksacijo vašega spletnega dnevnika. Zemljevid strani mora biti obvezen za vsako spletno mesto in blog. Toda tudi na vsakem spletnem mestu in spletnem dnevniku roboti.tXT.. Datoteka Robots.txt vsebuje niz navodil za iskalne robote. Lahko rečemo - pravila za obnašanje iskalnih robotov na vašem blogu. Tako kot v tej datoteki vsebuje pot do zemljevida spletnega mesta v vašem blogu. In v resnici, s pravilno sestavljeno datoteko robots.txt, iskalni robot ne porabi dragocenega časa na zemljevidu spletnega mesta iskanje in indeksiranje ni potrebnih datotek.

Kaj je datoteka robots.txt?

robots.txt. - To je besedilna datoteka, ki jo lahko ustvarite v običajnem "zvezku", ki se nahaja v korenu vašega spletnega dnevnika, ki vsebuje navodila za iskalne robote.

Ta navodila omejujejo iskalne robote iz naključne indeksacije vseh datotek vašega Boga, in ciljajo na tiste strani, da indeksirajo te strani, ki jih je treba dostopati v izdajanje iskanja.

S to datoteko lahko preprečite indeksiranje datotek motorja WordPress. Ali, recimo, skrivni del vašega spletnega dnevnika. Pot lahko podate na zemljevidu spletnega dnevnika in glavnega ogledala vašega spletnega dnevnika. Tukaj mislim, vaše ime domene z www in brez www.

Indeksacija spletnega mesta z robots.txt in brez

Ta posnetek zaslona je jasno označen, kako datoteka Robots.txt prepoveduje indeksiranje nekaterih map na spletnem mestu. Brez datoteke je na vašem spletnem mestu na voljo robot.

Glavne direktive datoteke Robots.txt

Za obravnavo navodil, ki vsebujejo datoteko Robots.txt, morate obravnavati glavne poveljnike (direktive).

Uporabniški agent. - Ta ukaz označuje dostop do robotov na vašem spletnem mestu. Uporaba te direktive lahko ustvarite navodila individualno za vsakega robota.

Uporabniški agent: Yandex - Pravila za robot Yandex

Uporabniški agent: * - Pravila za vse robote

Onemogočiti in dovoliti. - Prepoved in direktiva o dovoljenju. Z uporabo Direktive o onemogočitvi je indeksiranje prepovedano in je dovoljeno dovoliti.

Primer prepovedi:

Uporabniški agent: *

Onemogoči: / - prepoved celotne strani.

Uporabniški agent: Yandex

Obnovajte: / admin - prepoved robota Yandex na strani, ki ležijo v mapi Admin.

Primer dovoljenja:

Uporabniški agent: *

Dovoli: / fotografijo

Onemogoči: / - Prepoved na vse spletno mesto, razen strani mape fotografije.

Opomba! Nezadevajte Direktiva: Brez parametra omogoča vse, in Dovoli Direktivo: Brez parametra prepoveduje vse. In dovolite, da direktivi brez uporabe ne smejo biti.

Zemljevid strani - Določa pot do zemljevida spletnega mesta v formatu XML.

Sitemap: https: //syt/sitemap.xml.gz

Sitemap: https: //syt/sitemap.xml

Gostitelj. - Direktiva določa glavno ogledalo vašega spletnega dnevnika. Menijo, da je ta direktiva predpisana samo za ROBOTS YANDEX. To direktivo je treba navesti na samem koncu datoteke Robots.txt.

Uporabniški agent: Yandex

Onemogoči: / wp-vključuje

Gostitelj: stran

Opomba! Naslov glavnega ogledala je označen brez opredelitve hipertekstnega prenosa protokola (http: //).

Kako ustvariti robots.txt

Zdaj, ko smo spoznali glavne ukaze datoteke Robots.txt, lahko začnete ustvarjati našo datoteko. Da bi ustvarili lastno datoteko robots.txt s posameznimi nastavitvami, morate vedeti strukturo vašega spletnega dnevnika.

Pogledali bomo oblikovanje standardnih (univerzalnih) robots.txt datoteke za blog na Wordpress. Vedno ga lahko dopolnite z nastavitvami.

Torej, nadaljujte. Potrebujemo običajen "prenosni računalnik", ki je v vsakem operacijskem sistemu Windows. Ali TextEdit v Macosu.

Odprite nov dokument in vstavite te ukaze:

Uporabniški agent: * Opomljava: Sitemap: https: //sitemap.xml.gz Sitemap: https: //sitemap.xml Uporabniški agent: Yandex onemogoči: /wp-login.php Onemogovnost: / WP-Registriraj se. / CGI-BIN onemogočiti: / wp-admin onemogočiti: / wp-vključuje onemogočiti: /xmlrpc.php onemogočiti: / wp-vsebina / plugins onemogočiti: / wp-content / cache onemogočiti: / wp-content / themes -Content / Jeziki Onemogoči: / Kategorija / * / * Omahljanje: / TrackBack Onemogovnost: * / TrackBack Onemogovnost: * / * / TrackBack onemogočiti: / tag / Onemogočiti: / Feed / Opomoč: * / * / Feed / * / Obnovajte: * / Feed Disallow: / * / Feed Disallow: / *? * Opolnolo: /? S \u003d Host: stran

Ne pozabite zamenjati parametrov kazalke in direktive o gostovanju.

POMEMBNO! Pri pisanju ukazov je dovoljen samo en prostor. Med direktivo in parametrom. V nobenem primeru ne delajte presledkov po parametru ali pa, kjer je padel.

Primer: Obnova:<пробел>/ Feed /

Ta primer datoteke robots.txt je univerzalna in je primerna za vsak blog na Wordpress s CNC naslovi URL. O tem, kaj CNC bere. Če niste nastavili CNC, priporočam, da odstranite onemogočanje: / *? * Onemogoči: /? S \u003d iz predlagane datoteke

Nalaganje datoteke robots.txt na strežnik

Najboljši način za tovrstno manipulacijo je FTP povezava. O tem, kako konfigurirati FTP povezavo za TOTOLCOMMANDER. Ali pa lahko uporabite upravitelja datotek na vašem gostovanju.

Uporabljam FTP povezavo totolcommander.

Omrežje\u003e Povežite se s strežnikom FTP.

Izberite želeno povezavo in kliknite gumb Connect.

Odprite root bloga in kopirajte datoteko robots.txt s pritiskom na tipko F5.

Kopiranje robots.txt na strežnik

Zdaj bo datoteka robots.txt pravilno izvedel funkcijo. Ampak še vedno priporočam, da opravite analizo robots.txt, da se prepričate, da ni napak.

Če želite to narediti, se morate prijaviti v omarico Yandexa ali Google Webmaster. Razmislite o primeru Yandexa. Tukaj lahko analizirate tudi brez potrditve pravice do spletnega mesta. Imate dovolj, da imate nabiralnik na Yandexu.

Odprite omarico Yandex.Vaster.

Na glavni strani kabineta Webmaster, odprite povezavo »Preveriroboti.tXT ».

Za analizo boste morali vnesti naslov URL vašega bloga in kliknite » Prenesi roboti.tXT iz spletnega mesta." Ko je datoteka naložena, kliknite gumb "Preverite".

Pomanjkanje opozorilnih evidenc kaže na pravilnost oblikovanja datoteke robots.txt.

Rezultat bo predstavljen. Kjer je jasno in razumeti, kateri materiali lahko prikazujejo iskalne robote in ki so prepovedani.

Rezultat datoteke Robots.txt

Tukaj lahko spremenite robots.txt in eksperimentirajte, dokler ne potrebujete rezultata. Ampak ne pozabite, da se datoteka, ki se nahaja na vašem blogu, ne spremeni. Če želite to narediti, potrebujete rezultat, ki ga dobite, da kopirate v prenosni računalnik, shranite kot robots.txt in kopirajte spletni dnevnik na vas.

Mimogrede, če se sprašujete, kako se datoteka robots.txt izgleda kot na blogu nekoga, jo lahko vidite z lahkoto. Če želite to narediti, morate dodati /boobots.txt na naslov spletnega mesta

https: //syt/robots.txt.

Zdaj je vaš robots.txt pripravljen. In ne pozabite, ne odlašajte ustvarjanja datoteke Robots.txt v dolgem polju, indeksacija vašega spletnega dnevnika bo odvisna od tega.

Če želite ustvariti pravi robots.txt in ob istem času, je prepričan, da samo potrebne strani padejo v indeks iskalnika, to je mogoče storiti in samodejno z uporabo vtičnika.

Vse imam na tem. Želim vam vse uspehe. Če ste vprašanja ali dodatke, napišite pripombe.

Se vidiva kmalu.

S spoštovanjem, Maxim Zaitsev.

Naročite se na nove članke!


Z neodvisno promocijo in promocijo spletnega mesta ne le oblikovanje edinstvene vsebine ali zahtevkov v statistiki Yandexa, temveč je treba ustrezno pozornost nameniti takšnemu kazalniku kot indeksacija virov iskalnika, ker je vse nadaljnji uspeh promocije odvisno je tudi od tega.

Na voljo smo na voljo dve glavni orodji, s katerimi lahko upravljamo ta proces. Prvič, to je, seveda, datoteke robots.txt, ki nam bo pomagala prepovedati indeks, kaj ne vsebuje glavne vsebine (motor in podvojene datoteke) in gre za to, da se bo razpravljal v tem članku, vendar pa poleg tega Obstaja še eno pomembno orodje - Sitemap XML.

Zakaj je tako pomembno, da upravljate indeksacijo spletnega mesta

Zgoraj navedeni instrumenti so zelo pomembni za uspešen razvoj vašega projekta in to ni v vsakem vprašanju VOTOR. V članku o kazalu XML (glej zgornjo povezavo), sem prinesel rezultate zelo pomembne študije v najpogostejših tehničnih napak Webmasters Novice Webmasters, obstaja samo pomanjkanje teh datotek roboti in kazalo, ali njihovo nepravilno pripravo in uporabo.

Potrebno je zelo jasno razumeti, da ni vsebina internetnega projekta (datoteke in imenikov), ki nastanejo na katerem koli motorju, na voljo za robote iskalnikov.

Če ne registrirate določenih pravil za obnašanje v robotse za te robot, se bodo številne strani pade v indeks iskalnikov, ki niso povezani s pomenom vira, kot tudi ponavljajoče se podvajanje vsebin (za različne povezave bo biti na voljo in enaka ali enaka vsebina.), da iskalniki ne marajo.

Dobra rešitev bo prepoved vsega odveč odveč v robots.txt (vsa pisma v naslovu mora biti v malimi črkah - brez velikih črk).

Z njim lahko vplivamo na proces indeksiranja spletnega mesta Yandex in Google. Predstavlja običajna besedilna datoteka, ki jo lahko ustvarite in dodatno uredite v katerem koli urejevalniku besedila (na primer Notepad ++). Iskanje bot bo poiskal to datoteko v korenskem imeniku vašega vira in če ne bo našla, se bo vozil v indeks vse, kako je mogoče doseči.

Zato, po pisanju zahtevanih robotov, ga morate shraniti v korensko mapo, na primer z uporabo datoteke FTP odjemalca, tako da je na voljo, na primer, na tem naslovu:

Https: //syt/robots.txt.

Mimogrede, če želite vedeti, kaj ta datoteka je ta datoteka izgleda v omrežju v omrežju, bo dovolj, da dodajamo konec /roobots.txt pogled na Ullo svojo glavno stran. Lahko je koristno za razumevanje, da bi moral biti v njem.

Vendar pa je treba upoštevati, da bo za različne motorje ta datoteka preučila na različne načine (mape motorja, ki jih je treba indeksirati, se bodo imenovali drugače v različnih CMS). Zato, če se želite odločiti o možnostih najboljše robote, recimo za forum o SMF, potem pa morate študirati samo forume, zgrajene na tem motorjem.

Direktive in robots.txt pravila za pisanje datotek (onemogoči, uporabniški agent, gostitelj)

Roboti nimajo kompleksne sintakse, ki je podrobno opisan, na primer v Yandexu Yandex. Običajno je navedeno, za katero je iskalni bot zasnovan tako, da so naslednje direktive: ime Bot ("uporabniški agent") dovoljeno ("dovoliti") in prepoved ("onemogočiti"), in tudi aktivno uporabljen "kazalo", da označite iskanje Motorji, kjer je točno datoteka zemljevida.

Prav tako je koristno določiti v tej datoteki, katero od ogledal vaše webpower je glavni v posebni direktivi "Host", ki samo Yandex razume. Če vaš vir nima ogledal, bo koristno označiti, katera od možnosti pisanja je glavna stvar - z www ali brez nje. Ker To je tudi nekakšno zrcaljenje. O tem sem podrobno povedal v članku približno 301 preusmeritev za domene z www in brez nje.

Zdaj pa govorimo malo o sintakso te datoteke. Direktive v Robots.txt imajo naslednji obrazec:

<поле>:<пробел><значение><пробел>

<поле>:<пробел><значение><пробел>
Pravilna koda mora vsebovati vsaj eno "onemogoči" direktivo po vsakem zapisu "uporabniškega agenta". Prazna datoteka vključuje dovoljenje za indeks spletnega mesta.

Direktiva o uporabniku Sredstva mora vsebovati ime iskalnega bot. Uporaba ga lahko konfigurirate pravila vedenja za vsak poseben iskalnik (na primer, ustvarjanje ločene mape indeksiranje samo za samo Yandex). Primer pisanja "uporabniškega agenta", naslovljen na vse botov na vaš vir, izgleda takole:

Uporabniški agent: *
Če želite določiti določene pogoje v "agentu za uporabnike" samo za en sam bot, na primer Yandex, potem morate pisati takole:

Uporabniški agent: Yandex
Bot vsakega iskalnika ima svoje ime (na primer, za Rambler je stacrambler). Tukaj bom dal seznam najbolj znanih od njih:

Google http://www.google.com GoogleBot Yahoo! http://www.yahoo.com Slurp (ali Yahoo! Slurp) AOL http://www.aol.com SLURP MSN http://www.msn.com Msnbot Live http://www.live.com Msnbot vprašajte http://www.ask.com Teoma Altavista http://www.altavista.com Scooter Alexa http://www.alexa.com ia_archiver lycos http://www.lycos.com Lycos Yandex http: // www. ya.ru yandex rambler http://www.rambler.ru stackrambler mlin.ru http://mail.ru mail.ru aport http://www.aport.ru Aport Spletna stran http://www.webalta.ru Webalta (Webalta Crawler / 2.0)

Veliki iskalniki Včasih, razen glavnih robotov, obstajajo tudi ločeni primerki za indeksiranje blogov, novice, slike itd. Številne informacije o sortah botov se lahko naučite iz tega vira.

Dala bom nekaj preprostih primerov uporabe direktiv z razlago njegovih dejanj.

1. Spodnja koda omogoča vse pošto, da indeksirajo vse vsebine brez izjeme. To je opredeljeno s praznim Direktivo o onemogočanju.

Uporabniški agent: * onemogoči:

2. Nasprotno pa naslednjo kodo, ki v celoti prepoveduje vse iskalnike, da dodajo na indeks strani tega vira. Nastavi to onemogoči z "/" v polju vrednosti.

Uporabniški agent: * Onemogoči: /

3. V tem primeru bodo vsi roboti prepovedani, da si ogledajo vsebino imenika / slike / (http://mysite.ru/image/ - absolutno pot do tega kataloga)

Uporabniški agent: * Opomba: / Slika /

4. Primer "Image" imenik bo prepovedan v spodnjem primeru, kot tudi vse datoteke in imenike, ki se začnejo z "slikov" znakov, t.e. Datoteke: "Image.htm", "images.htm", imeniki: "image" , "Images1", "Image34" in tako naprej.):

Uporabniški agent: * Opomba: / Slika

5. Pri opisovanju poti za direktive, ki dovoljujejo onemogočanje, lahko uporabite znake "*" in "$", s čimer določite nekatere logične izraze. Znak "*" pomeni vsako (vključno s praznim) zaporedjem znakov. Naslednji primer prepoveduje vse iskalnike indeksiranje datotek z razširitvijo ".aspx":

Uporabniški agent: * onemogoči: * .aspx

Da bi se izognili neprijetnim težavam z ogledala na kraju samem, je priporočljivo dodati direktivo o gostiteljici v roboti.txt, ki označuje Yandex bot na glavnem ogledalu. Po pravilih pisanja za uporabniško agenta mora obstajati vsaj ena direktiva o onemogočanju (običajno prazna, nič prepovedi):

Uporabniški agent: Yandex Disallow: Gostitelj: www.site.ru

Uporabniški agent: Yandex Disallow: Host: Site.ru

odvisno od tega, kaj je za vas bolj optimalno.

Direktiva SITEMAP označuje lokacijo datoteke zemljevida spletnega mesta (običajno imenovano spletno mesto.xml, vendar ne vedno). Kot parameter je podana pot do te datoteke, vključno s HTTP: // (i.e. njeno ul). Na primer:

Sitemap: http://site.ru/sitemap.xml.
Roboti Meta Tag - pomaga zapreti vsebino vsebine

Obstaja še en način za konfiguriranje (reševanje ali prepoved) indeksiranja posameznih spletnih strani, tako za Yandex in Google. Če želite to narediti, znotraj "glave" oznake želene spletne strani dodamo roboti meta oznako z želenimi parametri, in je tako ponavljati za vse dokumente, na katere morate to uporabiti ali da pravilo (prepoved ali dovoljenje). Tako lahko izgleda, na primer, zato:

... ...

V tem primeru bodo morali roboti vseh iskalnikov pozabiti na indeksacijo te spletne strani (to je označeno s prisotnostjo NOINDEX v tej meta tag) in analizo povezav, ki jih je na njej (to označuje prisotnost Nofollow - bot je prepovedan od povezav, ki jih bo našla v tem dokumentu).

Od tega metathega: Indeks in sledite:

Indeks - Navedite, ali lahko robot indeksira ta dokument
Sledite - Ali lahko sledi povezavam, ki jih najdete v tem dokumentu
Privzete vrednosti - "Index" in "Sledite". Obstaja tudi možnost s skrajšanim pisanjem z uporabo "vse" in "nič", ki kaže na dejavnost obeh parametrov ali, oziroma, nasprotno: vse \u003d indeks, sledite in nič \u003d noindex, nofollow.

Za blog na WordPress, lahko konfigurirate robote meta oznake, na primer, z vtičnikom Vse v enem paketu SEO. No, vse, s teorijo, je končano in čas je, da gremo v prakso, in sicer zbrati optimalne robots.txt za joomla, SMF in Wordpress.

Kot veste, so projekti, ustvarjeni na podlagi katerega koli motorja (Joomla, WordPress, SMF, itd), imajo veliko pomožnih predmetov, ki ne nosijo nobene informativne obremenitve.

Če ne prepovedujete indeksacije vseh teh smeti, bo čas, ki ga iskalniki na indeksaciji vašega spletnega mesta porabijo denar za iskanje datotek motorja (za iskanje informacij v informacijski komponenti, t.e. vsebine).

Toda čip je v večini CMS, je vsebina shranjena ne v datotekah, ampak v bazi podatkov, na katero iskalne robote ne more dobiti. S plezanjem motorjev motorja, bot izčrpa čas, ki ga je sprostil in ne bo pustil solono kruha.

Poleg tega si morate prizadevati za edinstveno vsebino vsebine na vašem projektu in se ne sme biti popolna ali celo delna podvajanje vsebin (informacijska vsebina). Podvajanje se lahko pojavi, če je isti material na voljo na različnih naslovih (URL).

Yandex in Google, vodenje indeksacije, odkrili dvojnik in morda, sprejmejo ukrepe za nekaj pesimization vašega vira z njihovimi velikimi količinami (tudi ne želijo najti zrna v kupu gnoja).

Če je vaš projekt ustvarjen na podlagi katerega koli motorja, se bo podvajanje vsebine potekalo z veliko verjetnostjo, kar pomeni, da se morate ukvarjati z njo, vključno z uporabo prepovedi robots.txt., še posebej v meta oznaka, za v prvem primeru, lahko Google prepoved ignorira in prezre, vendar ne bo več mogoče dati prekleto (tako učenec).

Na primer, v Wordpress. Strani z zelo podobnimi vsebinami lahko pride do indeksa iskanja, če indeksiranje in vsebino naslovov, in vsebina arhiva oznake, in vsebina začasnih arhivov je dovoljena.

Če pa uporabljate zgoraj navedeno oznako meta, ustvarite prepoved arhiva oznake in začasni arhiv (lahko odidete, vendar prepovedati indeksiranje vsebine tarifnih številk), potem se podvajanje vsebine ne bo pojavilo. V ta namen bo WordPress najbolje izkoristil zmogljivosti AL v enem vtičniku SEO paket, povezavo, na katero išče malo višje v besedilu.

Še težje z podvajanjem vsebin je primer v forumu SMF. Če ne izdelujete fine nastavitve (prepoved) prek robotov, bo iskanje dobili več dvojnik istih delovnih mest. V Joomli, tudi mimogrede, včasih obstaja problem z podvajanjem običajnih dokumentov in njihovih kopij, namenjenih za tiskanje.

Povzetek bom rekel, da je datoteka Robosts zasnovana tako, da nastavi globalna pravila za prepoved dostopa do celotnega imenika spletnega mesta, ali v datotekah in mapah, v naslovu, od katerih so navedeni določeni znaki (maska). Primeri naloge takih prepovedi, ki jih lahko vidite nekoliko višje.

Če želite prepovedati indeksacijo ene same strani, je primerno uporabiti isto oznako meta, ki je predpisana v glavi (med oznakami glave) želenega dokumenta. Podrobnosti o sintaksni METAGITA glej nekoliko višje v besedilu.

Pravilno robots.txt za joomla, wordpress in smf

Upoštevamo posebne primere robotov, namenjenih za različne motorje - Joomla, Wordpress in SMF. Seveda bodo vse tri možnosti, ustvarjene za različne CMS, znatno (če ne rečejo dramatično) se med seboj razlikujejo. Res je, da imajo vsi en splošni čas in ta trenutek je povezan z iskalnikom Yandexa.

Ker V Runeteju ima Yandex zadostno težo, potem pa morate upoštevati vse odtenke svojega dela, in tu bo direktiva gostiteljica pomagala. Izrecno izrecno določa ta iskalnik glavno ogledalo vašega spletnega mesta.

Priporočljivo je, da uporabite ločen blog, ki je namenjen samo za Yandex (uporabniški agent: Yandex). To je posledica dejstva, da preostali iskalniki morda ne razumejo gostitelja in zato njegovo vključitev v zapis uporabnikov, namenjen vsem iskalnikom (uporabniški agent: *) lahko povzroči negativne posledice in nepravilne indeksacije.

V tem primeru je težko reči, da so algoritmi iskanja stvar sama po sebi stvar, zato je bolje, kot da svetujejo. Toda v tem primeru boste morali podvajati v direktivo-agent-agent: Yandex vsa ta pravila, ki smo jih vprašali agenta za uporabnike: *. Če zapustite uporabniški agent: Yandex s praznim onemogočitvijo: na ta način dovolite Yandexa, da vstopi kjerkoli in povlecite vse zaporedoma na indeks.

Preden nadaljujete z upoštevanjem posebnih možnosti, vas želim spomniti, da lahko preverite delo vaših robotov.TXT, ki ga lahko v Yandex Webmaster in Google Webmaster. Tam lahko določite konkretni URMS vašega vira in si oglejte (preverite), ali jih bo ta iskalnik dodal v vaš indeks ali to dejanje je uspešno prepovedano v čudežnem datoteki.

Pravilnik Robots.txt Setup za SMF forum

Za forum o motorju SMF bo naslednje (vzeto iz foruma tehnične podpore iz te teme):

Uporabniški agent: * Dovoli: / Forum / * Arcade Dovoli: / Forum / * RSS Omahtow: / Forum / Avatars / Opomočji: / Forum / Paketi / Zavorni / Forum / Forum / Forum / Opomba: / Forum / 7s / onemogoči: /forem/*.New onemogočiti: / Forum / * Razvrsti Omahtow: / Forum / * Temanje Omahljanje: / Forum / * WAP Onemogovnost: / Forum / * Ukrep Uporabniški agent: SLURP Crawl-Delay: 100 \\ t

Upoštevajte, da je ta možnost dana za primer, ko je vaš forum SMF nameščen v imeniku foruma na glavnem mestu. Če forum ni v imeniku, potem preprosto izbrišite iz vseh pravil / foruma.

Prijazno URL-ji v SMF se lahko aktivirajo ali deaktivirajo v admin forum na naslednji poti: v levem stolpcu admin, ki izbere element "lastnosti in nastavitev", na dnu okna, ki odpre okno, da "Dovoli prijazni URL" , kjer lahko postavite ali odstranite potrditveno polje.

Obstaja še ena možnost Robots.txt za SMF (vendar verjetno, še ne popolnoma raztegnjena):

Uporabniški agent: * Dovoli: / Forum / * Zemljevid strani Dovoli: / Forum / * Arcade # Če nimate zabavnih iger, odstranite brez prehoda Dovoli: / Forum / * RSS Dovoli: / Forum / * Vrsta \u003d RSS onemogočiti : / Forum / Avatars / Opomba: / Forum / paketi / Opomba: / Forum / Smileys / Opomočji: / Forum / Viri / Opomba: / Forum / Themes / Officel: / Forum / * .MSG OMANJA: / Forum / *. Novo \\ t Opomba: / Forum / * Razvrsti Omahljanje: / Forum / * Tema Omahljava: / Forum / * Wap Omahlow: / Forum / * Action onemogoči: / Forum / * Prev_Next Opomba: / Forum / * Vse Onemogoči: /forem/2go.php # ali da preusmerite, da imate gostitelja: www.mi website.ru # Določite svoje glavne ogledala Uporabniški agent: SLURP Crawl-Delay: 100

Kot lahko vidite v tej datoteki, je direktiva gostiteljica, namenjena samo za Yandex, je omogočena v uporabniku agenta za vse iskalnike. Verjetno bi verjetno še vedno dodal ločeno direktivo o uporabniku agenta za Yandex samo, s ponovitvijo vseh pravil. Ampak odločite se sami.

Uporabniški agent: Slurp Crawl-Delay: 100

to je posledica dejstva, da iskalnik Yahoo (Slurp je ime njegovega iskalnega bot) skenira strežnik v mnogih potokih, ki lahko negativno vplivajo na njegovo delovanje.

V tem pravilu Direktiva o zakasnitvi pajka vam omogoča, da podate Yahoo Bot z minimalnim časom (v sekundah) med koncem injiciranja enemu dokumentu in začetku prenosa naslednjega. To bo odstranilo obremenitev na strežniku.

V virih / tiskati.php datoteke, poiščite (na primer z vgrajenim iskanjem v NOTEPAD ++) Niz:

fatalna_lang_error (472, false);
Vstavite takoj pod njo:

$ kontekst ["robot_no_index"] \u003d true;
V temi datoteka / title_text_template.php_template.php Poišči niz:


Spodaj vstavite naslednjo vrstico:


Če želite tudi povezavo, da preklopite na polno različico foruma (v primeru, da del tiskalne strani je že opravil indeksiranje v Yandexu in Google), nato pa v isti tiskani strani.Template.php najdete niz z oznako za odpiranje Glava:

In vstavite spodnji niz:

Na forumu

Več informacij o tej različici datoteke Robots.txt lahko dobite tako, da preberete to vejo rusko-govorečega foruma podpore.

Robots.txt za joomla.

Uporabniški agent: * Onemogoči: / Administrator / Oulow: / Cache / Ovojevanje: / Komponente / Opolnolo: / Onemogovnost: / Namestitev / Ovojevanje: / Jezik / Ovojevanje: / Knjižnice / Opolnoma: / Media / Ovojevanje: / Moduli / Offillow: / Predloge / onemogočanje: / tmp / onemogočanje: / xmlrpc /

Načeloma se tukaj skoraj vse upošteva in dobro deluje. Edina stvar, da se doda ločeno pravilo uporabnika agenta, da bi vstavila direktivo o gostitelju, ki določa glavno ogledalo za Yandex, kot tudi navedite pot do datoteke kazalnika.

Zato bi morali v končni obliki pravilni roboti za Joomla po mojem mnenju videti tako:

Uporabniški agent: * Onemogoči: / Administrator / Oulow: / Cache / Ovojevanje: / Vključuje / onemogoči: / Namestitev / Ovojevanje: / Jezik / Ovojevanje: / Knjižnice / Opolnolo: / Media / Ovojevanje: / Modules / Offillow: / Obnovajte: / Onemogovnost: / XMLRPC / Uporabniški agent: Yandex Disallow: / Administrator / Oulow: / Cache / Ovojevanje: / Vključuje / onemogoči: / Namestitev / Ovojevanje: / Jezik / Ovojevanje: / Knjižnice / Opolnoma: / Media / Offillow: / Onemogočanje: / predlog / disalow: / xmlrpc / host: vash_sait.ru Sitemap: http://vash_sait.ru/index.php?option \u003d com_xmap & sitemap \u003d 1 & Pogled \u003d XML & NO_HTML \u003d 1

Da, celo ugotavlja, da v drugi različici ni Direktive: / slike /, ki daje prepoved indeksiranja slik vašega spletnega mesta. Pozabil sem najprej poudariti vašo pozornost na to, vendar me je spomnil na Dragi Alex.

Popolnoma se strinja z njim, da če so slike edinstvene in želite obiskovalce najti svoj vir in od iskanja slik iz Yandex in Google, potem boste zagotovo izbrisali to pravilo iz vaše datoteke, ampak tudi ne pozabite predpisati vseh atributov alt alt in naslov v oznaki IMG.

Pri ustvarjanju spletne trgovine za Joomla, ki temelji na komponenti VirtueMart, sem naletel na dejstvo, da so indeksi iskalnikov začeli dobiti različice za tiskanje strani te trgovine. Potreben je gumb, ki je pripeljal do strani tiskanja (ki je toliko želel), zato je ostala le možnost s svojo prepovedjo robotskih robotov.

Toda vse se je izkazalo, da je sploh težko. Dejstvo je, da ustvarite različico za tiskanje v Jumle, se spletna stran uporablja isto spletno stran Ulla, z izjemo enega: pritožba ne gre na index.php, ampak za indeks2.php. To ne naloži predloge, tj. Na celotnem zaslonu se prikaže samo vsebina.

Zato, da prepove različice za tiskanje v VirtueMartu, sem dodal naslednje pravila:

Obnovajte: /index2.php?page\u003dshop.

Robots.txt za Wordpress.

Datoteke ne bomo dali, da priporočajo razvijalci. Vidite ga sami. Mnogi blogerji ne omejujejo botov Yandexa in Googla v svoje sprehode na vsebino WordPress Engine. Najpogosteje v spletnih dnevnikih, lahko najdete robote, samodejno napolnjeni z Google XML Sitemaps Plugin.

Toda po mojem mnenju je treba še vedno pomagati z ugotovitvijo v težkem primeru šivalnih zrn iz izziva. Prvič, indeksacija tega smeti bo pustila veliko časa na botov Yandexu in Google, in morda ne bo, da ostanejo sploh, da dodajate spletno mesto indeksu z novimi elementi. Drugič, pošto, datoteke s prašenim motorjem, bodo ustvarile dodatno obremenitev strežnika vašega gostitelja, ki ni dobra.

Torej, tukaj bom dal svojo lastno možnost, vendar se lahko že odločite, uporabite v tem obrazcu, ali da se prilagodite na vaše potrebe:

Uporabniški agent: * Onemogoči: /wp-login.php Onemogovnost: /wp-register.php onemogoči: / webstat / onemogočiti: / Feed / onemogočiti: / tag / onemogočiti: / Trackback onemogočiti: * / Trackback onemogočiti: * / vir Obnovajte: * / komentarji, ki onemogočajo: / *? * Onemogoči: / *? Obnovajte: / WP-Content / Plugins Onemogovnost: / WP-Content / Offillow: / WP-Vključuje / Obnovil: / Komentarji Uporabniški agent: Yandex Offillow: /wp-login.php onemogočiti: / wp-Register.php onemogočiti: / Webstat / onemogočiti: / Feed / onemogočiti: / tag / onemogočiti: / Trackback onemogočiti: * / Trackback onemogočiti: * / Feed onemogočiti: * / komentarji onemogočiti: / *? * Onemogočiti: / *? .Com / sitemap.xml ( 4 Glas (A) Kot rezultat: 5,00 Od 5)

Podrobna navodila o tem, kako ustvariti datoteko robots.txt za spletno mesto. Robots.txt je eden od najpogostejših vidikov optimizacije polne iskalnikov. Opazovanje pogojev pristojne uporabe te datoteke lahko dosežete določen pozitiven učinek na spletnem mestu. Možno je določiti različne navodila za večino PS. Ki kažejo na iskalni bot potrebne omejitve ali dovoljenja za skeniranje strani, imenikov ali particije spletnega mesta.

Vsebina članka:

Datoteke robots.txt - osnovna definicija

Robots.txt - ima določene standarde izjem za iskalne agente (pošto), ki je bila sprejeta januarja 1944. Pravila te datoteke prostovoljno sledijo najpogostejšim PS. Datoteka je lahko sestavljena iz enega ali več pravil, od katerih vsaka blokira ali omogoča dostop do iskalnega robota do določenih poti na spletnem mestu.

Ta datoteka privzeto ni na spletnem mestu - kaj daje vsem PS popolno dovoljenje za indeks vsebine spletnega mesta. Takšno dovoljenje lahko privede do indeksa iskalnikov pomembnih tehničnih strani spletnega mesta, ki ne bi smela biti tam.

Kaj je potrebno robots.txt na spletnem mestu - njen vpliv na promocijo v iskalnikih

Robots.txt je najvišji faktor optimizacije iskalnikov. Zahvaljujoč pravilno predpisani niz pravil za iskalne robote, lahko dosežete določeno povečanje na mestu razvrstitev v iskanju. Kaj daje taka navodila:

  1. Zaklenjeno za indeks določenih strani, particij, imenik spletnega mesta.
  2. Izključitev strani, ki ne vsebujejo uporabne vsebine.
  3. Izključitev listov strani in tako naprej.

Za večino spletnih mest so takšne omejitve za indeksiranje preprosto potrebne za majhno polno pasovo. Kljub temu je treba na vsako mesto dodati nekatere direktive. Na primer, prepovedi za indeksacijo:

  1. Registracijske strani, ki vstopajo v upravljanje, obnovitev gesla.
  2. Tehnični katalogi.
  3. RSS - Trakovi na lokaciji.
  4. OdgovoriTocom in druge stvari.

Kako ustvariti pravi robors.txt

Težave pri ustvarjanju datoteke Robots.txt ne morejo niti začetnike. Zadostuje slediti določenemu zaporedju ukrepov:

  1. Robots.txt je dokument z besedilom in ustvarjen s katerim koli razpoložljivim urejevalnikom besedila.
  2. Podaljšanje datoteke je treba zahtevati .txt.
  3. Ime je nujno robots.
  4. Na enem mestu je dovoljeno samo ena taka datoteka.
  5. Nahaja se samo v korenskem imeniku mesta.

Morate uporabiti urejevalnik običajnega besedila (beležnico kot alternativo). Ustvarite obliko dokumenta .txt in robote imena. Nato shranite in prenesite ta dokument s stranko FTP v korenskem imeniku spletnega mesta. To so glavna dejanja, ki jih je treba izvesti.

Ustvarjanje Robots.txt z uporabo spletnih storitev

Ta metoda je najlažja in najhitrejša, primerna za tiste, ki se bojijo ustvariti robots.txt ali preprosto leni. Storitve, ki ponujajo ustvarjanje te datoteke, so velik niz. Vendar je vredno razmisliti o nekaterih odtenkih glede te metode. Na primer:

  1. Treba je vnaprej upoštevati, kaj točno želite prepovedati ali dovoliti agenta.
  2. Obvezno preverjanje končne datoteke, preden jo prenesete na spletno mesto.
  3. Bodite previdni, ker bo nepravilno ustvarjena datoteka robots.txt online bo pripeljala do obžalovanja vredne situacije. Tako lahko iskanje dobite, tehnične in druge strani spletnega mesta, ki ne bi smele biti v priori.

Vseeno je bolje, da preživite čas in trud, da ustvarite pravilen robot uporabnika. Tako je mogoče ponovno ustvariti jasno razumno strukturo prepovedi in dovoljenj ustreznega spletnega mesta.

Urejanje in pravilna sintaksa datoteke robots.txt

Po uspešnem ustvarjanju Robots.txt je lahko mirno urejeno in spremembo, kot boste uporabljeni. To bi moralo upoštevati nekatera pravila in pristojna sintaksa. Po nekaj časa boste večkrat spremenili to datoteko. Ampak ne pozabite, po urejanju dela, boste morali prenesti to datoteko na spletno mesto. Tako posodabljanje njegove vsebine za iskalne robote.

Write Robots.txt je zelo preprost, razlog za to je precej preprosta konstrukcijska struktura te datoteke. Glavna stvar pri pisanju pravil, uporabite strogo definirano sintakso. Ta pravila bodo prostovoljno sledila, skoraj vse večje PS. Tukaj je seznam nekaterih pravil, da bi se izognili večini napak v datoteki Robots.txt:

  1. Ena linija ne bi smela biti večja od določene direktive.
  2. Vsako pravilo se začne z novo linijo.
  3. Izključila vrzel na začetku vrstice.
  4. Dovoljene komentarje po simbolu #.
  5. Prazni roboti se obravnavajo kot popolno dovoljenje za indeks.
  6. Ime te datoteke je možno le v formatu dopustnih "robotov".
  7. Velikost datoteke ne sme presegati 32KB.
  8. V direktivah omogočajo in onemogoči, samo eno pravilo je dovoljeno. Prazna vrednost po tem, ko pustite: ali onemogočiti: enakovredno polni ločljivosti.
  9. Vsa pravila morajo biti opredeljena v malem primeru.
  10. Datoteka mora biti vedno na voljo.
  11. Prazna črta po določenih pravilih označuje popoln konec pravil Direktive o uporabniku.
  12. Priporočljivo je, da se pravila registrirajo, vsaka PS posebej.
  13. Če je pravilo spletnega mesta, potem zagotovo postavite poševnico (/), preden se začne.
  14. Navedbe v nizu ali pravilu ne smejo biti.
  15. Upoštevati je treba strogo strukturo pravil, ki ustrezajo vaši spletni strani, nič več.
  16. Robots.txt mora biti minimalizirana in jasno prikazuje prenašani pomen.

Pristojna konfiguracija datoteke Robots.txt - pravilno pisanje ukazov

Da bi dobili pozitiven rezultat pri uporabi robotov, ga morate pravilno konfigurirati. Vsi pomembni ukazi te datoteke z navodili sledijo najbolj ambiciozni iskalniki Google in Yandex. Preostale PS lahko prezrejo nekatera navodila. Kako narediti Robots.txt najbolj odzivni večinski iskalniki? Tukaj je treba razumeti osnovna pravila za delo s to datoteko zgoraj navedeno zgoraj.
Razmislite o glavnih skupinah:

Uporabniški agent: *- Navodila se bodo nanašala na absolutno vse PS robote. Možno je tudi določiti nekatere iskalnike ločeno na primer: uporabniški agent: Googlebot in uporabniški agent: Yandexbot. Tako so pravila za pomembne PS pravilno določena.

Obnova:- Popolnoma prepoveduje mimo indeksiranje (strani, imenik ali datoteke).

Dovoli:- Popolnoma dovoljuje obiranje in indeksiranje (strani, imenik ali datoteke).

CLEAN-PARAM:- Morate odpraviti strani spletnih strani z dinamično vsebino. Zaradi tega pravila se lahko znebite podvojene vsebine na spletnem mestu.

Zakasnitev pajkanja:- Pravilo nakazuje časovni interval potaljev, da razkladanje dokumentov s spletnega mesta. Omogoča znatno zmanjšanje obremenitve strežnika. Na primer: "Zakasnitev pajkanja: 5" - bo rekel P-Robus, ki je nalaganje dokumentov s spletnega mesta možno ne pogosteje kot enkrat na 5 sekund.

Gostitelj: Your_Sait.ru.- odgovoren za glavno ogledalo mesta. V tej direktivi morate registrirati prednostno različico spletnega mesta.

Sitemap: http: //vash_site.ru/sitemap.xml- Kako bi lahko uganili ta direktiva, kaže na P-bot o razpoložljivosti spletnega mesta na spletnem mestu.

# - Omogoča, da pustite komentarje. Lahko komentirate, šele po znaku rešetka. Lahko ga postavite v novo linijo in nadaljevanje direktive. Vse te možnosti bodo zanemarjene, ko bodo ročni prehod.

Primeri robotov .txs za vse osnovne sisteme za upravljanje vsebin (CMS)

Če želite kopirati navodila, morate s pozivom klikniti na gumb.

WordPress (WP)

Uporabniški agent: *

Dovoli: / WP-Content / Uploads /

Onemogoči: /wp-login.php.

Onemogoči: /wp-register.php.

Onemogoči: /xmlrpc.php.

Onemogoči: /template.html.

Onemogoči: / wp-admin

Onemogoči: / wp-vključuje

Obnovajte: / WP-Vsebina

Opomba: / Kategorija

Obnovajte: / Arhiv

Obnovajte: * / Trackback /

Obnovajte: * / Feed /

Onemogoči: * / Komentarji /

Onemogoči: /?

Host: Site.ru.
»


HostCMS.

Uporabniški agent: *

Onemogoči: captcha.php.

Onemogoči: Download_File.php.

Host: Site.ru.
Sitemap: http://site.ru/sitemap.xml.

Joomla.

Uporabniški agent: *

Oprostite: / Administrator /

Obnovajte: / Cache /

Obnovajte: / Komponente /

Oprostite: / Slike /

Obnovajte: / vključuje /

Oprostite: / Namestitev /

Obnovajte: / Jezik /

Oprostite: / Knjižnice /

Obnovajte: / Media /

Obnovajte: / Module /

Oprostite: / Plugins /

Obnovajte: / Predloge /

Onemogoči: / xmlrpc /

Host: Site.ru.
Sitemap: http://site.ru/sitemap.xml.

Joomla 3.

Uporabniški agent: *

Oprostite: / Administrator /

Obnovajte: / Cache /

Obnovajte: / vključuje /

Oprostite: / Namestitev /

Obnovajte: / Jezik /

Oprostite: / Knjižnice /

Obnovajte: / Media /

Obnovajte: / Module /

Oprostite: / Plugins /

Obnovajte: / Predloge /

Onemogoči: / xmlrpc /

Modx Evo.

Uporabniški agent: *

Oprostite: / Sredstva / predpomnilnik /

Obnovajte: / Sredstva / DOCS /

Oprostite: / Sredstva / Izvoz /

Oprostite: / Sredstva / Uvoz /

Oprostite: / Sredstva / moduli /

Oprostite: / Sredstva / Plugins /

Opomba: / Sredstva / odrezki /

Oprostite: / Namestitev /

Obnovajte: / Manager /

Onemogoči: /index.php.

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)
Sitemap: Http: // Pot do Your XML Format Map

Netcat.

Uporabniški agent: *

Oprostite: / Namestitev /

Oprostite: / Povezave /

Obnova: / Netcat /

Obnova: / Netcat_Files /

Obnova: /*.SWF.

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)
Sitemap: Http: // Pot do Your XML Format Map

Modx.

Uporabniški agent: *

Oprostite: / Sredstva / predpomnilnik /

Obnovajte: / Sredstva / DOCS /

Oprostite: / Sredstva / Izvoz /

Oprostite: / Sredstva / Uvoz /

Oprostite: / Sredstva / moduli /

Oprostite: / Sredstva / Plugins /

Opomba: / Sredstva / odrezki /

Oprostite: / Namestitev /

Obnovajte: / Manager /

Host: Site.ru.
Sitemap: http://site.ru/sitemap.xml.

Opencart.

Uporabniški agent: *

Onemogoči: / * pot \u003d račun /

Obnovajte: / * pot \u003d affiliate /

Obnovajte: / * Pot \u003d Checkout /

Opomba: / * pot \u003d izdelek / iskanje

Opomba: /index.php?route\u003dproduct/product*&manufacturer_id\u003d.

Obnovajte: / admin

Obnova: / Katalog

Oprostite: / Prenesi

Onemogoči: / izvoz

Obnovajte: / Sistem

Oprostite: / *? Razvrsti \u003d

Obnovajte: / * & Sort \u003d

Onemogoči: / *?

Onemogoči: / * in red \u003d

Onemogoči: / *?

Onemogoči: / * & limit \u003d

Onemogočite: / *? Filter_name \u003d

Onemogoči: / * & Filter_name \u003d

Onemogoči: / *? Filter_sub_category \u003d

Obnova: / * & Filter_Sub_Category \u003d

Onemogočite: / *? Filter_description \u003d

Obnova: / * & Filter_description \u003d

Onemogočite: / *?

Onemogoči: / * in sledenje \u003d

Onemogoči: / *?

Obnova: / * & Page \u003d

Onemogoči: / seznam želja

Obnovajte: / Prijava

Onemogoči: /index.php?route\u003dproduct/manufacturer.

Obnovajte: /index.php?route\u003dproduct/compare.

Onemogoči: /index.php?route\u003dproduct/category.

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)

Umi.

Uporabniški agent: *

Obnovajte: / Emarket / addToCompare

Opomba: / Emarket / košarica

Onemogoči: /go_out.php.

Obnovajte: / Slike

Obnovajte: / Slike / Lizing

Obnovajte: / Slike / NTC

Obnovajte: / Datoteke

Obnovajte: / Uporabniki

Obnovajte: / admin

Disalow: / Iskanje

Obnovajte: / Namestite temp

Obnovajte: / Namestitev-Static

Obnovajte: / Install-libs

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)
Sitemap: Http: // Pot do Your XML Format Map

AMIRO.CMS.

Uporabniški agent: *

Obnovajte: / admin

Onemogoči: / _admin /

Obnovajte: / Članice

Disalow: / Iskanje

Onemogoči: / Naročite se

Obnovajte: / Uporabniki

Onemogoči: / * offset \u003d 0

Onemogoči: / * forum_ext \u003d

Obnova: / * _ Print_version \u003d

Obnovajte: / * Akcija \u003d Export_RSS

Onemogoči: / * ukrepanje \u003d iskanje

Opomba: / * Action \u003d View_posts

Onemogoči: / * display_form \u003d

Host: Site.ru.
Sitemap: http://site.ru/sitemap.xm.

Bitrix.

Uporabniški agent: *

Onemogoči: /*index.php$

Obnovajte: / Bitrix /

Obnovajte: / Auth /

Oprostite: / Osebno /

Oprostite: / Upload /

Disalow: / Iskanje /

Oprostite: / * / Iskanje /

Onemogoči: / * / slide_show /

Opomba: / * / Galerija / * Naročilo \u003d *

Onemogoči: / *?

Opomba: / * & Print \u003d

Onemogoči: / * Register \u003d

Onemogoči: / * pozabljeno_password \u003d

Onemogočite: / * Change_password \u003d

Onemogoči: / * Prijava \u003d

Obnova: / * Odjava \u003d

Onemogoči: / * auth \u003d

Onemogoči: / *?

Obnovajte: / * Action \u003d add_to_compare_list

Obnovajte: / * Action \u003d Delete_From_compare_list

Opomba: / * Akcija \u003d Add2Basket

Onemogoči: / * ukrep \u003d kupi

Onemogočite: / * bitrix _ * \u003d

Onemogoči: / * backurl \u003d *

Onemogoči: / * backurl \u003d *

Onemogoči: / * back_url \u003d *

Onemogoči: / * back_url \u003d *

Onemogoči: / * back_url_admin \u003d *

Obnovajte: / * Print_course \u003d Y

Onemogoči: / * tečaj_id \u003d

Onemogoči: / *?

Onemogoči: / *?

Onemogoči: / * pagen_1 \u003d

Onemogoči: / * pagen_2 \u003d

Onemogoči: / * pagen_3 \u003d

Onemogoči: / * pagen_4 \u003d

Obnova: / * Pagen_5 \u003d

Onemogoči: / * pagen_6 \u003d

Onemogoči: / * pagen_7 \u003d

Onemogoči: / * page_name \u003d iskanje

Onemogoči: / * page_name \u003d user_post

Onemogoči: / * page_name \u003d detajl_slide_show

Onemogoči: / * showAll

Onemogoči: / * show_all \u003d

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)
Sitemap: Http: // Pot do Your XML Format Map

Drupal.

Uporabniški agent: *

Obnovajte: / Database /

Obnovajte: / vključuje /

Opomba: / Misc /

Obnovajte: / Module /

Oprostite: / Sites /

Obnovajte: / Teme /

Obnovajte: / Skripte /

Oprostite: / posodobitve /

Obnova: / Profili /

Oprostite: / Profil

Obnova: / Profil / *

Onemogoči: /xmlrpc.php.

Onemogoči: /cron.php.

Onemogoči: /update.php.

Onemogoči: /install.php.

Onemogoči: /index.php.

Oprostite: / admin /

Obnova: / Komentar / Odgovori /

Oprostite: / Kontakt /

Oprostite: / Odjava /

Disalow: / Iskanje /

Oprostite: / Uporabnik / Register /

Oprostite: / Uporabnik / geslo /

Onemogoči: * Register *

Obnova: * Prijava *

Onemogoči: / top-ocenjeno

Oprostite: / Sporočila /

Oprostite: / Knjiga / Izvoz /

Obnovajte: / User2UserPoints /

Obnovajte: / Myuserpoints /

Oprostite: / Tagadelic /

Oprostite: / napotitev /

Obnovajte: / agregator /

Obnovajte: / Datoteke / Pin /

Opomba: / Vaši glasovi

Opomba: / Komentarji / Nedavni

Opomba: / * / Uredi /

Obnovajte: / * / Izbriši /

Opomba: / * / Izvoz / HTML /

Oprostite: / taksonomija / man / * / $

Onemogoči: / * / Uredi $

Opomba: / * / Opis $

Opomba: / * / Revisions $

Opomba: / * / Kontakt $

Onemogoči: / * Downloadpipe

Obnovajte: / vozlišče $

Obnovajte: / vozlišče / * / sledenje $

Obnova: / *? Stran \u003d 0

Onemogoči: / * oddelek

Onemogočite: / * naročilo

Onemogoči: / *? Razvrsti *

Obnovajte: / * & Sort *

Obnovajte: / * Votesupdown

Opomba: / * Koledar

Onemogoči: /*index.php.

Gostitelj: Vash_sait.ru (ali www.vash_sait.ru)
Sitemap: Http: // Pot do Your XML Format Map

Kako preveriti Robots.txt z Google ali Yandexom

Kot ni čudno, da preverite to datoteko, je potreben samo Google ali Yandex Webmasters. Ki v zameno močno olajša iskanje napak.

Google Webmaster. - Izberite "Scan" v levem meniju in nato zavihek "Robots.txt orodje za preverjanje datoteke". Potem, na spodnji vrstici so se pojavile okna Dodaj ime datoteke. Nato kliknite »Check« in poglejte, kako vaš robot vidi Bot Google.

Webmaster Yandex. - V levem meniju izberite "Orodja" in "Robots.txt". Po tem, v oknu, ki se pojavi, preprosto kliknite gumb »Check«.

Treba je omeniti, da je spletni validatorji za preverjanje te datoteke veliko. Govoril sem o najbolj dostopnih, ki so vedno pri roki.

Zaključek

Napišite en popolni roboti za vsa spletna mesta je nemogoča. Razlog za to je sami spletna mesta, od katerih so nekatere ročne, druge pa se nahajajo na različnih CMS. Absolutno vsa spletna mesta imajo drugačno imenik strukturo in druge stvari. Zato je vsak spletni skrbnik preprosto dolžan ustvariti edinstven sklop pravil za P-Bots. Takšna datoteka bo odgovorna za vaše prednostne naloge in ne bo omogočila iskanja zaupnih informacij. Zaradi tega bo indeks visoke kakovosti brez presežnega smeti.

Živjo, danes vam bomo povedali, kako ustvariti prave robote TXT in zakaj je na splošno potrebna.

Vsebina:


Kaj je roboti TXT

V enem od naših preteklih člankov smo povedali tudi, kako iskalni roboti delajo. Roboti TXT datoteka daje navodila za iskalne robote, kako pravilno indeksirati svoje spletno mesto. S pomočjo direktiv lahko na primer navedite robot, katere strani ali imeniki je treba indeksirati, in ki niso, da tvorijo skupino ogledal za vaše spletno mesto (če imate), navedite pot do spletnega mesta Datoteka in tako naprej. Uporablja se predvsem za prepoved indeksacije nekaterih strani spletnega mesta.

Kako ustvariti pravi roboti TXT

V vsakem urejevalniku besedila ustvarite datoteko, imenovane robote TXT. Nato z uporabo spodaj opisanih direktiv podajte robot na straneh spletnih mest, ki jih morate dodati ali, na nasprotju, odstranite iz rezultatov iskanja. Ko ste ustvarili datoteko, jo preverite zaradi napak z uporabo webmaster yandex ali Google Search Console.

Postavite končne datoteke v korenski imenik vašega spletnega mesta (kjer se nahaja datoteka index.html).


Direktiva o uporabniku agenta

To je nekakšen pozdrav iskalnih robotov.

String »Uporabniški agent: *« bo rekel, da lahko vsi iskalni roboti uporabljajo navodila, ki jih vsebuje ta datoteka. In na primer, "Uporabniški agent: Yandex" niz bo dal navodila samo za iskanje robot yandex. Spodaj so navedeni primeri uporabe. Tudi iskalniki imajo pomožne robote za različne kategorije. Na primer, YandexNews in GoogleBot-Novice so roboti za delo z novicami.


Dovolite in onemogoči direktive

Z Direktivo o prepovedi, navedite, katera stran ali spletna mesta je prepovedana indeks. In s pomočjo direktive o dovoljenju, lahko.

Primeri:
Uporabniški agent: *
Obnova: /
Dovoli: / Katalog /

Takšna evidenca bo obvestila vse iskalne robote, ki jih od celotnega spletnega mesta lahko indeksira le s kataloškim imenikom.

Mimogrede, simbol # je zasnovan tako, da opisuje pripombe. Vse to je po tem, ko se ta simbol ne upošteva do konca.

Vendar primer roboti TXT.s individualnimi navodili za različne iskalnike:

# Omogoča robot, da indeksira celotno spletno mesto, razen oddelka za kolesa
Uporabniški agent: *
Obnovajte: / Kolesa /

# prepoveduje robotski indeks spletnega mesta, razen odseka s čolni
Uporabniški agent: GoogleBot
Dovoli: / čolne /
Obnova: /

# je prepovedano vse druge iskalnike indeksirati spletno mesto
Uporabniški agent: *
Obnova: /

Opomba Da med navodili uporabniškega agenta, dovolite in onemogočajo ne more biti prazne vrstice!


Posebni moli * in $

V dovoljenju in onemogočajo direktive, lahko uporabite specialiterje * in $ za nastavitev regularnih izrazov. * - Izbere določeno zaporedje

Na primer: # prepoveduje robote, da indeksirajo vse strani, katerih URL vsebuje zasebno
Uporabniški agent: *
Obnovajte: / * Zasebno

Privzeto, na koncu vsakega pravila, je treba registrirati poseben *. Če želite preklicati * na koncu pravila, se uporablja simbol $.

Na primer: # prepoveduje "/ zaklepanje"
# Vendar ne prepoveduje "/lock.html"
Uporabniški agent: *
Obnovajte: / Zaklepanje $
# Prepoveduje in "/ ključavnica"
# in "/lock.html"
Uporabniški agent: *
Obnovajte: / Zaklepanje

Posebni namen $ ne prepoveduje določenega * na koncu, to je:

Uporabniški agent: *
Obnovajte: / Zaklepanje $# Prepoveduje samo "/ zaklepanje"
Obnovajte: / Zaklepanje * $ # Tako kot "onemogoči: / ključavnica"
# prepoveduje in /lock.html in / ključavnica


Direktiva o kazalu

Če uporabljate zemljevid spletnega mesta na zemljevidu, nato uporabite direktivo Sitemap in določite pot do ene (ali več datotek).

Uporabniški agent: *
sitemap: https: //site.com/sitemap.xml


Direktiva.

Če ima vaše spletno mesto ogledala, nato s to direktivo, bo poseben robot oblikoval skupino ogledal vaše spletne strani, in samo glavno ogledalo bo dodalo iskanje. Ta direktiva ne zagotavlja izbire določenega spletnega mesta v njem kot glavno ogledalo, vendar mu daje visoko prednost pri odločanju.

Primer:

# Navedite glavno ogledalo

Uporabniški agent: Yandex
Onemogoči: / mg-admin
Gostitelj: https://www.zerkalo.ru.

Opomba. Ta direktiva se uporablja izključno za Yandex! + Za vsako datoteko robots.txt se obdeluje samo ena direktiva o gostiteljici.Če je v datoteki določenih več direktiv, robot uporablja prvo.

Direktiva o gostiteljici mora vsebovati: \\ t

  1. HTTPS protokol, če je ogledalo na voljo samo z zaščitenim kanalom. Če uporabljate protokol HTTP, ga ni treba določiti.
  2. Eno pravilno ime domene, ki ustreza RFC 952 in ni naslov IP.
  3. Številka vrat, če je potrebno (gostitelja: myhost.ru:8080).


Ali lahko uporabljam Cyrillic v Roboti TXT?

Ne, nemogoče je uporabiti Cyrillic. Če želite določiti domenska imena na cirilici, na primer uporabljati to storitev.


Namestitveni roboti TXT MOGUTACMS

Mogutacms Fill Robots.txt ni potreben, ker Samodejno se napolnjuje, ko je motor nameščen.

Zdaj veste, kako nastavite prave robote TXT, kot tudi vedeti, kako uporabljati različne direktive za upravljanje indeksacije vaše spletne strani, in če imate kakršna koli vprašanja, se pripravljamo, da jih odgovorimo v posebni razpravi v VC ali v Spodaj komentarji. Na nove sestanke!