Iz tehničnih razlogov se razlikujejo. Tehnični razlogi. Pojasnila statusu "neuspešne predstavitve predstavitve"

To je besedilna datoteka (format dokumenta v.Txt), ki vsebuje jasna navodila za indeksiranje določenega spletnega mesta. Z drugimi besedami, ta datoteka označuje iskalnike, ki morajo spletni viri strani indeksirati in ki niso - prepovedati indeksacije.

Zdi se, zakaj prepovedati indeks nekaj vsebine spletnega mesta? Recimo, naj iskalni robot indeks vsega brez nesreče, ki ga vodi načelo: več strani, bolje! Torej se lahko samo amater iz CEO prepira.

Ni vse vsebine, iz katere se sestavljajo spletno mesto, potrebujejo iskalni roboti. Obstajajo sistemske datoteke, obstajajo podvojene strani, obstajajo številne ključne besede in še vedno obstaja veliko stvari, ki niso nujno indeks. V nasprotnem primeru naslednje stanje ni izključeno.

Iskanje Robot, ki je prišel na vašo spletno stran, prva dolžnost poskuša najti zloglasne robots.txt. Če ta datoteka ni zaznana ali odkrita, vendar je napačna (brez potrebnih prepovedi), "odposlanec" iskalnika začne preučiti spletno mesto po lastni presoji.

V procesu te študije vse indeksira vse in še zdaleč ni dejstvo, da se začne s teh strani, ki jih je treba vnesti v iskanje prvega (novi članki, pregledi, fotografija poročila itd.). Seveda, v tem primeru je lahko indeksacija novega spletnega mesta nekoliko zamuja.

Da bi se izognili takšni neurejeni usodi, mora spletni mojster poskrbeti za ustvarjanje pravilne datoteke robots.txt.

"Uporabniški agent:" - Glavna direktiva Robots.txt

V praksi v Robots.txt, s pomočjo posebnih pogojev, so predpisane direktive (ukaze), glavni med njimi se lahko šteje za direktivo " Uporabniški agent: " Slednje se uporablja za določitev iskalnega robota, ki bo kasneje dal določena navodila. Na primer:

Uporabniški agent: GoogleBot - vse ekipe, ki bodo sledila po tej osnovni direktivi, se bodo nanašale na izjemen sistem iskanja v Googlu (robot indeksiranje);
Uporabniški agent: Yandex- Naslovnik v tem primeru je gospodinjski iskalnik Yandex.

V datoteki Robots.txt se lahko obrnete na vse druge iskalnike v kombinaciji. Ekipa v tem primeru bo izgledala takole: Uporabniški agent: *. Pod posebnim značajem "*", je običajno razumeti "vsako besedilo". V našem primeru, razen Yandex, iskalnikov. Google, mimogrede, to direktivo dojema tudi na svoj račun, če ne bo ravnati osebno.

Ekipa "onemogoči:" - Prepoved indeksiranja v Robots.txt

Po glavni direktivi "Uporabniški agent:" Pooblaščeni iskalniki lahko sledijo posebne ukaze. Med njimi se lahko najpogostejša šteje za direktivo " Obnova: " Z uporabo tega ukaza iskalnega robota lahko prepovedujete indeks spletnega vira ali njegovega dela. Vse je odvisno od tega, kako bo širitev ta direktiva. Razmislite o primerih:

Uporabniški agent: Yandex onemogoči: /

Ta vrsta vstopa v datoteko Robots.txt pomeni, da iskalni robot Yandex ni dovoljeno indeksirati to spletno mesto, saj prepovedi znak "/" stoji ponosna osamljenost in jih ne spremljajo nekatera pojasnila.

Uporabniški agent: Yandex onemogoči: / wp-admin

Kot je razvidno, tokrat so pojasnila na voljo in se nanašajo na sistemsko mapo. wP-admin. v . To pomeni, da bo robot indeksiranja s tem ukazom (predpisan v njem) zavrže indeksiranje celotne mape.

Uporabniški agent: Yandex onemogoči: / WP-Content / Teme

Tak navedba ROBOT YANDEX vključuje svoj sprejem v veliko kategorijo " vsebina WP. "V katerem lahko indeksira vse vsebine, razen" teme. ».

Raziskovamo "prepovedane" lastnosti dokumenta Robots.txt Besedilo nadalje:

Uporabniški agent: Yandex onemogoči: / Index $

V tej ekipi, kot sledi iz primera, se uporablja še en poseben znak "$". Njegova aplikacija pove robotu, da je nemogoče indeksirati te strani, v povezavah, od katerih obstaja zaporedje črk " indeks. " Hkrati indeksirajte ločeno datoteko spletnega mesta z istim imenom " index.php. »Robot ni prepovedan. Tako se "$" simbol uporablja v primeru, ko je potreben selektivni pristop k prepovedi indeksacije.

Tudi v datoteki Robots.txt lahko prepoveduje indeksacijo posameznih strani virov, v katerih obstajajo določeni znaki. Tako lahko izgleda:

Uporabniški agent: Yandex onemogoči: * & *

Ta ukaz naroči iskalno robot yandex, da ne indeksira vse strani spletnih strani, v URL-jih, od katerih najdete simbol "&". Poleg tega mora ta znak v povezavi stati med katerimi koli drugimi simboli. Vendar pa lahko obstaja druga situacija:

Uporabniški agent: Yandex onemogoči: * &

Tu prepoved indeksiranja zadeva vse te strani, katerih reference se končajo z "&".

Če ne bi smelo biti nobenega vprašanja s prepovedjo sistema indeksiranja sistemskih datotek na spletnem mestu, potem je lahko tak izdelek, ki indeksira posamezne strani virov. Kot, zakaj je to potrebno načeloma? Premisleki za te stroške pri izkušenem spletnem gospodarju je lahko veliko, vendar je najpomembnejše od njih, da se je treba znebiti iskanja iz podvojenih strani. S pomočjo "onemogočenega:" ukaz in skupin posebnih znakov, je razpravljal zgoraj, je precej preprost za boj "neželene" strani.

»Dovoli:« Dovoljenje za indeksiranje Robots.txt

Antipode prejšnje direktive se lahko šteje za ukaz " Dovoli: " Z istimi pojasnilnimi elementi, vendar z uporabo tega ukaza v datoteki robots.txt lahko dovolite robot indeksiranja, da naredite elemente spletnega mesta v postavitvi. V potrditvi - naslednji primer:

Uporabniški agent: Yandex Dovoli: / WP-Admin

Iz nekega razloga se je spletni skrbnik spremenil in naredil ustrezne prilagoditve Robotsu.txt. Kot rezultat, od zdaj na vsebini mape wP-admin. uradno dovoljeno indeksiranje Yandexa.

Kljub dejstvu, da "dovoli:" Ekipa, v praksi, se ne uporablja tako pogosto. Z velikim ni potrebe, ker se samodejno uporablja. Lastnik mesta je dovolj za uporabo Direktive o prepovedi, ki prepoveduje indeksiranje tega ali da je njena vsebina. Po tem, preostanek vsebine virov, ki ni prepovedana v datoteki Robots.txt, dojemajo iskalni robot kot taka, ki se lahko indeksira in je potrebno. Vse kot v sodni praksi: "Vse, kar ni prepovedano z zakonom, je dovoljeno."

Direktiva "Host:" in "Sitemap:"

Popoln pregled pomembnih direktiv v Robots.txt Ekipa Gostitelj: "In" Sitemap: " Kot je za prvo, je namenjeno izključno Yandexu, ki kaže na njega, katero ogledalo mesta (z www ali brez) je glavni. Na primer, spletno mesto lahko izgleda takole:

Uporabniški program: Yandex Host: stran

Uporabniški agent: Yandex Host: www.syt

Uporaba tega ukaza vam omogoča, da se izognete nepotrebnemu podvajanju vsebine spletnega mesta.

Po drugi strani pa direktiva "\\ t Sitemap: »Označuje pravilen način indeksiranja robota na tako imenovani zemljevid spletnega mesta - datoteke sitemap.xml. in sitemap.xml.gz. (V primeru CMS Wordpress). Hipotetični primer je lahko naslednji:

Uporabniški agent: * Sitemap: http: //sitemap.xml Sitemap: http: //syt/sitemap.xml.gz

S pritiskom tega ukaza v datoteki Robots.txt bo iskalni robotu hitreje indeksirala zemljevid spletnega mesta. To bo po drugi strani pospešilo postopek vstopa na spletne strani z rezultati iskanja.

Datoteka Robots.txt je pripravljen - kaj je naslednje?

Recimo, da ste kot Webmaster Novice zajeli celotno paleto informacij, ki smo jih vodili zgoraj. Kaj storiti po tem? Ustvarite besedilni dokument Robots.txt, ob upoštevanju značilnosti vašega spletnega mesta. Za to potrebujete:

uporabite urejevalnik besedila (na primer notepad), da se sestavi robots.txt, ki ga potrebujete;
preverite pravilnost ustvarjenega dokumenta, na primer s to storitvijo YANDEX;
z uporabo odjemalca FTP, prenesite končne datoteke v korensko mapo vašega spletnega mesta (v situaciji z WordPress, ponavadi gremo v mapo Public_HTML).

Da, skoraj sem pozabil. Začetek spletnega mojstra, brez dvoma, pred eksperimentiranjem, želi najprej pogledati končne primere te datoteke, ki jih izvajajo drugi. Nič ni lažje. Če želite to narediti, vnesite naslovno vrstico brskalnika site.ru/Robots.txt. . Namesto "Site.Ru" - ime vira, ki vas zanima. Samo in vse.

Uspešni poskusi in hvala za branje!

Datoteka Robots.txt se nahaja v korenskem imeniku vašega spletnega mesta. Na primer, na spletnem mestu www.example.com naslov datoteke robots.txt bo videti kot www.example.com/robots.txt. To je redna besedilna datoteka, ki izpolnjuje standard izjeme za robote, in vključuje eno ali več pravil, od katerih vsaka prepoveduje ali omogoča enega ali drugega iskalnega robota dostop do določene poti na mestu.

Spodaj je primer preproste datoteke robots.txt, ki vsebuje dva pravila in njegovo razlago.

# Pravilo 1 Uporabniški agent: GoogleBot Onemogoči: / Nogoogotbot / # Pravilo 2 Uporabniški agent: * Dovoli: / Sitemap: http://www.example.com/sitemap.xml

Interpretacija

Uporabniško ime, imenovano GoogleBot, ne sme skenirati kataloga http://example.com/nogooglebot/ in njegovih podimenikov.
Vsi drugi uporabniški agenti imajo dostop do vseh spletnih mest (lahko izpustite, rezultat bo enak, saj je popoln dostop zagotovljen privzeto).
Sitemap File. Ta spletna stran se nahaja na http://www.example.com/sitemap.xml.

Spodaj je več nasvetov za delo z datotekami Robots.txt. Priporočamo, da raziščete polno sintakso datoteke Robots.txt, saj se pri ustvarjanju datotek robots.txt uporabljajo pravila za sintakso, ko so datoteke robots.txt ne-očitne in jih morate razumeti.

Oblika in lokacija

Datoteko Robots.txt lahko ustvarite v skoraj vsakem urejevalniku besedila (mora podpirati kodiranje ASCII ali UTF-8). Ne uporabljajte besedilnega procesorja: pogosto shranjujejo datoteke v lastni obliki in jim dodajajo nesprejemljive znake, kot so kodrasti narekovaji, ki jih iskalni roboti ne prepoznajo.

Pri ustvarjanju in testiranju takih datotek uporabite orodje za preverjanje datoteke Robots.txt. Omogoča, da analizirate sintakso datoteke in ugotovite, kako bo delovala na vašem spletnem mestu.

Pravila v zvezi z obliko in lokacijo datoteke

Datoteka mora nositi ime robots.txt.
Na spletnem mestu mora biti samo ena taka datoteka.
Datoteka Robots.txt je treba namestiti root katalog Mesto. Na primer, za spremljanje skeniranja vseh strani spletnega mesta http://www.example.com/, datoteko robots.txt je treba dati na http://www.example.com/robots.txt. Ne bi smel biti v podimenik (na primer na http://example.com/Pages/Robots.txt.). V primeru težavnosti z dostopom do kataloga korenin se obrnite na ponudnika gostovanja. Če nimate dostopa do korenskega imenika spletnega mesta, uporabite metodo alternativnega blokiranja, kot je metagelet.
Datoteko Robots.txt se lahko doda na naslovov poddomene (Na primer, http: // spletna stran..example.com / robots.txt) ali nestandardna vrata (na primer http://example.com: 8181 /ROBOTS.TXT).
Komentarji so vrstice, ki se začnejo s simbolom rešetka (#).

Sintaksa

Datoteka Robots.txt mora biti besedilna datoteka v kodiranju ASCII ali UTF-8. Uporaba drugih znakov ni dovoljena.
Datoteka Robots.txt je lahko sestavljena iz enega ali več pravila.
Pravilo mora vsebovati več direktiva (Navodila), od katerih je treba vsak navesti na ločeni vrstici.
Pravilo vsebuje naslednje informacije: \\ t
- Za katere uporabniški agent. Se sklicuje na pravilo.
- obstaja dostop.
- Na katere imenike ali datoteke tega agenta ni dostopa.
Pravila se obdelujejo od zgoraj navzdol. Uporabniški agent lahko sledi samo enemu primernemu pravilu, ki bo prvič obdelan.
Privzeto se predvidevada, če dostop do strani ali imenika ni blokiran s pravilom za onemogočanje :, Uporabniški agent jih lahko obdeluje.
pravila občutljiv na register.. Torej, onemogočanje: /file.asp pravilo velja za URL http://www.example.com/file.asp, vendar ne na http://www.example.com/file.asp.

Direktive, ki se uporabljajo v datotekah Robots.txt

Uporabniški agent: V enem pravilu lahko uporabite eno ali več takih pravil. Določe robot iskalni stroj, na katerega pripada pravilo. Ta vrstica je prva v vsakem pravilu. Večina jih je navedena v podatkovni bazi internetnih robotov ali v seznamu Google Iskanje robotov. Nadomestni znak je podprt *, da označimo predpono ali pot s pripono ali celotno potjo. Uporabite tak znak (*), kot je navedeno v spodnjem primeru, da blokirate vse iskalne robote ( poleg ADSBOT robotiki jih morate določiti ločeno). Priporočamo, da se seznanite z Googlovim seznamom robotov. Primeri: # Primer 1: blok samo GoogleBot User-Agent: GoogleBot Onemogoči: / # Primer 2: Block GoogleBot in ADSBOT User-Agent: GoogleBot Uporabniški agent: ADSBOT-Google Onemogoči: / # Primer 3: Block All Adsbot Pacewlers : * Onemogočiti: /
Obnova: . Določa imenik ali stran v domeni korenin, da ne morete skenirati zgoraj opredeljenega uporabniškega agenta. Če je treba to stran določiti polno pot do nje, kot v naslovni vrstici brskalnika. Če je to imenik, se mora pot do konca končati s poševnico (/). Nadomestni znak je podprt *, da označimo predpono ali pot s pripono ali celotno potjo.
Dovoli: V vsakem pravilu mora obstajati vsaj ena direktiva o onemogočanju: ali dovolite: \\ t. Določa imenik ali stran v domeni korenin, da ne morete skenirati zgoraj opredeljenega uporabniškega agenta. Uporablja se za preklic pravila za onemogočanje in omogočajo skeniranje podimenika ali strani v zaprtem imeniku skeniranja. Če je treba to stran določiti polno pot do nje, kot v naslovni vrstici brskalnika. Če je to imenik, se mora pot do konca končati s poševnico (/). Nadomestni znak je podprt *, da označimo predpono ali pot s pripono ali celotno potjo.
Sitemap: Po izbiri so lahko takšne direktive nekoliko ali ne bodo v celoti. Določa lokacijo datoteke kazalnika na tem spletnem mestu. URL mora biti popoln. Google ne nadaljuje in ne preverja variant URL-jev s predpona HTTP in HTTPS ali z WWW ali brez njega. Datoteke Sitemap Poročilo Google, katere vsebine moram skeniranje in kako ga razlikovati od vsebine, ki lahko ali to je nemogoče skeniranje. Spoznajte dodatne informacije o datotekah kazalke. Primer: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Neznane ključne besede se ne upoštevajo.

Še en primer

Datoteka Robots.txt je sestavljena iz enega ali več sklopov pravil. Vsak set se začne z nizom uporabniškega agenta, ki opredeljuje robot, ki podreje pravila v nizu. Tukaj je primer datoteke z dvema praviloma; Pojasnjeni so z vgrajenimi pripombami:

# Blokirajte dostop GoogleBot Robot do ekspanda.com/directory1 / ... in primer.com/directory1 / ... in primer.com/directory2 / ... # ... #, vendar dovolite dostop do imenika2 / subdiraktory1 / ... # Dostop do vseh drugih imenikov je privzeto dovoljen. Uporabniški agent: GoogleBot Onemogovnost: / Directory / Omahlow: / Directory2 / Dovoli: / imenik2 / Podnapisi1 / # Block Access do celotnega mesta na drug iskalnik. Uporabniški agent: Drug Krawler onemogoči: /

Polna sintaksna datoteka robots.txt

Polna sintaksa je opisana v tem članku. Priporočamo, da se seznanite z njo, kot v skladu s sintakso robots.txt datoteke, obstajajo nekatere pomembne nianse.

Koristna pravila

Tukaj je nekaj skupnih pravil za datoteko Robots.txt:

Pravilo	Primer
Prepoved skeniranja celotnega spletnega mesta. Opozoriti je treba, da je v nekaterih primerih URL spletnega mesta lahko prisoten v indeksu, tudi če niso bili skenirani. Upoštevajte, da to pravilo ne velja za robote ADSBOT, ki jih je treba določiti ločeno.	Uporabniški agent: * Onemogoči: /
Prepovedati skeniranje kataloga in vse vsebinePreverite po imenu imena kataloga. Ne uporabljajte datoteke Robots.txt za zaščito zaupnih informacij! Za te namene je treba uporabiti preverjanje pristnosti. URL, katerega skeniranje je prepovedano z datoteko robots.txt, se lahko indeksira, in vsebina datoteke Robots.txt lahko ogledate vsakega uporabnika in tako ugotovi, da je lokacija datotek z zaupnimi informacijami.	Uporabniški agent: * Onemogoči: / Koledar / Onemogoči: / Junk /
Resolucija skeniranja samo za enega iskalnega robota	Uporabniški agent: GoogleBot-Novice Dovoli: / Uporabniški agent: * Onemogoči: /
Resolucija skeniranja za vse iskalne robote, z izjemo enega	Uporabniški agent: UnderyBot Onemogoči: / Uporabniški agent: * Dovoli: /
Da bi preprečili skeniranje ločene strani, Podajte to stran po poševanju.	Onemogoči: /private_file.html.
Skrivanje določene slike iz Googlovih robotskih slik	Uporabniški agent: GoogleBot-Slika onemogoča: /images/dogs.jpg
Če želite skriti vse slike s svojega spletnega mesta iz fotografij Google Robot	Uporabniški agent: GoogleBot-image onemogoči: /
Da bi preprečili skeniranje vseh datotek določenega tipa (v tem primeru GIF)	Uporabniški agent: GoogleBot onemogoči: /*.gifva
Blokirati določene strani strani, vendar še naprej kažejo oglase AdSenseUporabite pravilo za onemogočanje vseh robotov, razen MediaPartners-Googla. Posledica tega je, da bo ta robot lahko dostopal do oddaljenih strani od rezultatov iskanja, da izberete oglase za prikaz enega ali drugega uporabnika.	Uporabniški agent: * Onemogoči: / Uporabniški agent: MediaPartners-Google Dovoli: /
Če želite določiti URL, ki se konča z nekaterimi znaki Uporabite simbol $. Na primer, za URL-je, ki se končajo z on-linexls, uporabite naslednjo kodo:	Uporabniški agent: GoogleBot onemogoči: /*.XLS $

Je bil ta članek koristen?

Kako lahko izboljšam ta članek?

V SEO se ne zgodi. Včasih lahko na promociji mesta vpliva samo na eno majhno datoteko - robots.txt.

Če želite, da vaše spletno mesto pravilno vnese indeks, tako da iskalni roboti obidejo strani, ki jih potrebujete, morate registrirati za njih priporočila.

»Ali je mogoče?« - Vprašate.Mogoče. Za to mora biti vaše spletno mesto datoteka robots.txt.

Kako narediti prav in ga napolnite v spletno mesto - razumemo ta članek.

Končana datoteka robots.txt mora biti v korenski mapi mesta. Samo datoteka, brez mape:

Želite preveriti, ali je na vašem spletnem mestu? Naslov v naslovni vrstici smo vzeli: site.ru/Robots.txt.. Našli boste to stran (če je datoteka):

Datoteka je sestavljena iz več blokov, ločenih z alinea. V vsakem bloku - priporočila za iskalne robote različnih iskalnikov (plus blok s splošnimi pravili za vse), in ločeno enoto s sklicevanjem na zemljevid spletnega mesta - kazalo.

V notranjosti bloka s pravili za enega iskalnega robota, alinenj ni treba storiti.

Vsaka enota se začne z uporabo direktive o uporabniku agenta.

Po vsaki direktivi znak ":" (debelega črevesa), prostor, po katerem je vrednost določena (na primer, katera stran za zaprtje indeksiranja).

Morate določiti relativne točke strani, ne absolutno. Relativna - to je brez www.site.ru. Na primer, morate prepovedati indeksiranjewww.site.ru/shop.. Torej po debelem črevesu smo postavili vrzel, poševnico in "Trgovina":

Obnovajte: / Shop.

Zvezdica (*) označuje kateri koli niz znakov.

Dollar Sign ($) - konec črte.

Lahko se odločite, zakaj napisati datoteko iz nič, če jo lahko odprete na katerem koli mestu in se samo kopirate?

Za vsako spletno mesto morate predpisati edinstvena pravila. Treba je upoštevati funkcije. Na primer, isti admin se nahaja na / wp-admin na wordpress motor, naslov se bo razlikoval na drugi. Enako z naslovi posameznih strani, z zemljevidom spletnega mesta in drugim.

Kako konfigurirati robots.txt

Kot ste že videli na posnetku posnetka zaslona, \u200b\u200bje prva direktiva o uporabniku agenta. Označuje, kako bo iskalni robot šel spodaj.

Uporabniški agent: * - Pravila za vse iskalne robote, to je kateri koli iskalnik (Google, Yandex, Bing, Rambler itd.).

Uporabniški agent: GoogleBot - označuje pravila za Google Search Spaard.

Uporabniški agent: Yandex - Pravila za iskanje Robot Yandex.

Za iskanje robota za registracijo pravil najprej ni razlike. Ponavadi prvič napišete priporočila za vse robote.

Prepoved indeksacije: robots.txt onemogoči

Za prepoved indeksiranja spletnega mesta na splošno ali posameznih straneh se uporablja Direktiva o onemogočanju.

Na primer, lahko v celoti zaprete spletno mesto iz indeksiranja (če je vir na izboljšanju, in ne želite, da pade v izdajo v takem stanju). Za to morate registrirati naslednje:

Uporabniški agent: *

Obnova: /

Tako so vsi iskalni roboti prepovedani indeks vsebine na spletnem mestu.

In tako lahko odprete spletno mesto za indeksiranje:

Uporabniški agent: *

Obnova:

Zato preverite, ali je po odpravi Direktive poševnica, če želite zapreti spletno mesto. Če ga želite odpreti - ne pozabite odstraniti pravila (in se pogosto zgodi).

Če želite zapreti ločene strani iz indeksiranja, morate določiti svoj naslov. Sem že napisal, kako je to storjeno:

Uporabniški agent: *

Onemogoči: / wp-admin

Tako, na mestu, zaprto od adhezije tretjih oseb.

Kaj morate zapreti iz indeksacije nujno:

upravni odbor;
osebne strani uporabnikov;
košare;
rezultati iskanja na spletnem mestu;
strani vnosa, registracije, avtorizacije.

Lahko se zaprete od indeksiranja in posameznih vrst datotek. Recimo, da imate nekaj datotek na spletnem mestu, katerih indeksacija je nezaželena. Roboti iskanja so zelo enostavni za skeniranje datotek, ki so poplavljene na spletno mesto. Zapri jih iz indeksacije na naslednji način:

Uporabniški agent: *

Oprostite: / *. Pdf $.

Dovoli indeksiranje: Robots.txt Dovoli

Tudi s spletnim mestom je popolnoma zaprto od indeksiranja, lahko odprete pot do določenih datotek ali strani. Recimo, da predelate spletno mesto, vendar imenik s storitvami ostaja nedotaknjen. Lahko pošljete iskalne robote tam, da še naprej indeksirate razdelek. Če želite to narediti, uporabite Direktivo o dovoljenju:

Uporabniški agent: *

Dovoli: / USLUGI

Obnova: /

Glavna Zrcalna stran: Robots.txt

Do 20. marca 2018 v datoteki Robots.txt za iskanje Rob Yandex, je bilo treba navesti glavno ogledalo spletnega mesta prek direktive o gostiteljici. Zdaj ni potrebno storiti - dovolj.

Kaj je glavno ogledalo? To je tisto, kar je naslov vaše spletne strani glavna stvar - z www ali brez. Če ne konfigurirate preusmeritve, bosta oba mesta indeksirana, to je, da bo podvajanje vseh strani.

Sitemap: Robots.txt Sitemap

Ko so predpisane vse direktive za robote, morate podati pot do spletnega mesta. Zemljevid strani prikazuje robote, ki so vsi URL-ji, ki jih je treba indeksirati, na določenem naslovu. Na primer:

Sitemap: Site.ru/sitemap.xml.

Ko je robot okoli, bo videl, katere spremembe v to datoteko. Posledica tega je, da bodo nove strani indeksirale hitreje.

Direktiva o čistih paramih

Leta 2009 je Yandex uvedel novo direktivo - čist param. Z njim lahko opišete dinamične parametre, ki ne vplivajo na vsebino strani. Najpogosteje se ta direktiva uporablja na forumih. Obstaja veliko smeti, kot je ID seje, razvrščanje parametrov. Če je ta direktiva predpisana, iskalni robot yandex ne bo pomnožil informacije, ki so podvojene.

To direktivo lahko registrirate kjerkoli v datoteki robots.txt.

Parametri, ki jih ni treba upoštevati robot, so navedeni v prvem delu vrednosti preko &:

CLEAN-Param: Sid & Sort /foram/viewforum.php

Ta direktiva preprečuje dvojne strani z dinamičnimi naslovi (ki vsebujejo vprašaj).

Direktiva o zamudi z pajkanjem

Ta direktiva bo pomagala tistim, ki imajo šibki strežnik.

Prihod iskalnega robota je dodatna obremenitev na strežniku. Če imate visoko spletno stran, vir morda preprosto ne prenese in "laži". Kot rezultat, bo robot prejel sporočilo o napaki 5xx. Če se takšna situacija nenehno ponovi, se spletno mesto lahko prepozna kot iskalnik ne deluje.

Predstavljajte si, da delate, in vzporedno morate nenehno odgovoriti na klice. Vaša produktivnost v tem primeru pade.

Samo s strežnikom.

Vrnimo se na direktivo. Crawl-zakasnitev vam omogoča, da nastavite zakasnitev skeniranja mesta, da zmanjšate obremenitev na strežniku. Z drugimi besedami, določite obdobje, po katerem bodo na voljo strani spletne strani. Ta parameter določa v nekaj sekundah, celo število:

mapa robots.txt. - To je običajna datoteka z razširitvijo.txt, ki se lahko ustvari z navadnimi prenosnimi okni. Ta datoteka vsebuje navodila za indeksiranje za iskalne robote. Postavite ta datotečni korenski imenik na gostovanje.

Pri vstopu na spletno mesto se iskalni robot najprej pritoži na datoteko Robots.txt, da bi dobili navodila za nadaljnje ukrepanje in ugotovili, katere datoteke in imeniki so prepovedani indeksiranjem. mapa robots.txt. Nosi priporočilo za iskalnike. Nemogoče je povedati, da vse datoteke, ki so prepovedane indeksiranja, ne bodo indeksirale.

Upoštevajte najpreprostejši primer datoteke Robots.txt. Ta datoteka vsebuje naslednje vrstice:

Uporabniški agent: * Onemogoči: / WP-admin / onemogočiti: / slike /

Prva vrstica označuje, kateri iskalni roboti ta navodila veljajo. V tem primeru je označena z zvezdico - to pomeni, da se navodila nanašajo na vse raziskovalne robote. Če morate določiti navodila za določen robot iskanja, morate registrirati njegovo ime. Druga in tretja vrstica prepoveduje indeksacijo imenika WP-Admin in Slike.

Za iskanje Rob Yandexa je pomembno tudi, da predpišete imenik gostitelja, ki označuje glavno ogledalo spletnega mesta:

Uporabniški agent: Yandex onemogoči: / wp-admin / onemogočiti: / slike / gostitelja: yoursite.ru

Primeri pisanja datoteke robots.txt za določene naloge

1. Ne prepovedujte robotov kakršnih koli iskalnih motorjev spletnega mesta:

Uporabniški agent: GoogleBot onemogoči: /

4. Ne prepovedujte indeksiranja samo enega robota (na primer, GoogleBot) in prepoveduje indeksiranje na vse druge iskalne robote:

Uporabniški agent: GoogleBot onemogoči:

Uporabniški agent: * Opomba: / admin / onemogoči: / wp-vsebina / onemogoči: / slike /

Uporabniški agent: * onemogoči: /news/webnews.html Onemogovnost: /content/page.php

Uporabniški agent: * onemogoči: /page.php onemogočiti: / unki.htm onemogočiti: /secret.html

Osnovna pravila za pisanje robots.txt

Pri pisanju datoteke robots.txt so napake pogosto dovoljene. Da bi se jim izognili, upoštevamo osnovna pravila:

1. Napisati vsebino datoteke samo z velikimi črkami.
2. V navodilih za onemogočanje, morate določiti samo en imenik ali eno datoteko.
3. String "Uporabniški agent" ne sme biti prazen. Če se navodilo nanaša na vse iskalne robote, potem morate določiti zvezde, in če na določen iskalni robot, nato določite njegovo ime.
4. Spremenite navodila za prepoved in uporabniško agencijo na mestih.
5. V direktivi o gostiteljici, ki se uporablja za Yandex, mora biti naslov naše spletne strani določen brez HTTP protokola in brez zaključnega poševanja.
6. Ko prepoveduje indeksiranje imenika, je treba predpisati poševnice.
7. Preden ga prenesete na strežnik, preverite datoteko robots.txt. To se bo izognilo v prihodnjih možnih težavah z indeksiranjem spletnega mesta.

Robots.txt za spletno mesto je besedilna datoteka indeksa v kodiranju UTF-8.

Indeks je bil imenovan, ker je predpisana priporočila za iskalne robote - katere strani je treba skenirati, in ki ni potrebe.

Če se kodiranje datotek razlikuje od UTF-8, lahko roboti iskanja nepravilno zaznavajo informacije v njem.

Datoteka velja za HTTP, HTTPS, FTP protokole in ima tudi "moč" samo v številki gostitelja / protokola / vrat, na kateri se nahaja.

Kje je Robots.txt na spletnem mestu?

Datoteka Robots.txt ima lahko samo eno lokacijo - korenski imenik na gostovanju. Izgleda tako: http://vash-site.xyz/robots.txt

Roboti TXT datoteke direktive za stran

Zahtevane komponente datoteke Robots.txt za spletno mesto so pravilo za onemogočanje in navodila uporabniškega agenta. Obstajajo sekundarna pravila.

Onemogoči pravilo

Prepoložitev je pravilo, s katerim iskalni robot poroča informacije o tem, katera skeniranje strani nima smisla. In takoj več posebnih primerov uporabe tega pravila: \\ t

Primer 1 - dovoljeno indeksirati celotno spletno mesto:

Primer 2 - Če želite popolnoma prepovedati indeksacijo mesta:

V tem primeru bo neuporabna. Uporaba tega primera je pomembna, če je spletno mesto "zaprto" za prefinjenost (na primer nepravilno funkcije). V tem primeru spletno mesto v rezultatih iskanja ni kraj, zato je potrebno skozi datoteko ROBOTS TXT, da se zapre iz indeksacije. Seveda, po zaključku spletnega mesta je treba prepoved indeksiranja odstraniti, vendar jih pozabijo.

Primer 6 - Kot v roboti TXT, blizu indeksiranja datotek določene razširitve (v tem primeru - .gif):

Asterisk pred .gif $ poroča, da je ime datoteke lahko vse, in $ znak poroča konec vrstice. Ti. Takšna "maska" prepoveduje skeniranje v vseh vseh GIF datotekah.

Dovoli pravilo v robotih TXT

Pustite pravilo, da vse do nasprotnega - omogoča indeksiranje datoteke / mape / strani.

In takoj določen primer:

To že vemo, da s pomočjo Direktive o onemogočitvi: / lahko zapremo spletno mesto iz indeksacije robotov TXT. Hkrati imamo dovoljenje za dovolitev: / katalog, ki omogoča skeniranje mape / kataloga. Zato bo kombinacija teh dveh pravil iskalnih robotov dojemala kot "prepovedano skeniranje spletne strani, z izjemo mape / kataloga"

Pravila za razvrščanje in omogočanje in onemogočanje direktiv je narejena za povečanje dolžine predpone URL-jev in se uporablja zaporedno. Če je več pravil, primernih za isto stran, potem robot izbere zadnjo primerno s seznama.

Razmislite 2 situacijah z dvema praviloma, ki se medsebojno nasprotujeta - eno pravilo prepoveduje mape indeksiranje / vsebino, drugi pa omogoča.

V tem primeru bo prednostna naloga Direktive o dovoljenju, ker Pod seznamom je:

Toda tukaj je prednostna naloga Direktiva o onemogočanju iz istih razlogov (pod seznamom):

Uporabniški agent v robotih TXT

Uporabniški agent je pravilo, da je "pritožba" na iskalni robot, pravijo, "Seznam priporočil posebej za vas" (mimogrede, seznami v robots.txt je lahko nekoliko - za različne iskalne robote iz Googla in Yandexa ).

Na primer, v tem primeru pravimo "Hej, GoogleBot, Gre tukaj, tukaj za vas posebej usposobljeni seznam priporočil", in on je tak "OK, še posebej zame - to pomeni posebej zame" in drugi seznami ne bodo skeniranje.

Pravilni roboti TXT za Google (GoogleBot)

Približno isto zgodbo z iskanjem Bot Yandexa. Tekmo naprej, seznam priporočil za Yandex skoraj v 100% primerov se nekoliko razlikuje od seznama za druge iskalne robote (kot - bomo povedali malo kasneje). Toda bistvo istega: "Hej, Yandex, za vas ločen seznam" - "OK, zdaj ga bom preučil."

Ti. Če ima isti robots.txt 3 seznam z uporabniškim agentom: *, uporabniški agent: Googlebot in uporabniški agent: Yandex, to pomeni, da je ena "ena za vse", razen Googlebot in Yandexa, t. Za. Za njih so "osebni" seznami.

Zemljevid strani

Pravilo Zemljevid mesta je lokacija datoteke s strani XML kartice, ki vsebuje naslove vseh strani, ki so obvezne za skeniranje. Praviloma je naveden naslov tipa http://site.ua/sitemap.xml.

Ti. Vsakič, ko bo iskalni robot videl zemljevid spletnega mesta za videz novih naslovov, in nato pojdite na njih za nadaljnje skeniranje, da bi osvežili informacije o spletnem mestu v podatkovnih bazah iskalnika.

Pravilo zemljeviževanja mora biti napisano v Robots.txt na naslednji način:

Direktiva.

Obvezna je tudi direktiva o internatih gostiteljici v datoteki Robots.txt. Potrebno je, da ga iskanje robot Yandex - obvesti, katera od mestnih ogledal je treba upoštevati pri indeksiranju. Zato je za Yandex oblikovan ločen seznam pravil, ker Google in preostali iskalniki ne razumejo direktive o gostiteljici. Torej, če ima vaše spletno mesto kopije ali spletno mesto, se lahko odpre pod različnimi naslovi URL-jev, dodajte direktivo o gostitelju roboti TXT datoteke na spletne strani, ki so pravilno indeksirane.

"Zrcalno ogledalo" se imenuje bodisi natančno ali skoraj natančno "kopijo" spletnega mesta, ki je na voljo na drugem naslovu.

Naslov glavnega ogledala mora biti naveden na naslednji način: \\ t

Za HTTP - Gost: Site.ua ali gostitelja: http://site.ua (i.e. http: // piše na voljo)

Za HTTPS - gostiteljske strani: https://site.ua (i.e. https: // predpisano obvezno)

Primer direktive o gostiteljici v robotih TXT za spletno mesto na PROTOKOLU HTTPS:

Zakasnitev pajkanja.

V nasprotju s prejšnjimi tisti, parameter zajetja pajka ni več obvezen. Glavna naloga je, da se poziva robot iskanja, koliko sekund pa bodo naložene strani. Običajno se uporablja, če uporabljate šibke strežnike. Le za Yandex.

Čist param.

S pomočjo direktive Clean-Param se lahko ukvarjate s parametri Get, da se vsebina ne podvoji, ker Enaka vsebina je na voljo pri različnih dinamičnih povezavah (to so tiste z vprašanji). Dinamične povezave lahko ustvari spletno mesto, ko se uporablja različna razvrščanja, se uporabljajo identifikatorji sej itd.

Na primer, enake vsebine lahko na voljo v treh naslovih:

www.site.com/catalog/get_phone.ua?ref\u003dpage_1&phone_id\u003d1.

www.site.com/catalog/get_phone.ua?ref\u003dpage_2&phone_id\u003d1.

www.site.com/catalog/get_phone.ua?ref\u003dpage_3&phone_id\u003d1.

V tem primeru je Direktiva o čisti paramis pripravljena tako:

Ti. Po debelem črevesu se atribut Ref predpiše vir reference, in šele potem je označen njegov "rep" (v tem primeru - /CATALOG/GET_PHONE.UA).

Najpogostejša vprašanja

Kako prepovedati indeksiranje v robots.txt?

Za te namene je izumil pravilo za onemogočanje: t.j. Kopirajte povezavo do dokumenta / datoteke, da se zaprete iz indeksacije, jo vstavite po debelem črevesu:

Obnovajte: http://your-site.xyz/privance.html.

Onemogoči: http://your-site.xyz/foord.doc.

Obnova: http://your-site.xyz/barcode.jpg.

In nato izbrišite naslov domene (v tem primeru, morate izbrisati ta del - http://your-site.xyz). Po odstranitvi bomo ostali točno to, kar bi moralo ostati:

Obnovajte: /Privance.html.

Onemogoči: /foord.doc.

Obnova: /Barcode.jpg.

No, če želite zapreti vse datoteke s posebno razširitvijo iz indeksiranja, bodo pravila izgledala takole:

Onemogoči: /*.html.

Onemogoči: /*.doc.

Obnova: /*.jpg.

Kako določiti glavno ogledalo v robots.txt?

V ta namen je izumila direktiva o gostiteljici. Ti. Če so naslovi http://your-site.xyz in http://yourosite.com "ogledala" istega spletnega mesta, potem je eden od njih določen v direktivi o gostiteljici. Naj bo glavno ogledalo http://your-site.xyz. V tem primeru bodo pravilne možnosti naslednje:

Če spletno mesto deluje na protokolu HTTPS, potem morate storiti samo:

Uporabniški agent: Yandex

Obnovajte: /Privance.html.

Onemogoči: /foord.doc.

Obnova: /Barcode.jpg.

Gostitelj: https://your-site.xyz.

Če spletna stran deluje na protokolu HTTP, bosta popravljena obe naslednjih možnosti:

Uporabniški agent: Yandex

Obnovajte: /Privance.html.

Onemogoči: /foord.doc.

Obnova: /Barcode.jpg.

Gostitelj: http://your-site.xyz.

Uporabniški agent: Yandex

Obnovajte: /Privance.html.

Onemogoči: /foord.doc.

Obnova: /Barcode.jpg.

Host: Your-site.xyz.

Vendar pa je treba opozoriti, direktiva gostiteljica je priporočilo, in ne pravilo. Ti. Možno je, da bo ena domena določena v gostitelju in Yandexu bo preučil drugo ogledalo, če se vstavite ustrezne nastavitve na plošči Webmaster.

Najenostavnejši primer desnega robota .txt

V tej obliki se lahko datoteka robots.txt namesti skoraj na katerem koli mestu (z najmanjšimi prilagoditvami).

Poglejmo zdaj, kaj je tam.

Tukaj je 2 seznam pravil - ena "osebno" za Yandex, drugo - za vse druge iskalne robote.
Pravilo za onemogočanje: prazno, kar pomeni, da ni prepovedi skeniranja.
Direktiva o gostiteljici je prisotna na seznamu Yandex z navedbo glavnega ogledala, kot tudi povezavo do zemljevida spletnega mesta.

Ampak ... to ne pomeni, da je potrebno, da roboti.txt na ta način. Pravila morajo biti napisana izključno individualno za vsako spletno mesto. Na primer, ni smiselno indeksirati "tehničnih" strani (strani za prijavo gesla, ali testne strani, ki delujejo nove oblike spletnega mesta, itd). Posledica pravila je odvisna tudi od uporabljenih CMS.

Zaprto od mesta indeksiranja - kaj izgleda robots.txt?

Takoj dajemo pripravljeno kodo, ki bo omogočila prepoved indeksiranja spletnega mesta, ne glede na CMS:

Kako določiti glavno ogledalo za spletno mesto na https robots.txt?

Zelo preprosto:

Gostitelj: https://your-site.xyz.

POMEMBNO !!! Za spletna mesta HTTPS mora protokol navesti strogo potrebne!

Najpogostejše napake v Robots.txt

Še posebej za vas, smo pripravili izbor najpogostejših napak, ki so dovoljene v Robots.txt. Skoraj vse te napake združuje eno - jim je dovoljeno nepazljivost.

1. Utrujena navodila:

Pravilna možnost:

2. V enem onemogočniku se vstavi veliko map:

V takem zapisu se lahko robot zmede. Katero mapo ni mogoče indeksirati? Prvič? Zadnje? Ali vse? Ali kako? Ali kaj? Ena mapa \u003d ena onemogoči pravilo in nič drugega.

3. Ime datoteke je dovoljeno samo eno robots.txt in vse črke so majhne. Imenuje robots.txt, robots.txt itd. ni dovoljeno.

4. Pravilo uporabniškega agenta je prepovedano pustiti prazno. Določite ime iskalnega robota (na primer za Yandex) ali dajte zvezdico (za vse druge).

5. Smeti v datoteki (dodatne poševnice, zvezdice itd.).

6. Dodajanje polnopravnih naslovov skritih strani v celotno naslovno datoteko, včasih pa tudi brez pravila o onemogočanju.

Napačna:

http://mega-site.academy/serrot.html.

Prav tako je narobe:

Opomba: http://mega-site.academy/serrot.html.

Prav:

Onemogoči: /serrrot.html.

Online preveri datoteko robots.txt

Obstaja več načinov, da preverite datoteko robots.txt za skladnost s standardnim standardom.

Metoda 1. Registrirajte se v panelih Yandex in Google Wizard. Edini minus - morate kopati, da se ukvarjate s funkcionalnostjo. Naslednje spremembe so narejene in dokončana datoteka je narejena za gostovanje.

Metodifikacija 2. Uporaba spletnih storitev:

Https://services.sl-team.ru/Other/Robots/

Https://technicseo.com/seo-tools/robots-txt /

Http://tools.seochat.com/tools/robots-txt-validator/

Torej se oblikuje robots.txt. Ostaja samo za preverjanje napak. To je najbolje uporabiti za ta orodja, ki jih ponujajo iskalniki sami.

Google Weogo webmasters (Console Console Google): Gremo na račun, če spletno mesto ni potrjeno - potrdite, nato pa pojdite na skeniranje -\u003e robots.txt orodje za preverjanje datoteke.

Tukaj lahko:

takoj zaznajte vse napake in morebitne težave
takoj "na kraju samem" za spremembo sprememb in ponovno preverjanje napak (tako da se datoteke ne znova zažene na spletno mesto 20-krat)
preverite pravilnost prepovedi in dovoljenj indeksiranja strani.

To je analog prejšnjega, razen:

dovoljenje ni potrebno;
potrditev pravic do spletnega mesta ni potrebno;
na voljo je obsežen pregled strani dostopnosti;
prepričajte se, da Yandex pravilno zaznava vsa pravila.

Pripravljene rešitve za najbolj priljubljene CMS

Pravilno robots.txt za Wordpress

Obnovajte: / CGI-BIN # Classic žanr

Obnovajte: /? # Kakršne koli parametre zahtevka na glavnem

Obnovajte: / WP- # Vse datoteke WP: / WP-JSON / / WP-vključuje / WP-Content / Plugins

Obnovajte: *? S \u003d # Iskanje

Obnovajte: * & S \u003d # Iskanje

Opomba: / Iskanje # Iskanje

Obnovajte: *? Priključek_ID \u003d # Investicijska stran. Pravzaprav, na preusmeritvi ...

Obnovajte: * / Feed. Vsi fidsi

Obnovajte: * / RSS # RSS FID

Onemogoči: * / Vlagati # vse vdelave

Obnovajte: * / Stran / # Vse vrste paginacij

Dovoli: * / Uploads # Odpri nalaganje

Dovoli: /*/*.JS # znotraj / wp- (/ * / - za prednost)

Dovoli: /*/*.CSS # znotraj / wp- (/ * / - za prednost)

Dovoli: /wp-*.png # Slike v vtičnikih, mapi predpomnilnika itd.

Dovoli: /wp-*.jpg # Slike v vtičnikih, mapo predpomnilnika itd.

Dovoli: /wp-*.jpeg # Slike v vtičnikih, mapo predpomnilnika itd.

Dovoli: /wp-*.gif # Slike v vtičnikih, mapi predpomnilnika itd.

Dovoli: /wp-*.svg # Slike v vtičnikih, mapo predpomnilnika itd.

Dovoli: /wp-*.pdf # datoteke v vtičnikih, mapo predpomnilnika itd.

#Disallow: / wp / # Ko je WP nameščen v Podrobno WP

Sitemap: http://site.ru/sitemap2.xml # Še ena datoteka

#SiteMap: http://site.ru/sitemap.xml.gz # stisnjena različica (.gz)

Gostitelj: www.site.ru # za Yandex in Mail.ru. (križišče)

# Koda različice: 1.0

# Ne pozabite spremeniti "Site.Ru" na vašem spletnem mestu.

Analiziramo robote TXT File kodo za WordPress CMS:

Tukaj kažemo, da so vsa pravila pomembna za vse iskalne robote (z izjemo tistih, za katere se zbirajo »osebni» seznami «). Če je seznam pripravljen za določen robot, potem * spremeni ime robota:

Uporabniški agent: Yandex

Uporabniški agent: GoogleBot

Dovoli: * / Uploads

Tukaj zavestno dajemo dobro indeksiranje referenc, ki vsebujejo / nalaganje. V tem primeru je to pravilo obvezno, ker WordPress Engine ima imenik / WP-Content / Prenese (v kateri slike lahko vsebujejo, ali drugo »odprto« vsebino), katere indeksiranje je prepovedano z onemogočanje: / WP. Zato z uporabo dovoljene: * / uploads, izjemo izjeme od zavrnitve: / wp-.

Ostalo preprosto pojdite na indeksiranje:

Obnovajte: / CGI-BIN - Ban indeksiranje scenarija

Opomba: / Feed - Prepoved RSS Fedd Scan

Obnovajte: / Trackback - Pregled obveščanja o prepovedi

Onemogoči :? s \u003d ali onemogoči: *? S \u003d - prepoved indeksiranja strani notranje iskalne strani

Obnova: * / Stran / - Prepoved indeksiranja vseh vrst paginacije

Sitemap Pravilo: http://site.ru/sitemap.xml Določa pot Yandex Robot do datoteke s kartico XML. Pot mora biti v celoti registrirana. Če je več datotek več pravil o kazalniku (1 datoteka \u003d 1 pravilo).

V gostitelju: Site.Ru Row, smo posebej predpisali glavno ogledalo spletnega mesta. Navedena je, da se preostala ogledala indeksirajo enako. Prazen niz pred gostiteljem: je obvezen.

Kje so roboti TXT WordPress, vse verjetno veste - saj morata v drugih CMS ta datoteka v korenskem imeniku mesta.

Datoteke robots.txt za joomla

Joomla - skoraj najbolj priljubljen motor v webmasters, ker Kljub najširšim možnostim in veliko pripravljenim rešitvam je dobavljeno brezplačno. Vendar pa redne robots.txt vedno smiselno, da popravi, ker Za indeksiranje, preveč "smeti", vendar so slike zaprte (to je slabo).

Tako izgleda pravi robots.txt za Joomla:

Oprostite: / Administrator /

Obnovajte: / Cache /

Obnovajte: / Komponente /

Oprostite: / Slike /

Obnovajte: / vključuje /

Oprostite: / Namestitev /

Obnovajte: / Jezik /

Obnovajte: / Postavitve /

Oprostite: / Knjižnice /

Oprostite: / hlodi /

Obnovajte: / Media /

Obnovajte: / Module /

Oprostite: / Plugins /

Obnovajte: / Predloge /

robots.txt wix.

Platforma WIX samodejno generira robots.txt datoteke osebno za vsako wix stran. Ti. Dodajte /robots.txt na svojo domeno (na primer: www.domain.com/robots.txt) in lahko varno raziščete vsebino datoteke robots.txt, ki je na vašem spletnem mestu.

Uredi robots.txt je nemogoče. Vendar pa z uporabo noindexa, lahko zaprete nekaj specifičnih strani iz indeksiranja.

robots.txt za Opencart.

Standardni robots.txt datoteka za OpenCart:

Onemogoči: / * pot \u003d račun /

Obnovajte: / * pot \u003d affiliate /

Obnovajte: / * Pot \u003d Checkout /

Obnovajte: / admin

Obnova: / Katalog

Oprostite: / Prenesi

Onemogoči: / izvoz

Obnovajte: / Sistem

Oprostite: / *? Razvrsti \u003d

Obnovajte: / * & Sort \u003d

Onemogoči: / *?

Onemogoči: / * in red \u003d

Onemogoči: / *?

Onemogoči: / * & limit \u003d

Onemogočite: / *? Filter_name \u003d

Onemogoči: / * & Filter_name \u003d

Onemogoči: / *? Filter_sub_category \u003d

Obnova: / * & Filter_Sub_Category \u003d

Onemogočite: / *? Filter_description \u003d

Obnova: / * & Filter_description \u003d

Onemogočite: / *?

Onemogoči: / * in sledenje \u003d

Onemogoči: / *?

Obnova: / * & Page \u003d

Onemogoči: / seznam želja

Obnovajte: / Prijava

Uporabniški agent: Yandex

Onemogoči: / * pot \u003d račun /

Obnovajte: / * pot \u003d affiliate /

Obnovajte: / * Pot \u003d Checkout /

Opomba: / * pot \u003d izdelek / iskanje

Opomba: /index.php?route\u003dproduct/product*&manufacturer_id\u003d.

Obnovajte: / admin

Obnova: / Katalog

Oprostite: / Prenesi

Onemogoči: / izvoz

Obnovajte: / Sistem

Oprostite: / *? Razvrsti \u003d

Obnovajte: / * & Sort \u003d

Onemogoči: / *?

Onemogoči: / * in red \u003d

Onemogoči: / *?

Onemogoči: / * & limit \u003d

Onemogočite: / *?

Onemogoči: / * in sledenje \u003d

Opomba: / * pot \u003d izdelek / iskanje

Onemogoči: / *?

Obnova: / * & Page \u003d

Čisto param: sledenje

Clean-Param: Filter_name

Clean-Param: Filter_Sub_Category

CLEAN-Param: Filter_description

Onemogoči: / seznam želja

Obnovajte: / Prijava

Onemogoči: /index.php?route\u003dproduct/manufacturer.

Obnovajte: /index.php?route\u003dproduct/compare.

Onemogoči: /index.php?route\u003dproduct/category.

Gostitelj: Vash_domeren.

Sitemap: http: // vash_domen / asitemap.xml

robots.txt za bitrix (bitrix)

1. Mape / bitrix in / CGI-zaboj je treba zapreti, ker To je povsem tehnični "smeti", ki ga ni treba zasijati v rezultatih iskanja.

Obnovajte: / Bitrix

Obnovajte: / CGI-BIN

2. Mapa za iskanje ne predstavlja nobenega interesa ali iskalnikov. Da, in nihče ne potrebuje dvojnega. Zato ga zapremo.

Disalow: / Iskanje

Obnovajte: / Auth /

Obnovajte: /auth.php.

4. Materiali za tiskanje (na primer račun za plačilo) Prav tako ni smiselno zasiliti rezultate iskanja. Blizu.

Onemogoči: / *?

Opomba: / * & Print \u003d

5. Ena od najlepših prednosti bitrixa je, da popravlja celotno zgodovino spletnega mesta - Kdo je, ko je prijavljen, kdo, ko je spremenil geslo, in druge zaupne informacije, katerih puščanje ni dovoljeno. Zato zaprite:

Onemogoči: / * Register \u003d da

Onemogoči: / * pozabljeno_password \u003d da

Obnova: / * Change_Password \u003d Da

Onemogoči: / * Prijava \u003d da

Obnova: / * Odjava \u003d Da

Onemogoči: / * auth \u003d da

6. Nazaj naslovov ne daje smiselno indeksirati. Ti naslovi se lahko oblikujejo, na primer, ko gledate foto album, ko ga prvič liste "naprej", in nato "Nazaj". V teh trenutkih v naslovni vrstici se lahko pojavi nekaj podobnega, kot je stvar gob:? Back_url_ \u003d% 2fbitrix% 2f% 2f. Vrednost takih naslovov je nič, zato jih zaprejo tudi iz indeksiranja. No, kot bonus - se znebite potencialnih "dvojic" v rezultatih iskanja.

Onemogoči: / * backurl \u003d *

Onemogoči: / * back_url \u003d *

Onemogoči: / * back_url_admin \u003d *

7. Mapa / nalaganje je treba zapreti strogo zaradi okoliščin. Če se na straneh pojavijo fotografije in videoposnetki, ga ni treba skriti, da ne bi zmanjšali dodaten promet. No, če je nekaj zaupanja nedvoumno zaprto:

Obnovajte: / Upload

Ready Robots.txt datoteka za bitrix:

Dovoli: /search/map.php.

Dovoli: / bitrix / predloge /

Obnovajte: * / Index.php

Onemogoči: / * dejanje \u003d

Onemogoči: / * natisni \u003d

Opomba: / * / Galerija / * Naročilo \u003d

Oprostite: / * / Iskanje /

Onemogoči: / * / slide_show /

Onemogoči: / *? Utm_source \u003d

Onemogoči: / * add_to_compare_list

Obnova: / * Arrfilter \u003d

Onemogoči: / * auth \u003d

Onemogoči: / * back_url_admin \u003d

Onemogoči: / * back_url \u003d

Onemogoči: / * Backurl \u003d

Onemogočite: / * bitrix _ * \u003d

Onemogoči: / * bitrix_include_areas \u003d

Onemogoči: / * building_directory \u003d

Onemogoči: / * bxajaxid \u003d

Onemogoči: / * Change_password \u003d

Onemogoči: / * clear_cache_session \u003d

Onemogoči: / * clear_cache \u003d

Onemogoči: / * število \u003d

Onemogoči: / * tečaj_id \u003d

Onemogoči: / * pozabljeno_password \u003d

Onemogoči: /*index.php$

Onemogoči: / * Prijava \u003d

Obnova: / * Odjava \u003d

Obnovajte: / * Modern-Repair / $

Obnova: / * MUL_MODE \u003d

Onemogoči: / * naročilo_by

Onemogoči: / * page_name \u003d

Onemogoči: / * page_name \u003d detajl_slide_show

Onemogoči: / * page_name \u003d iskanje

Onemogoči: / * page_name \u003d user_post

Onemogoči: / * pagen_

Obnova: / * Print_course \u003d

Onemogoči: / * natisni \u003d

Onemogoči: / * Register \u003d

Onemogoči: / * Register \u003d da

Onemogoči: / * set_filter \u003d

Onemogoči: / * show_all \u003d

Onemogoči: / * show_include_exec_time \u003d

Onemogoči: / * show_page_exec_time \u003d

Onemogoči: / * show_sql_stat \u003d

Obnovajte: / * ShowAll_

Onemogoči: / * razvrščanje \u003d

Onemogoči: / * Sphrase_id \u003d

Onemogoči: / * tags \u003d

Onemogoči: /Access.log.

Obnovajte: / admin

Obnovajte: /auth.php.

Obnovajte: / Bitrix

Obnovajte: / Bitrix /

Obnovajte: / CGI-BIN

Obnovajte: / Club / $

Opomba: / Club / Forum / Iskanje /

Oprostite: / Club / Galerija / Tags /

Oprostite: / Club / Group / Iskanje /

Obnovajte: / Club / Log /

Oprostite: / klub / sporočila /

Oprostite: / Club / Iskanje /

Opomba: /communication/blog/search.php.

Opomba: / Komunikacija / Forum / Iskanje /

Opomba: / Komunikacija / Forum / Uporabnik /

Obnovajte: / Vsebina / krov / My /

Obnovajte: / Vsebina / Povezave / Moja /

Obnovajte: / Napaka

Opomba: / E-trgovina / podružnice /

Onemogoči: /e-store/paid/detail.php.

Oprostite: / Primeri / Download / Download_private /

Oprostite: / Primeri / My-Components /

Oprostite: / vključite

Obnova: / Osebno

Disalow: / Iskanje

Obnovajte: / Upload

Onemogoči: / * / * element_code \u003d

Onemogočite: / * / * odsek_code \u003d

Onemogoči: / * / * iblock_code

Onemogoči: / * / * element_id \u003d

Onemogoči: / * / * odsek_id \u003d

Onemogoči: / * / * iblock_id \u003d

Onemogoči: / * / * koda \u003d

Onemogoči: / * / * ID \u003d

Onemogoči: / * / * iblock_external_id \u003d

Onemogoči: / * / * odsek_code_path \u003d

Obnovajte: / * / * External_ID \u003d

Onemogoči: / * / * iblock_type_id \u003d

Obnova: / * / * Site_Dir \u003d

Onemogočite: / * / * Server_name \u003d

Sitemap: http://site.ru/sitemap_index.xml.

Sitemap: http://site.ru/sitemap.xml.

robots.txt za modx in modx revo

CMS MODX REVO tudi ni prikrajšan za dvojni problem. Vendar pa ni tako poslabšana kot v bitrixu. Zdaj o njeni odločitvi.

Vklopite CNC v nastavitve spletnega mesta.
zapri iz indeksacije:

Onemogoči: /index.php #, ker To je dvojna stran glavne strani spletnega mesta

Onemogoči: / *? # Ko rešiti problem z dvojicami za vse strani

Ready Robots.txt Datoteka za ModX in Modx Revo:

Onemogoči: / *? ID \u003d

Obnovajte: / Sredstva

Obnovajte: / Sredstva / predpomnilnik

Obnovajte: / Sredstva / komponente

Obnovajte: / Sredstva / DOCS

Obnova: / Sredstva / Izvoz

Oprostite: / Sredstva / Uvoz

Obnovajte: / Sredstva / module

Obnovajte: / Sredstva / Plugins

Obnovajte: / Sredstva / odrezke

Obnovajte: / Priključki

Onemogoči: /index.php.

Oprostite: / Namestite

Opomba: / Manager

Oprostite: / Profil

Disalow: / Iskanje

Sitemap: http://site.ru/sitemap.xml.

sklepe

Brez pretiravanja se lahko datoteka robots.txt imenuje "vodnik za iskalne robote Yandex in Google" (seveda, če je pravilno pripravljen). Če roboti TXT datoteka manjka, je treba ustvariti in prenesti na gostovanje vašega spletnega mesta. Obnova pravila Pomoč je opisana zgoraj v tem članku in se lahko varno uporabljate za svoje namene.

Še enkrat povzamemo pravila / direktive / navodila za robots.txt:

Uporabniški agent - označuje, kaj točno iskalni robot ustvarja seznam pravil.
Onemogoči - "Priporočam, da to ni indeksirano."
Sitemap - Označuje lokacijo zemljevida spletnega mesta XML z vsemi URL-ji, ki morajo indeksirati. V večini primerov se kartica nahaja na http: // [your_set] /Sitemap.xml.
- Direktiva za zamudo - Direktiva, ki označuje obdobje (v sekundah), skozi katero bo stran spletne strani prenesena.
Gostitelj - prikazuje Yandex glavno ogledalo mesta.
Dovoli - "Priporočam to, da indeksira, kljub dejstvu, da je v nasprotju z enim od predpisov o onemogočanju."
Čisto parameter - pomaga v boju proti Get Parametri, se uporablja za zmanjšanje tveganja strani z dvojnik strani.

Znaki, ko risanje robots.txt:

Znak "$" za "zvezdico" je "omejevalnik".
Po poševnici "/" je navedeno ime datoteke / mape / razširitve, ki jo želite skriti (v primeru onemogočevanja) ali odprt (v primeru dovoljevanja) za indeksiranje.
Znak "*" je označen z "poljubno število znakov".
Znak »#« je ločen s kakršnimi koli komentarjev ali zapisniki, ki jih je zapustil veb, ali za nekoga drugega. Roboti iskanja jih ne berejo.