Mit jelent ez technikai okokból. Mit jelent a "sikertelen kézbesítési kísérlet" ("orosz posta")? mi ez a művelet? az „Oroszország Mail” Szövetségi Állami Egységes Vállalat státuszai. Nézze meg, mi a „technika” más szótárakban

A robots.txt fájl az egyik legfontosabb bármely webhely optimalizálásakor. Ennek hiánya a keresőrobotok által okozott nagy terheléshez és lassú indexeléshez és újraindexeléshez vezethet az oldalra, a helytelen beállítás pedig azt eredményezheti, hogy az oldal teljesen eltűnik a keresésből, vagy egyszerűen nem kerül indexelésre. Ezért nem fog keresni a Yandexben, a Google-ban és más keresőmotorokban. Vessünk egy pillantást a robots.txt megfelelő beállításának minden árnyalatára.

Először is egy rövid videó, amely általános képet ad arról, hogy mi is az a robots.txt fájl.

Hogyan befolyásolja a robots.txt a webhelyindexelést?

A keresőrobotok a robots.txt fájl jelenlététől függetlenül indexelik a webhelyet. Ha létezik ilyen fájl, akkor a robotokat az ebbe a fájlba írt szabályok vezérelhetik. Ugyanakkor egyes robotok figyelmen kívül hagyhatnak bizonyos szabályokat, vagy bizonyos szabályok csak bizonyos botokra vonatkoznak. Különösen a GoogleBot nem használja a Host és a Crawl-Delay direktívákat, a YandexNews a közelmúltban elkezdte figyelmen kívül hagyni a Crawl-Delay direktívát, a YandexDirect és a YandexVideoParser pedig figyelmen kívül hagyja az általánosabb robotok direktíváit (de a kifejezetten nekik meghatározottak vezérlik).

Bővebben a kivételekről:
Yandex kivételek
Robot-kivétel szabvány (Wikipédia)

A webhely maximális terhelését olyan robotok hozzák létre, amelyek tartalmat töltenek le az Ön webhelyéről. Ezért azzal, hogy megadja, hogy mit indexeljen és mit hagyjon figyelmen kívül, valamint milyen időközönként töltse le, egyrészt jelentősen csökkentheti a webhely robotok általi terhelését, másrészt felgyorsíthatja a letöltést. folyamat a szükségtelen oldalak megkerülésének tiltásával.

Az ilyen felesleges oldalak közé tartozik az ajax, a felugró űrlapokért felelős json szkriptek, a bannerek, a captcha kimenet stb., a megrendelőlapok és a bevásárlókosár a vásárlás minden lépésével, keresési funkciók, személyes fiók, adminisztrációs panel.

A legtöbb robotnál kívánatos az összes JS és CSS indexelésének letiltása is. De a GoogleBot és a Yandex esetében az ilyen fájlokat indexelésre kell hagyni, mivel ezeket a keresőmotorok a webhely kényelmének és rangsorolásának elemzésére használják (Google proof, Yandex proof).

robots.txt direktívák

Az irányelvek a robotokra vonatkozó szabályok. Van egy W3C specifikáció 1994. január 30-tól és egy kiterjesztett szabvány 1996-tól. Azonban nem minden keresőmotor és robot támogat bizonyos irányelveket. Ebben a tekintetben hasznosabb lesz, ha nem a szabványt ismerjük, hanem azt, hogy a fő robotokat hogyan vezérlik bizonyos irányelvek.

Nézzük meg sorban.

user-agent

Ez a legfontosabb irányelv, amely meghatározza, hogy mely robotokra vonatkoznak a szabályok.

Minden robothoz:
User-agent: *

Egy adott bothoz:
Felhasználói ügynök: GoogleBot

Vegye figyelembe, hogy a robots.txt fájl nem különbözteti meg a kis- és nagybetűket. Azok. A Google felhasználói ügynöke a következőképpen írható:
felhasználói ügynök: googlebot

Az alábbiakban egy táblázat található a különböző keresőmotorok fő felhasználói ügynökeiről.

Bot	Funkció
Google
Googlebot	A Google fő indexelő robotja
Googlebot Hírek	Google Hírek
Googlebot kép	Google Képek
Googlebot Videó	videó-
Mediapartners-Google
médiapartnerek	Google Adsense, Google Mobile Adsense
AdsBot-Google	céloldal minőségének ellenőrzése
AdsBot-Google-Mobile-Apps	Google Robot alkalmazásokhoz
Yandex
YandexBot	A Yandex fő indexelő robotja
YandexImages	Yandex.Images
YandexVideo	Yandex.Video
YandexMedia	multimédiás adatok
YandexBlogs	blogkereső robot
YandexAddurl	robot eléri az oldalt, amikor azt az „URL hozzáadása” űrlapon keresztül hozzáadják
YandexFavicons	robot, amely indexeli a webhely ikonjait (favicon)
YandexDirect	Yandex.Direct
YandexMetrika	Yandex.Metrica
YandexCatalog	Yandex.Katalógus
YandexNews	Yandex.News
YandexImageResizer	mobilszolgáltató robot
bing
bingbot	a fő indexelő robot Bing
Jehu!
Slurp	fő indexelő robot Yahoo!
Mail.Ru
Mail.Ru	fő indexelő robot Mail.Ru
Turista
StackRambler	Korábban a Rambler fő indexelő robotja. 2011. június 23-tól azonban a Rambler megszünteti saját keresőmotorjának támogatását, és szolgáltatásaiban a Yandex technológiát használja. Már nem releváns.

Letilt és engedélyez

A Disallow bezárja a webhely oldalait és részeit az indexelésből.
Engedélyezés erőszakkal megnyitja a webhely oldalait és részeit indexelés céljából.

De itt nem minden olyan egyszerű.

Először is meg kell ismernie további operátorokat, és meg kell értenie, hogyan használják őket - ezek a *, $ és #.

* tetszőleges számú karakter, beleértve azok hiányát is. Ugyanakkor nem tehet csillagot a sor végére, érthető, hogy alapértelmezés szerint ott van.
$ - azt jelzi, hogy az előtte lévő karakternek az utolsónak kell lennie.
# - megjegyzés, a sorban ez után a karakter után mindent nem vesz figyelembe a robot.

Példák a felhasználásra:

Disallow: *?s=
Disallow: /category/$

Másodszor, meg kell értenie, hogyan hajtják végre a beágyazott szabályokat.
Ne feledje, hogy az utasítások írási sorrendje nem fontos. Az indexelésből származó megnyitandó vagy bezárandó szabályok öröklődését a megadott könyvtárak határozzák meg. Vegyünk egy példát.

Engedélyezés: *.css
Disallow: /template/

http://site.ru/template/ - az indexelés elől zárva
http://site.ru/template/style.css – az indexelés elől zárva
http://site.ru/style.css - nyitott indexelésre
http://site.ru/theme/style.css - indexelésre nyitva

Ha azt szeretné, hogy az összes .css fájl nyitva legyen indexeléshez, akkor ezt minden zárt mappához külön regisztrálnia kell. A mi esetünkben:

Engedélyezés: *.css
Engedélyezés: /template/*.css
Disallow: /template/

Ismétlem, az irányelvek sorrendje nem fontos.

Webhelytérkép

Irányelv a webhelytérkép XML-fájl elérési útjának meghatározásához. Az URL-t ugyanúgy kell beírni, mint a címsorba.

Például,

Webhelytérkép: http://site.ru/sitemap.xml

A Webhelytérkép-irányelv bárhol megadható a robots.txt fájlban anélkül, hogy egy adott felhasználói ügynökhöz lenne kötve. Több webhelytérkép-szabályt is megadhat.

Házigazda

Irányelv az oldal főtükrének meghatározására (a legtöbb esetben: www-vel vagy anélkül). Kérjük, vegye figyelembe, hogy a főtükör http:// NÉLKÜL, hanem https://-vel van feltüntetve. Szükség esetén a port is megadásra kerül.
Az irányelvet csak a Yandex és a Mail.Ru robotok támogatják. Más robotok, különösen a GoogleBot, nem veszik figyelembe a parancsot. A házigazda csak egyszer van regisztrálva!

1. példa:
Házigazda: site.ru

2. példa:
Házigazda: https://site.ru

Feltérképezés-késleltetés

Irányelv a webhely oldalainak robot általi letöltése közötti időintervallum beállítására. Támogatja a Yandex robotok, a Mail.Ru, a Bing, a Yahoo. Az értéket egész vagy tört egységekben (elválasztó - pont), az időt másodpercben lehet megadni.

1. példa:
Feltérképezési késleltetés: 3

2. példa:
Feltérképezési késleltetés: 0,5

Ha a webhely kis terhelésű, akkor nem kell ilyen szabályt beállítani. Ha azonban az oldalak robot általi indexelése oda vezet, hogy az oldal túllépi a korlátokat, vagy jelentős terhelést tapasztal, akár szerverleállásig, akkor ez az irányelv segít csökkenteni a terhelést.

Minél magasabb az érték, annál kevesebb oldalt tölt le a robot egy munkamenet során. Az optimális értéket minden telephelyre egyedileg határozzák meg. Jobb, ha nem túl nagy értékekkel kezdi - 0,1, 0,2, 0,5 -, és fokozatosan növeli őket. Az olyan keresőrobotok esetében, amelyek kevésbé fontosak a promóciós eredmények szempontjából, mint például a Mail.Ru, a Bing és a Yahoo, kezdetben magasabb értékeket állíthat be, mint a Yandex robotok esetében.

Tiszta param

Ez a szabály közli a robottal, hogy a megadott paraméterekkel rendelkező URL-eket nem szabad indexelni. A szabálynak két argumentuma van: egy paraméter és egy szakasz URL-címe. Az irányelvet a Yandex támogatja.

Tiszta paraméter: author_id http://site.ru/articles/

Tiszta paraméter: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Egyéb opciók

A kiterjesztett robots.txt specifikációban a Request-rate és a Visit-time paramétereket is megtalálja. A vezető keresőmotorok azonban jelenleg nem támogatják őket.

Az irányelvek jelentése:
Igénylési arány: 1/5 - legfeljebb egy oldal tölthető be öt másodperc alatt
Látogatási idő: 0600-0845 - Az oldalak csak reggel 6 és 8:45 GMT között tölthetők be.

A robots.txt bezárása

Ha úgy kell beállítania webhelyét, hogy a keresőrobotok NE indexeljék, akkor a következő utasításokat kell beírnia:

User-agent: *
letilt: /

Győződjön meg arról, hogy ezek az utasítások fel vannak írva a webhely tesztoldalain.

A robots.txt megfelelő beállítása

Oroszországban és a FÁK-országokban, ahol a Yandex részesedése kézzelfogható, az összes robotra vonatkozó direktívát kell írni, a Yandex és a Google számára pedig külön.

A robots.txt megfelelő konfigurálásához használja a következő algoritmust:

Zárja be a webhely adminisztrációs paneljét az indexelésből
Személyes fiók bezárása, engedélyezés, regisztráció az indexelésből
Kosár bezárása, megrendelőlapok, szállítási és rendelési adatok az indexelésből
Bezárás ajax indexelésből, json szkriptekből
Zárja be a cgi mappát az indexelésből
A beépülő modulok, témák, js, css bezárása az indexelésből minden robotnál, kivéve a Yandexet és a Google-t
A keresési funkciók bezárása az indexelésből
Zárja be azokat a szolgáltatási szakaszokat az indexelésből, amelyek nem hordoznak semmilyen értéket a webhely számára a keresésben (404-es hiba, szerzők listája)
Zárja be az indexelésből származó oldalak technikai másolatait, valamint azokat az oldalakat, amelyeken az összes tartalom ilyen vagy olyan formában megduplázódik más oldalakról (naptárak, archívumok, RSS)
Bezárás az indexelő oldalakról szűrő, rendezés, összehasonlítás lehetőségekkel
Állítsa le az oldalak UTM-címkékkel és munkamenet-paraméterekkel történő indexelését
Ellenőrizze, hogy a Yandex és a Google mit indexel a „site:” paraméterrel (írja be a „site:site.ru” kifejezést a keresősávba). Ha vannak olyan oldalak a keresésben, amelyeket szintén le kell zárni az indexelésből, adja hozzá őket a robots.txt fájlhoz
Adja meg a webhelytérképet és a gazdagépet
Ha szükséges, írjon Crawl-Delay és Clean-Param
Ellenőrizze a robots.txt helyességét a Google és a Yandex eszközeivel (lásd alább)
2 hét elteltével ellenőrizze újra, hogy vannak-e új oldalak a SERP-ben, amelyeket nem szabad indexelni. Ha szükséges, ismételje meg a fenti lépéseket.

robots.txt példa

# Példa robots.txt fájlra hipotetikus webhely beállításához https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow : *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Disallow: *sort= Disallow: *view= Disallow: *utm= Engedélyezés: /plugins/*.css Engedélyezés: /plugins/*.js Engedélyezés: /plugins/*.png Engedélyezés: /plugins/ *.jpg Engedélyezés: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Engedélyezés: /plugins/*.css Engedélyezés: /plugins/*.js Engedélyezés: /plugins/*.png Engedélyezés: /plugins/*.jpg Engedélyezés: /plugins/*.gif Tiszta paraméter: utm_source&utm_medium&utm_campaign Feltérképezés Késleltetés: 0,5 Webhelytérkép: https://site.ru/sitemap.xml Gazda: https://site.ru

Hogyan kell hozzáadni, és hol található a robots.txt

Miután létrehozta a robots.txt fájlt, el kell helyeznie a webhelyére a site.ru/robots.txt címen – pl. a gyökérkönyvtárban. A bejáró mindig a /robots.txt URL-címen éri el a fájlt

A robots.txt ellenőrzése

A robots.txt ellenőrzése a következő linkeken történik:

A Yandex.Webmasterben – az Eszközök>Robots.txt elemzés lapon
BAN BEN Google Search Console- a Vizsgálat lapon > a robots.txt fájlellenőrző eszközön

Gyakori hibák a robots.txt fájlban

A cikk végén bemutatok néhány tipikus robots.txt fájlhibát.

A robots.txt hiányzik
a robots.txt fájlban a webhely le van zárva az indexelés elől (Disallow: /)
a fájl csak a legalapvetőbb direktívákat tartalmazza, a fájl részletes tanulmányozása nincs
az UTM-címkéket és munkamenet-azonosítókat tartalmazó oldalak indexelése nincs letiltva a fájlban
a fájl csak direktívákat tartalmaz
Engedélyezés: *.css
Engedélyezés: *.js
Engedélyezés: *.png
Engedélyezés: *.jpg
Engedélyezés: *.gif
míg a css, js, png, jpg, gif fájlokat más direktívák zárják be számos könyvtárban
A gazdagép direktíva többször meg van írva
A gazdagép nem ad meg https protokollt
a webhelytérkép elérési útja helytelen, vagy rossz protokollt vagy helytükrözést ad meg

P.S.

P.S.2

Hasznos videó a Yandextől (Figyelem! Néhány ajánlás csak a Yandex számára alkalmas).

A webhelytérkép sokkal könnyebbé teszi a blog indexelését. A webhelytérképnek kötelezőnek kell lennie minden webhelyhez és bloghoz. De minden webhelynek és blognak is kell lennie egy fájlnak robotok.txt. A robots.txt fájl utasításokat tartalmaz a keresőrobotokhoz. Azt mondhatjuk - a keresőrobotok viselkedési szabályai a blogodon. És ez a fájl tartalmazza a blog oldaltérképének elérési útját is. Valójában egy megfelelően összeállított robots.txt fájl esetén a keresőrobot nem tölti az értékes időt webhelytérkép keresésével és a szükségtelen fájlok indexelésével.

Mi az a robots.txt fájl?

robots.txt- ez egy szöveges fájl, egy normál "jegyzettömbben" hozható létre, amely a blog gyökerében található, és a keresőrobotoknak szóló utasításokat tartalmazza.

Ezek az utasítások megakadályozzák, hogy a bejárók véletlenszerűen indexeljék Isten összes fájlját, és célja, hogy pontosan azokat az oldalakat indexeljék, amelyeknek a SERP-ben kell lenniük.

Ezzel a fájllal letilthatja a WordPress motorfájlok indexelését. Vagy mondjuk a blogod titkos része. Megadhatja a blogtérkép elérési útját és a blog fő tükrét. Ez alatt azt értem, hogy a domain neved www-vel és www nélkül.

Webhelyindexelés robots.txt fájllal és anélkül

Ez a képernyőkép egyértelműen megmutatja, hogy a robots.txt fájl hogyan tiltja bizonyos mappák indexelését a webhelyen. Fájl nélkül a webhelyén minden elérhető a robot számára.

Alapvető robots.txt direktívák

A robots.txt fájl utasításainak megértéséhez meg kell értenie az alapvető parancsokat (irányelveket).

user-agent- ez a parancs a robotok hozzáférését jelzi az Ön webhelyéhez. Ezzel az irányelvvel minden robothoz külön-külön hozhat létre utasításokat.

Felhasználói ügynök: Yandex - szabályok a Yandex robothoz

User-agent: * - szabályok minden robotra

Letiltja és megengedi- tiltó és engedélyezési irányelvek. A Disallow direktíva segítségével az indexelés tilos, az Allow segítségével pedig megengedett.

Példa a kitiltásra:

User-agent: *

Disallow: / - tiltás a teljes webhelyre.

Felhasználói ügynök: Yandex

Disallow: /admin - megtiltja, hogy a Yandex robot hozzáférjen az adminisztrációs mappa oldalaihoz.

Példa a felbontásra:

User-agent: *

Engedélyezés: /photo

Disallow: / - tiltás a teljes webhelyre, kivéve a fotómappában található oldalakat.

Jegyzet! a Disallow: paraméter nélkül mindent engedélyez, az Allow: paraméter nélkül pedig mindent tilt. És az Allow without Disallow irányelvnek nem szabadna lennie.

Webhelytérkép– megadja az oldaltérkép elérési útját xml formátumban.

Webhelytérkép: https://site/sitemap.xml.gz

Webhelytérkép: https://site/sitemap.xml

Házigazda– direktíva határozza meg a blogod fő tükrét. Úgy gondolják, hogy ezt az irányelvet csak a Yandex robotokra írják elő. Ezt az utasítást a robots.txt fájl legvégére kell helyezni.

Felhasználói ügynök: Yandex

Disallow: /wp-includes

host: site

Jegyzet! a főtükör címe a hipertext átviteli protokoll (http://) megadása nélkül van megadva.

A robots.txt létrehozása

Most, hogy láttuk a robots.txt fájl alapvető parancsait, megkezdhetjük a fájl létrehozását. Ahhoz, hogy saját robots.txt fájlt tudjon létrehozni az egyéni beállításokkal, ismernie kell blogja szerkezetét.

Megvizsgáljuk egy szabványos (univerzális) robots.txt fájl létrehozását egy WordPress bloghoz. Mindig hozzáadhatja saját beállításait.

Tehát kezdjük. Szükségünk lesz a szokásos "jegyzettömbre", amely minden Windows operációs rendszerben megtalálható. Vagy TextEdit MacOS-en.

Nyisson meg egy új dokumentumot, és illessze be a következő parancsokat:

User-agent: * Disallow: Webhelytérkép: https://site/sitemap.xml.gz Webhelytérkép: https://site/sitemap.xml Felhasználói ügynök: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages>Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Ne felejtse el lecserélni a Webhelytérkép és a Host direktívák paramétereit a sajátjával.

Fontos! parancsok írásakor csak egy szóköz megengedett. Az irányelv és a paraméter között. Semmi esetre se tegyen szóközt a paraméter után, vagy csak bárhol.

Példa: Letiltás:<пробел>/feed/

Ez a példa robots.txt fájl univerzális, és minden CNC URL-lel rendelkező WordPress bloghoz illeszkedik. Olvassa el, mi az a CNC. Ha nem konfigurálta a CNC-t, javasoljuk, hogy törölje a Disallow: /*?* Disallow: /?s= fájlt a javasolt fájlból

A robots.txt fájl feltöltése a szerverre

Az ilyen jellegű manipulációk legjobb módja az FTP-kapcsolat. Olvassa el, hogyan állíthat be FTP-kapcsolatot a TotolCommander számára. Vagy használhatja a fájlkezelőt a tárhelyén.

FTP kapcsolatot fogok használni a TotolCommanderen.

Hálózat > Csatlakozás FTP-kiszolgálóhoz.

Válassza ki a kívánt kapcsolatot, és kattintson a "Csatlakozás" gombra.

Nyissa meg a blog gyökerét, és másolja a robots.txt fájlt az F5 billentyű lenyomásával.

Másolja a robots.txt fájlt a szerverre

Mostantól a robots.txt fájl ellátja a megfelelő funkcióit. De továbbra is javaslom a robots.txt elemzését, hogy megbizonyosodjon arról, hogy nincsenek hibák.

Ehhez be kell jelentkeznie a Yandex vagy a Google webmester fiókjába. Tekintsük a Yandex példáját. Itt végezhet elemzést anélkül, hogy megerősítené a webhelyhez fűződő jogokat. Csak egy postafiókra van szüksége a Yandexen.

Megnyitjuk a Yandex.webmaster fiókot.

A webmesteriroda főoldalán nyissa meg a hivatkozást "Ellenőrizzerobotok.txt".

Az elemzéshez meg kell adnia blogja url-címét, majd kattintson a " Letöltés robotok.txt a webhelyről". A fájl feltöltése után kattintson a gombra "Ellenőrzés".

A figyelmeztető bejegyzések hiánya azt jelzi, hogy a robots.txt fájl megfelelően lett létrehozva.

Az eredmény lent lesz látható. Ahol világos és érthető, hogy milyen anyagokat szabad keresőrobotoknak bemutatni, és melyeket tilos.

A robots.txt fájl elemzésének eredménye

Itt módosíthatja a robots.txt fájlt, és addig kísérletezhet, amíg el nem éri a kívánt eredményt. De ne feledje, a blogján található fájl nem változik. Ehhez az itt kapott eredményt be kell másolni egy jegyzettömbbe, el kell menteni robots.txt formátumban, és át kell másolni a blogot.

Egyébként ha kíváncsi vagy, hogy néz ki valakinek a blogján egy robots.txt fájl, könnyen utánanézhetsz. Ehhez csak hozzá kell adnia a /robots.txt fájlt a webhely címéhez

https://website/robots.txt

A robots.txt elkészült. És ne feledje, ne halogassa a robots.txt fájl létrehozását, a blog indexelése attól függ.

Ha szeretné elkészíteni a megfelelő robots.txt fájlt, és egyúttal biztos lehet benne, hogy csak a szükséges oldalak kerüljenek be a keresőmotor indexébe, akkor ez automatikusan megtehető a plugin segítségével.

Nekem ennyi. Mindenkinek sok sikert kívánok. Ha kérdése vagy kiegészítése van, írja meg a megjegyzésekben.

Hamarosan találkozunk.

Üdvözlettel, Maxim Zaitsev.

Iratkozz fel az új cikkekre!

Az oldal független promóciójával és népszerűsítésével nemcsak egyedi tartalom létrehozása vagy lekérdezések kiválasztása fontos a Yandex statisztikájában, hanem kellő figyelmet kell fordítania olyan mutatókra is, mint az erőforrás keresőmotorok általi indexelése, mert minden további promóció sikere is ettől függ.

Két fő eszköz áll rendelkezésünkre, amelyekkel ezt a folyamatot kezelhetjük. Először is, ez természetesen a robots.txt fájl, amely segít letiltani a fő tartalmat nem tartalmazó (motorfájlok és tartalommásolatok) indexelését, és ez a cikk erről fog szólni, de ezen kívül Egy másik fontos eszköz a webhelytérkép (Sitemap xml).

Miért fontos a webhelyindexelés kezelése?

A fent említett eszközök nagyon fontosak projektje sikeres fejlesztéséhez, és ez egyáltalán nem alaptalan kijelentés. A Sitemap xml-ről szóló cikkben (lásd a fenti linket) példaként említettem egy nagyon fontos tanulmány eredményeit a kezdő webmesterek leggyakoribb technikai hibáiról, ahol a második és harmadik helyen (a nem egyedi tartalom után) a ezeknek a robotoknak és webhelytérkép-fájloknak a hiánya, vagy helytelen megfogalmazása és használata.

Nagyon világosan meg kell érteni, hogy a keresőmotorok robotjai számára nem szabad, hogy egy internetes projekt teljes tartalma (fájlok és könyvtárak) bármely motoron elérhető legyen.

Ha ezeknél a robotoknál nem ír elő bizonyos viselkedési szabályokat a robotokban, akkor sok olyan oldal kerül be a kereső indexébe, amely nem kapcsolódik az erőforrás jelentős tartalmához, illetve többszörös tartalomduplikáció is előfordulhat (ugyanaz ill. erősen keresztező tartalmak lesznek elérhetők különböző linkeken keresztül ), amelyeket a keresőmotorok nem szeretnek.

A jó megoldás az lenne, ha a robots.txt-ben mindent, ami felesleges, betiltanunk (a címben minden betűnek kisbetűnek kell lennie – nagybetűk nélkül).

Segítségével befolyásolni tudjuk a Yandex és a Google oldalindexelési folyamatát. Ez egy egyszerű szöveges fájl, amelyet bármilyen szövegszerkesztőben létrehozhat, majd szerkeszthet (például Notepad++). A keresőbot megkeresi ezt a fájlt az erőforrás gyökérkönyvtárában, és ha nem találja, mindent, amit elérhet, indexel az indexbe.

Ezért a szükséges robot megírása után a gyökérmappába kell menteni, például Filezilla Ftp kliens segítségével, hogy elérhető legyen például a következő címen:

https://website/robots.txt

Egyébként, ha tudni szeretnéd, hogyan néz ki ez a fájl egy adott projektnél a hálózaton, akkor elég lesz a /robots.txt formátum végét hozzáadni a főoldal URL-jéhez. Ez segíthet megérteni, hogy mi legyen benne.

Figyelembe kell azonban venni, hogy ez a fájl eltérően fog kinézni a különböző motoroknál (az indexelést blokkolni kívánó motormappákat a különböző CMS-ekben eltérően fogják elnevezni). Ezért, ha a legjobb megoldást szeretné eldönteni egy robot számára, mondjuk az SMF-ről szóló fórumot, akkor csak az erre a motorra épített fórumokat kell tanulmányoznia.

Irányelvek és szabályok a robots.txt fájl írására (disallow, user-agent, host)

A Robots teljesen egyszerű szintaxissal rendelkezik, amelyet például a Yandex súgójában részletesen leírnak. Általában azt jelzi, hogy melyik keresőbotra vonatkoznak a következő direktívák: bot neve ("User-agent"), engedélyező ("Allow") és tiltó ("Disallow"), és a "Sitemap" is aktívan használatos a keresőmotorok jelzésére. , hol van pontosan a térképfájl.

Hasznos az is, hogy ebben a fájlban jelezze, hogy webprojektjének melyik tükör a fő a speciális "Host" direktívában, amelyet csak a Yandex ért. Még akkor is, ha az erőforrása nem rendelkezik tükrökkel, hasznos lesz jelezni, hogy melyik írásmód a fő – www-vel vagy anélkül. Mivel ez is egyfajta tükrözés. Erről részletesen beszéltem egy cikkben, amely a 301-es átirányításokról szól WWW-vel és anélkül.

Most beszéljünk egy kicsit ennek a fájlnak a szintaxisáról. A robots.txt utasításai így néznek ki:

<поле>:<пробел><значение><пробел>

<поле>:<пробел><значение><пробел>
A helyes kódnak tartalmaznia kell legalább egy „Disallow” direktívát minden „User-agent” bejegyzés után. Az üres fájl engedélyt feltételez a teljes webhely indexelésére.

A "User-agent" direktívának tartalmaznia kell a keresőbot nevét. Ezzel magatartási szabályokat állíthat be minden egyes keresőmotorhoz (például tilthatja meg egy külön mappa indexelését csak a Yandex számára). Példa a „Felhasználói ügynök” írására, amely az erőforrásához érkező összes botnak szól, így néz ki:

User-agent: *
Ha bizonyos feltételeket szeretne beállítani a "Felhasználói ügynökben" csak egy bothoz, például a Yandexhez, akkor ezt kell írnia:

Felhasználói ügynök: Yandex
Minden keresőmotor botjának saját neve van (például egy rambler esetében StackRambler). Itt felsorolom közülük a leghíresebbeket:

Google http://www.google.com Googlebot Yahoo! http://www.yahoo.com Slurp (vagy Yahoo! Slurp) AOL http://www.aol.com Slurp MSN http://www.msn.com MSNBot Live http://www.live.com MSNBot Ask http://www.ask.com Teoma AltaVista http://www.altavista.com Scooter Alexa http://www.alexa.com ia_archiver Lycos http://www.lycos.com Lycos Yandex http://www. ya.ru Yandex Rambler http://www.rambler.ru StackRambler Mail.ru http://mail.ru Mail.Ru Aport http://www.aport.ru Webalta Aport http://www.webalta.ru WebAlta (Web Alta Crawler/2.0)

A nagy keresőkben néha a fő botokon kívül külön példányok is vannak a blogok, hírek, képek stb. indexelésére. Ezen az erőforráson sok információt találhat a botok típusairól.

Néhány egyszerű példát hozok az direktívák használatára a műveletek magyarázatával.

1. Az alábbi kód lehetővé teszi, hogy minden bot kivétel nélkül indexeljen minden tartalmat. Ezt az üres Disallow direktíva határozza meg.

User-agent: * Disallow:

2. A következő kód ezzel szemben teljesen megtiltja, hogy minden keresőmotor ennek az erőforrásnak az oldalait vegye fel az indexbe. Ezt a Disallow értékre állítja a „/” karakterrel az értékmezőben.

User-agent: * Disallow: /

3. Ebben az esetben minden botnak meg lesz tiltva, hogy megtekintse az /image/ könyvtár tartalmát (a http://mysite.ru/image/ a könyvtár abszolút elérési útja)

User-agent: * Disallow: /image/

4. Az alábbi példában az "image" könyvtár tiltott lesz, valamint minden olyan fájl és könyvtár, amely "image" karakterekkel kezdődik, azaz a következő fájlok: "image.htm", "images.htm", könyvtárak: " kép ”, „images1”, „image34” stb.):

User-agent: * Disallow: /image

5. Az Allow-Disallow direktívák elérési útjainak leírásakor használhatja a "*" és a "$" szimbólumokat, ezzel beállítva bizonyos logikai kifejezéseket. A "*" szimbólum bármely (beleértve az üres) karaktersorozatot is jelenti. A következő példa megakadályozza, hogy minden keresőmotor indexelje az ".aspx" kiterjesztésű fájlokat:

User-agent: * Disallow: *.aspx

A webhelytükrözéssel kapcsolatos kellemetlen problémák elkerülése érdekében ajánlatos hozzáadni a Host direktívát a robots.txt fájlhoz, amely a Yandex botot a fő tükörre irányítja. Az írási szabályok szerint a User-agent bejegyzésének tartalmaznia kell legalább egy Disallow direktívát (általában üresre állítva, ami nem tilt semmit):

Felhasználói ügynök: Yandex Disallow: Host: www.site.ru

Felhasználói ügynök: Yandex Disallow: Host: site.ru

amelyik a legjobb az Ön számára.

A Sitemap direktíva a webhelytérkép fájl helyére mutat (általában Sitemap.xml néven, de nem mindig). A fájl elérési útja paraméterként van megadva, beleértve a http://-t (azaz URL-címét). Például:

Webhelytérkép: http://site.ru/sitemap.xml
Robots meta tag – segít bezárni a duplikált tartalmat

Van egy másik mód a webhely egyes oldalainak indexelésének beállítására (engedélyezésére vagy letiltására), mind a Yandex, mind a Google számára. Ehhez a kívánt weboldal „HEAD” címkéjén belül felkerül a Robots META tag a szükséges paraméterekkel, és ez megismétlődik minden olyan dokumentumnál, amelyre egy vagy másik szabályt (tiltást vagy engedélyt) alkalmazni kell. Így nézhet ki például:

... ...

Ebben az esetben az összes keresőmotor robotjának el kell felejtenie ennek a weboldalnak az indexelését (ezt jelzi a noindex jelenléte ebben a metacímkében) és a rajta elhelyezett linkek elemzését (ezt jelzi a nofollow - a botnak tilos követnie az ebben a dokumentumban talált hivatkozásokat).

Ehhez a metacímkéhez csak két paraméterpár tartozik: index and follow:

Index – jelzi, hogy a robot képes-e indexelni ezt a dokumentumot
Követés – követheti-e az ebben a dokumentumban található hivatkozásokat
Az alapértelmezett értékek az "index" és a "follow". Létezik egy rövidített írásmód is az "all" és a "none" használatával, amelyek mindkét paraméter aktivitását jelzik, illetve fordítva: all=index,follow és none=noindex,nofollow.

A WordPress blogok esetében beállíthatja például a Robots metacímkét a plugin segítségével Minden egyben SEO csomag. Nos, ennyi, az elméletnek vége, és ideje továbblépni a gyakorlatba, nevezetesen az optimális robots.txt összeállítására Joomla, SMF és WordPress számára.

Tudniillik a tetszőleges motor (Joomla, WordPress, SMF, stb.) alapján létrehozott projektek számos segédobjektummal rendelkeznek, amelyek nem hordoznak semmilyen információs terhelést.

Ha nem tiltja meg ennek a szemétnek az indexelését, akkor a keresőmotorok által a webhely indexelésére szánt időt a motorfájlok válogatására fordítják (annak érdekében, hogy információs összetevőt, azaz tartalmat keressenek bennük).

De a trükk az, hogy a legtöbb CMS-ben a tartalmat nem fájlokban tárolják, hanem egy adatbázisban, amelyhez a keresőrobotok semmilyen módon nem férhetnek hozzá. A motor szemetes tárgyaira felkapaszkodva a bot kifut a neki szánt időből, és sós csapkodás nélkül távozik.

Ezenkívül törekednie kell a projektben található tartalom egyediségére, és nem szabad megengednie a tartalom (információs tartalom) teljes vagy akár részleges megkettőzését. Duplikáció előfordulhat, ha ugyanaz az anyag különböző címeken (URL) érhető el.

A Yandex és a Google indexelés közben észleli a duplikációkat, és esetleg intézkedéseket tesz annak érdekében, hogy nagy számmal némileg pesszimista legyen az erőforrása (ők sem akarnak szemeket keresni a trágyadombokban).

Ha a projektjét bármilyen motor alapján hozták létre, akkor nagy valószínűséggel a tartalom megkettőzése történik, ami azt jelenti, hogy foglalkoznia kell vele, beleértve a tiltást is. robots.txt, és főleg a meta tag-ben, mert az első esetben a Google figyelmen kívül hagyhatja a tiltást, de a meta tag-re nem tud mit kezdeni (így hozták fel).

Például be WordPress nagyon hasonló tartalmú oldalak bekerülhetnek a keresési indexbe, ha az indexelés engedélyezett mind a kategóriatartalom, mind a címkearchívum tartalom, mind az ideiglenes archívum tartalom esetében.

De ha a fent leírt metacímkét használja a címkearchívum és az ideiglenes archívum tiltására (elhagyhatja a címkéket, de megtilthatja a kategóriák tartalmának indexelését), akkor nem lesz tartalom duplikációja. Erre a célra a WordPressben a legjobb az All in One SEO Pack bővítmény lehetőségeit használni, melynek leírásához a linket kicsit feljebb találjuk a szövegben.

A helyzet még bonyolultabb az SMF fórummotor tartalmának megkettőzésével. Ha nem a robotokon keresztül finomhangol (tilt), akkor ugyanazon bejegyzések többszörös másolata kerül be a keresésbe. A Joomlában egyébként néha gond van a normál dokumentumok és azok nyomtatásra szánt másolatainak sokszorosításával.

Összefoglalva elmondom, hogy a Robots fájlt úgy tervezték, hogy globális szabályokat állítson be a teljes webhelykönyvtárhoz, vagy olyan fájlokhoz és mappákhoz való hozzáférés megtagadására, amelyek neve meghatározott karaktereket tartalmaz (maszk szerint). Példákat láthat az ilyen tilalmak egy kicsit magasabbra állítására.

Egyetlen oldal indexelésének megtiltásához célszerű az azonos nevű metataget használni, amelyet a kívánt dokumentum fejlécébe (a HEAD címkék közé) írnak. A metacímke szintaxisának részleteiért lásd egy kicsit magasabban a szövegben.

Javítsa ki a robots.txt fájlt Joomla, WordPress és SMF számára

Most nézzünk konkrét példákat a különböző motorokhoz – Joomla, WordPress és SMF – tervezett robotokra. Természetesen mindhárom különböző CMS-hez létrehozott opció jelentősen (ha nem is kardinálisan) különbözik egymástól. Igaz, mindegyikben van egy közös dolog, és ez a pillanat a Yandex keresőmotorjához kapcsolódik.

Mivel A Yandexnek meglehetősen nagy súlya van a Runetben, akkor figyelembe kell vennie munkájának minden árnyalatát, és itt a Host direktíva segít nekünk. Ez kifejezetten jelzi ennek a keresőmotornak az Ön webhelyének fő tükrét.

Számára külön User-agent blog használata javasolt, amely csak a Yandex számára készült (User-agent: Yandex). Ennek az az oka, hogy más keresőmotorok esetleg nem értik a Host-ot, és ennek megfelelően az összes keresőmotornak szánt User-agent rekordba (User-agent: *) való felvétele negatív következményekkel és hibás indexeléssel járhat.

Nehéz megmondani, hogyan állnak a dolgok valójában, mivel a keresési algoritmusok önmagukban is léteznek, ezért jobb, ha a tanácsok szerint járunk el. De ebben az esetben meg kell ismételnie a User-agent: Yandex direktívában az összes általunk beállított User-agent szabályt: *. Ha elhagyja a User-agent: Yandexet egy üres Disallow: karakterrel, akkor ily módon lehetővé teszi, hogy a Yandex bárhová menjen, és mindent behúzzon az indexbe.

Mielőtt folytatná a konkrét lehetőségek mérlegelését, szeretném emlékeztetni, hogy ellenőrizheti a robots.txt fájl működését a Yandex Webmasterben és a Google Webmasterben. Itt megadhatja az erőforrás konkrét URL-címeit, és megnézheti (ellenőrizheti), hogy a keresőmotor hozzáadja-e őket az indexéhez, vagy sikeresen letiltotta ezt a műveletet a csodafájlban.

A robots.txt helyes beállítása az SMF fórumhoz

Az SMF motorral kapcsolatos fórum esetén a következő fájl lesz helyes (a műszaki támogatás fórumáról ebből a témából):

User-agent: * Allow: /forum/*sitemap Engedélyezés: /forum/*arcade Engedélyezés: /forum/*rss Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: / fórum/Smileys/ Disallow: /forum/Források/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action User-agent: Slurp Feltérképezési késleltetés: 100

Ne feledje, hogy ez az opció akkor használható, ha az SMF fórum telepítve van a fő webhely fórumkönyvtárába. Ha a fórum nincs a könyvtárban, egyszerűen távolítsa el a /fórumot az összes szabályból.

Az SMF-ben a barátságos URL-ek a fórum adminisztrációs paneljén aktiválhatók vagy deaktiválhatók a következő útvonalon: az adminisztrációs panel bal oldali oszlopában válassza ki a "Funkciók és beállítások" elemet, a megnyíló ablak alján keresse meg az elemet. „Barátságos URL-ek engedélyezése”, ahol bejelölheti vagy törölheti a pipát.

A robots.txt egy másik verziója is létezik SMF-hez (de valószínűleg még nincs teljesen tesztelve):

User-agent: * Engedélyezés: /forum/*sitemap Engedélyezés: /forum/*arcade # ha nincs játékmod, töröld a sor kihagyása nélkül Allow: /forum/*rss Engedélyezés: /forum/*type=rss Disallow: /fórum /mellékletek/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: / forum/ *.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action Disallow: /forum /*prev_next Disallow: /forum/*all Disallow: /forum/*go.php # vagy bármilyen átirányítási mód Host: www.my site.ru # adja meg a fő tükröt User-agent: Slurp Crawl-delay: one száz

Amint ebben a fájlban látható, a Yandex-only Host direktíva minden keresőmotor felhasználói ügynökében szerepel. Valószínűleg továbbra is hozzáadnék egy külön User-agent direktívát csak a Yandexhez, az összes szabály megismétlésével. De döntsd el magad.

Felhasználói ügynök: Slurp feltérképezési késleltetés: 100

amiatt, hogy a Yahoo kereső (a Slurp a keresőbotjának a neve) sok szálon bejárja a szervert, ami negatívan befolyásolhatja a teljesítményét.

Ebben a szabályban a Crawl-delay direktíva lehetővé teszi, hogy megmondja a Yahoo botnak a minimális időtartamot (másodpercben) az egyik dokumentumletöltés vége és a következő kezdete között. Ez enyhíti a szerver terhelését.

A Sources/Printpage.php fájlban keresse meg (például a Notepad++ beépített keresőjével) a következő sort:

fatal_lang_error(472, false);
Illessze be közvetlenül alá:

$context["robot_no_index"] = igaz;
A Themes/your_theme_name/Printpage.template.php fájlban keresse meg a következő sort:

Illessze be alá a következő sort:

Ha azt szeretné, hogy a nyomtatott verzióban is legyen link a fórum teljes verziójára (ha a nyomtatott oldalak egy részét már indexelték a Yandexben és a Google-ban), akkor ugyanabban a Printpage.template.php fájlban talál egy sor nyitó HEAD címkével:

És illessze be a sor alá:

A fórumra

További információkat kaphat a robots.txt fájl ezen verziójáról, ha elolvassa az orosz nyelvű támogatási fórum ezen szálát.

Javítsa ki a robots.txt fájlt a Joomla számára

User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/

Itt elvileg szinte mindent figyelembe vesznek és jól működik. Az egyetlen dolog, hogy hozzá kell adni egy külön User-agent: Yandex szabályt, amely beilleszti a Host direktívát, amely meghatározza a Yandex fő tükrét, valamint megadja a webhelytérkép fájl elérési útját.

Ezért a végső formában a Joomla megfelelő robotjainak véleményem szerint így kell kinézniük:

User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /telepítés/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: vash_sait.ru Webhelytérkép: http://vash_sait.ru/index.php?option =com_xmap&sitemap=1&view=xml&no_html=1

Igen, vegye figyelembe azt is, hogy a második lehetőségben nincs Disallow: /images/ direktíva, amely tiltja a képek indexelését a webhelyen. Elfelejtettem először erre összpontosítani a figyelmedet, de kedves Alex emlékeztetett erre.

Teljesen egyetértek vele abban, hogy ha a képek egyediek, és azt szeretné, hogy a látogatók a Yandex és a Google képkeresőjéből is megtalálják az Ön erőforrását, akkor feltétlenül távolítsa el ezt a szabályt a fájlból, de ne felejtse el megadni az összes attribútumot. képeit Alt és Title az Img címkéhez.

Amikor a VirtueMart komponensen alapuló online áruházat készítettem a Joomla számára, azzal a ténnyel találkoztam, hogy ennek az üzletnek a nyomtatható változatai elkezdtek bekerülni a keresőmotorok indexei közé. Az oldalra vezető gomb a nyomtatáshoz szükséges volt (a megrendelő így akarta), így csak a robots.txt-ben való kitiltás maradt hátra.

De kiderült, hogy egyáltalán nem volt nehéz. A helyzet az, hogy nyomtatható verzió létrehozásához a Joomlában a weboldal ugyanazt az URL-címét használjuk, egy kivétellel: a hívás nem az index.php, hanem az index2.php címre megy. Ilyenkor a sablon nem töltődik be, pl. csak a tartalom jelenik meg teljes képernyőn.

Ezért a nyomtatott verziók VirtueMartban való tiltása érdekében a következő szabályt egészítettem ki:

Disallow: /index2.php?page=shop

Robots.txt a WordPresshez

Nem mondok példát olyan fájlra, amelyet a fejlesztők ajánlanak. Te magad is megnézheted. Sok blogger egyáltalán nem korlátozza a Yandex és a Google botokat a WordPress motor tartalmának megismerésében. Leggyakrabban a blogokban találhatunk olyan robotokat, amelyeket a Google XML Sitemaps bővítmény automatikusan kitölt.

De véleményem szerint továbbra is segíteni kell a keresést abban a nehéz feladatban, hogy kiszűrjük a búzát a pelyváról. Először is, sok időbe telik, amíg a Yandex és a Google robotok indexelik ezt a szemetet, és előfordulhat, hogy egyáltalán nem lesz idő arra, hogy az új cikkeket tartalmazó weboldalakat hozzáadja az indexhez. Másodszor, a motor kéretlen fájljain átmászó robotok további terhelést hoznak létre a gazdagép szerverén, ami nem jó.

Ezért itt megadom az én verziómat, és Ön dönti el, hogy ebben a formában használja-e, vagy az Ön igényeihez igazítja:

User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Felhasználói ügynök: Yandex Disallow: /wp-login.php Disallow: / wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? .com/sitemap.xml ( 4 szavazat(ok), aminek eredménye: 5,00 5-ből)

Részletes utasítások a robots.txt fájl webhelyhez való létrehozásához. A Robots.txt a teljes keresőoptimalizálási webhely egyik legfontosabb eleme. A fájl megfelelő használatának feltételeinek betartásával bizonyos pozitív hatást érhet el a webhelyen. A legtöbb PS-hez többféle utasítás is megadható. Amelyek jelzik a keresőbot számára a szükséges korlátozásokat vagy engedélyeket az oldalak, könyvtárak vagy a webhely szakaszainak átvizsgálásához.

A cikk tartalma:

Robots.txt fájl – alapvető definíció

A Robots.txt – bizonyos kizárási szabványokkal rendelkezik a keresőügynökök (botok) számára, amelyet 1944 januárjában fogadtak el. Ennek a fájlnak a szabályait a leggyakoribb PS önkéntesen követi. A fájl egy vagy több szabályból állhat, amelyek mindegyike blokkolja vagy lehetővé teszi a bejáró számára a webhely bizonyos elérési útjait.

Alapértelmezés szerint ez a fájl nem található a webhelyen – ami minden PS-nek teljes engedélyt ad a webhely teljes tartalmának indexelésére. Az ilyen engedély a webhely fontos technikai oldalainak a keresőmotor indexébe való felvételét eredményezheti, amelyeknek nem szabad ott lenniük.

Miért van szükségünk a Robots.txt fájlra az oldalon – ennek hatása a keresőmotorokban való promócióra

A Robots.txt a webhely keresőoptimalizálásának legfontosabb tényezője. A keresőrobotokra vonatkozó, megfelelően megírt szabályrendszernek köszönhetően bizonyos mértékű növekedést érhet el egy webhely keresési rangsorában. Mit adnak ezek az utasítások:

A webhely bizonyos oldalainak, szakaszainak, könyvtárainak indexeléséhez zárolva.
A hasznos tartalmat nem tartalmazó oldalak kizárása.
Az ismétlődő oldalak megszüntetése és így tovább.

A legtöbb webhely esetében az indexelési korlátozások egyszerűen szükségesek, a kis, teljes oldalas webhelyek opcionálisak. Bizonyos irányelveket azonban minden webhelyhez hozzá kell adni. Például az indexelés tilalma:

Regisztrációs oldalak, bejelentkezés az adminisztrációs panelbe, jelszó visszaállítás.
Műszaki katalógusok.
Rss - webhely feedek.
Replytocom és így tovább.

Hogyan hozhatja létre saját maga a megfelelő Robors.txt fájlt

A Robots.txt fájl létrehozásával kapcsolatos nehézségek még a kezdők számára sem merülhetnek fel. Elég egy bizonyos műveletsort követni:

A Robots.txt egy szöveges dokumentum, amelyet bármely elérhető szövegszerkesztő hozza létre.
A fájl kiterjesztésének .txt-nek kell lennie.
A névnek robotoknak kell lennie.
Webhelyenként csak egy ilyen fájl engedélyezett.
Csak a webhely gyökérkönyvtárában van elhelyezve.

Használnia kell egy közönséges szövegszerkesztőt (alternatívaként a jegyzettömböt). Létrehozunk egy .txt dokumentumot robotok néven. Ezután ezt a dokumentumot elmentjük és FTP-kliens segítségével a webhely gyökérkönyvtárába továbbítjuk. Ezek a követendő fő lépések.

Robots.txt létrehozása online szolgáltatások használatával

Ez a módszer a legegyszerűbb és leggyorsabb, azoknak megfelelő, akik félnek önállóan létrehozni a Robots.txt fájlt, vagy egyszerűen lusták. Számos szolgáltatás kínálja ennek a fájlnak a létrehozását. De érdemes figyelembe venni néhány árnyalatot ezzel a módszerrel kapcsolatban. Például:

Előzetesen figyelembe kell venni, hogy pontosan mit akar megtiltani vagy engedélyezni az ügynöknek.
A kész fájl kötelező ellenőrzése szükséges, mielőtt feltölti az oldalra.
Legyen óvatos, mert egy helytelenül létrehozott Robots.txt online fájl sajnálatos helyzethez vezet. Így az oldal technikai és egyéb oldalai, amelyeknek eleve nem kellene ott lenniük, bekerülhetnek a keresésbe.

Mindazonáltal jobb időt és erőfeszítést költeni egy megfelelő egyedi robot létrehozására. Ily módon újra létrehozhatja a webhelyének megfelelő tilalmak és engedélyek jól megalapozott struktúráját.

A Robots.txt fájl szerkesztése és szintaxisának helyesbítése

A Robots.txt sikeres létrehozása után tetszés szerint szerkesztheti és módosíthatja. Ebben az esetben figyelembe kell venni néhány szabályt és az illetékes szintaxist. Idővel ezt a fájlt többször módosítani fogja. De ne felejtse el, hogy a szerkesztés után fel kell töltenie ezt a fájlt a webhelyre. Így a tartalom frissítése a keresőrobotok számára.

A Robots.txt megírása nagyon egyszerű, ennek oka a fájl meglehetősen egyszerű felépítése. A szabályok írásakor a legfontosabb dolog egy szigorúan meghatározott szintaxis használata. Ezeket a szabályokat szinte minden jelentősebb PS önként betartja. Íme egy lista néhány szabályról, amellyel elkerülhető a legtöbb hiba a Robots.txt fájlban:

Egy sorban nem lehet több meghatározott direktíva.
Minden szabály új sorban kezdődik.
A sor elején lévő szóközt eltávolítottuk.
Megjegyzések a # karakter után megengedettek.
Az üres robotok teljes indexelési engedélynek számítanak.
Ennek a fájlnak a neve csak érvényes „robots” formátumban lehetséges.
A fájl mérete nem haladhatja meg a 32 kb.
Csak egy szabály megengedett az Allow és Disallow direktívákban. Az Allow: vagy Disallow: után üres érték a teljes jogosultsággal egyenlő.
Minden szabályt kisbetűvel kell írni.
A fájlnak mindig elérhetőnek kell lennie.
A megadott szabályok utáni üres sor a User-agent direktíva szabályainak teljes végét jelzi.
A szabályokat minden PS-re külön kívánatos előírni.
Ha a szabály egy webhelykönyvtár, mindenképpen tegyen perjelet (/) elé.
A karakterláncban vagy a szabályban nem lehetnek idézőjelek.
Figyelembe kell venni a szabályok szigorú szerkezetét, amely többé nem felel meg az Ön webhelyének.
A Robots.txt fájlnak minimalistanak kell lennie, és egyértelműen közvetítenie kell a kívánt jelentést.

A Robots.txt fájl megfelelő beállítása – a parancsok helyes írása

Ahhoz, hogy pozitív eredményt érjen el a robotok használatakor, megfelelően be kell állítania azt. Ennek a fájlnak az összes fő parancsát utasításokkal követik a legnagyobb keresőmotorok, a Google és a Yandex. Más PS-ek figyelmen kívül hagyhatnak bizonyos utasításokat. Hogyan lehet a robots.txt fájlt jobban reagálni a legtöbb keresőmotorra? Itt meg kell értenie a fájllal való munkavégzés alapvető szabályait, amelyeket fentebb tárgyaltunk.
Fontolja meg az alapvető parancsokat:

Felhasználói ügynök: *- az utasítások abszolút minden ps-botra vonatkoznak. Lehetőség van bizonyos keresőmotorok külön megadására is, például: User-Agent: GoogleBot és User-Agent: YandexBot. Így a fontos PS-ekre vonatkozó szabályok helyesen vannak kijelölve.

Letiltás:- teljes mértékben tiltja a feltérképezést és indexelést (oldal, könyvtár vagy fájlok).

lehetővé teszi:- teljes mértékben lehetővé teszi (oldal, könyvtár vagy fájlok) feltérképezését és indexelését.

Tiszta paraméter:- szükséges a dinamikus tartalmú oldalak kizárásához. Ennek a szabálynak köszönhetően megszabadulhat az ismétlődő tartalomtól a webhelyen.

Feltérképezési késleltetés:- a szabály meghatározza azt az időintervallumot, amikor a p-botok letölthetik a dokumentumokat a webhelyről. Lehetővé teszi a szerver terhelésének jelentős csökkentését. Például: "Feltérképezési késleltetés: 5" - közli az n-robottal, hogy a dokumentumok letöltése a webhelyről legfeljebb 5 másodpercenként lehetséges.

Gazda: your_site.ru- Felelős a fő helyszíni tükörért. Ebben az irányelvben meg kell adnia a webhely elsőbbségi verzióját.

Webhelytérkép: http://your_site.ru/sitemap.xml- ahogy sejtheti, ez az utasítás tájékoztatja a p-botot a webhelytérkép jelenlétéről.

# - lehetővé teszi megjegyzések írását. Hozzászólni csak a font jel után lehet. Új vonalra és az irányelv folytatásaként is elhelyezhető. A robotok figyelmen kívül hagyják ezeket a lehetőségeket az utasítások átadásakor.

Robots.txs példák az összes főbb tartalomkezelő rendszerhez (CMS)

Az utasítások másolásához kattintson a tipp gombra.

WordPress (WP)

Felhasználói ügynök: *

Engedélyezés: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /kategória

Disallow: /archívum

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Házigazda: site.ru
»

HostCMS

User-agent: *

Disallow: captcha.php

Disallow: download_file.php

Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /komponensek/

Disallow: /images/

Disallow: /includes/

Disallow: /telepítés/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

Joomla 3

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /telepítés/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

MODX Evo

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Disallow: /index.php

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja

NetCat

Felhasználói ügynök: *

Disallow: /install/

Disallow: /links/

Disallow: /netcat/

Disallow: /netcat_files/

Disallow: /*.swf

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja

MODx

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

nyitott kocsi

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: / kívánságlista

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)

UMI

Felhasználói ügynök: *

Disallow: /emarket/addToCompare

Disallow: /emarket/kosár

Disallow: /go_out.php

Disallow: /images

Disallow: /images/lizing

Disallow: /images/ntc

Disallow: /files

Disallow: /users

Disallow: /admin

Disallow: /search

Disallow: /install-temp

Disallow: /install-static

Disallow: /install-libs

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja

Amiro.CMS

User-agent: *

Disallow: /admin

Disallow: /_admin/

Disallow: /members

Disallow: /search

Disallow: /subscribe

Disallow: /users

Disallow: /*offset=0

Disallow: /*forum_ext=

Disallow: /*_print_version=

Disallow: /*action=export_rss

Disallow: /*action=search

Disallow: /*action=view_posts

Disallow: /*display_form=

Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xm

Bitrix

User-agent: *

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /személyes/

Disallow: /feltöltés/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?print=

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*?action=

Disallow: /*action=ADD_TO_COMPARE_LIST

Disallow: /*action=DELETE_FROM_COMPARE_LIST

Disallow: /*action=ADD2BASKET

Disallow: /*action=BUY

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*?COURSE_ID=

Disallow: /*?PAGEN

Disallow: /*PAGEN_1=

Disallow: /*PAGEN_2=

Disallow: /*PAGEN_3=

Disallow: /*PAGEN_4=

Disallow: /*PAGEN_5=

Disallow: /*PAGEN_6=

Disallow: /*PAGEN_7=

Disallow: /*PAGE_NAME=keresés

Disallow: /*PAGE_NAME=felhasználói_bejegyzés

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*SHOWALL

Disallow: /*show_all=

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja

Drupal

User-agent: *

Disallow: /adatbázis/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /frissítések/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *regisztrál*

Disallow: *bejelentkezés*

Disallow: /legjobbra értékelt-

Disallow: /üzenetek/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/szerkesztés/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*?page=0

Disallow: /*szakasz

Disallow: /* sorrend

Disallow: /*?sort*

Disallow: /*&rendezés*

Disallow: /*votesupdown

Disallow: /*naptár

Disallow: /*index.php

Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja

A Robots.txt ellenőrzése a Google vagy a Yandex segítségével

Furcsa módon csak a Google vagy a Yandex webmesteri paneljei szükségesek a fájl ellenőrzéséhez. Ami viszont sokkal könnyebbé teszi a hibák megtalálását.

Google Webmester- a bal oldali menüben válassza a „Szkennelés”, majd a „Robots.txt fájlellenőrző eszköz” fület. Ezután a megjelenő ablak alsó sorába írja be a fájl nevét. Ezután kattintson az "Ellenőrzés" gombra, és nézze meg, hogyan látja a Google bot az Ön robotjait.

Webmester Yandex- a bal oldali menüben válassza az "Eszközök" és az "Analysis Robots.txt" elemet. Ezután a megjelenő ablakban egyszerűen kattintson az "Ellenőrzés" gombra.

Érdemes megjegyezni, hogy sok online érvényesítő létezik a fájl ellenőrzésére. A legolcsóbbakról beszéltem, amelyek mindig kéznél vannak.

Következtetés

Lehetetlen egyetlen tökéletes robotot írni minden oldalra. Ennek oka maguk az oldalak, amelyek egy része kézzel készül, míg mások különböző CMS-eken találhatók. Abszolút minden webhely más könyvtárszerkezettel és egyéb dolgokkal rendelkezik. Ezért minden webmesternek egyszerűen meg kell alkotnia a saját egyedi szabályait a p-botokra vonatkozóan. Egy ilyen fájl megfelel az Ön prioritásainak, és nem teszi lehetővé, hogy bizalmas információk után kutasson. Ennek köszönhetően az index jó minőségű tartalmat fog tartalmazni felesleges szemét nélkül.

Helló, ma arról fogunk beszélni, hogyan lehet létrehozni a megfelelő Robots txt-t, és miért van rá egyáltalán szükség.

Tartalom:

Mi az a robotok txt

Egyik korábbi cikkünkben a keresőrobotok működéséről beszéltünk. A robots txt fájl utasításokat ad a robotoknak a webhely megfelelő indexeléséhez. Irányelvek segítségével például megmondhatja a robotnak, hogy mely oldalakat vagy könyvtárakat kell indexelni, és melyeket nem, létrehozhat egy csoportot a webhelyéhez tartozó tükrökből (ha van ilyen), megadhatja a webhelytérkép fájl elérési útját stb. . Alapvetően kifejezetten a webhely bizonyos oldalainak indexelésének tiltására használják.

Hogyan készítsünk megfelelő robotokat txt-ben

Bármely szövegszerkesztőben hozzon létre egy robots txt nevű fájlt. Ezután az alább leírt direktívák segítségével irányítsa a robotot az oldal azon oldalaira, amelyeket hozzá kell adni, vagy éppen ellenkezőleg, el kell távolítani a keresési eredmények közül. A fájl létrehozása után ellenőrizze a hibákat a Yandex Webmaster vagy a Google Search Console segítségével.

Helyezze a kész fájlt webhelye gyökérkönyvtárába (ahol az index.html fájl található).

Felhasználói ügynök direktíva

Ez a keresőrobotok egyfajta üdvözlete.

A „User-agent:*” karakterlánc azt jelzi, hogy minden bejáró használhatja az ebben a fájlban található utasításokat. És például a "User-agent: Yandex" karakterlánc csak a Yandex keresőrobotja számára ad utasításokat. A használati példák az alábbiakban találhatók. Ezenkívül a keresőmotoroknak vannak segédrobotjai a különböző kategóriákhoz. Például a YandexNews és a Googlebot-News robotok a hírek kezelésére.

Allow és Disallow direktívák

A Disallow utasítással megadhatja, hogy webhelye mely oldalai vagy könyvtárai nem indexelhetők. Az Allow direktíva segítségével pedig megteheti.

Példák:
User-agent:*
letilt: /
Engedélyezés:/catalog/

Egy ilyen rekord minden keresőrobotnak közli, hogy a teljes webhelyről csak a katalóguskönyvtárat tudják indexelni.

A # szimbólum egyébként a megjegyzések leírására szolgál. A karakter utána és a sor végéig minden figyelmen kívül marad.

És itt van egy példa robotok txt egyedi utasításokkal a különböző keresőmotorokhoz:

#lehetővé teszi, hogy a robot a teljes webhelyet indexelje, kivéve a kerékpáros részt
User-agent:*
Disallow: /bikes/

#megtiltja, hogy a robot indexelje az oldalt, kivéve a csónakokkal rendelkező részt
Felhasználói ügynök: Googlebot
Engedélyezés: /csónakok/
Letiltás:/

# megakadályozza az összes többi keresőmotort a webhely indexelésében
User-agent: *
letilt: /

jegyzet hogy a User-agent, az Allow és a Disallow direktívák között ne legyenek üres sorok!

Speciális karakterek * és $

Használhatja a * és $ speciális karaktereket az enable és a Disallow direktívákban reguláris kifejezések megadásához. * - kiválasztja a megadott sorrendet

Például: #Tiltja a robotoknak, hogy indexeljenek minden olyan oldalt, amelynek URL-je privát
User-agent:*
Disallow: /*privát

Alapértelmezés szerint minden szabály végére meg kell írni a * speciális karaktert. A szabály végén található * törléséhez pedig a $ szimbólumot használjuk.

Például: # letiltja a "/lock" elemet
# de nem tiltja le a "/lock.html" fájlt
User-agent:*
Disallow: /lock$# letiltása és "/lock"
# és "/lock.html"
User-agent:*
Disallow: /lock

A $ speciális karakter nem tiltja a megadott * karaktert a végén, azaz:

User-agent:*
Disallow: /lock$# csak a "/lock" letiltása
Disallow: /lock*$# ugyanaz, mint a "Disallow: /lock"
# letiltja a /lock.html és a /lock elemet is

Webhelytérkép-irányelv

Ha webhelytérképet használ, akkor használja a sitemap direktívát, és adja meg benne egy (vagy több fájl) elérési útját.

User-agent:*
webhelytérkép: https://site.com/sitemap.xml

fogadó irányelv

Ha a webhelyén vannak tükrök, akkor ennek az irányelvnek a segítségével egy speciális robot összeállítja a webhely tükreinek csoportját, és csak a fő tükör kerül bele a keresésbe. Ez a direktíva nem garantálja, hogy a benne megadott helyszín lesz kiválasztva főtükörnek, de a döntés meghozatalakor kiemelten kezeli.

Példa:

#adja meg a fő webhelytükröt

Felhasználói ügynök: Yandex
Disallow:/mg-admin
Házigazda: https://www.zerkalo.ru

jegyzet. Ezt az irányelvet használják kizárólag a Yandex! + Robots.txt fájlonként csak egy Host direktíva kerül feldolgozásra. Ha több direktíva van megadva a fájlban, akkor a robot az elsőt használja.

A Host direktívának tartalmaznia kell:

HTTPS protokoll, ha a tükör csak biztonságos csatornán érhető el. Ha HTTP protokollt használ, akkor ez nem kötelező.
Egy érvényes tartománynév, amely megfelel az RFC 952 szabványnak, és nem IP-cím.
Portszám, ha szükséges (Host: myhost.ru:8080).

Lehetséges cirill betűt használni a robots txt-ben?

Nem, nem használhat cirill betűt. A cirill betűs tartománynevek megadásához használja például ezt a szolgáltatást.

Konfigurálás robots txt MogutaCMS

A MogutaCMS nem igényli a robots.txt kitöltését, mert a motor beszerelésekor automatikusan kitöltődik.

Most már tudja, hogyan kell beállítani a megfelelő robots txt-t, és azt is tudja, hogyan kell különféle direktívákat használni webhelye indexelésének vezérlésére, és ha bármilyen kérdése van, készen állunk arra, hogy válaszoljon rájuk a VK-n vagy a megjegyzéseket lentebb. Hamarosan találkozunk!