![Mit jelent ez technikai okokból. Mit jelent](https://i2.wp.com/seogio.ru/wp-content/uploads/2016/12/ok.png)
A robots.txt fájl az egyik legfontosabb bármely webhely optimalizálásakor. Ennek hiánya a keresőrobotok által okozott nagy terheléshez és lassú indexeléshez és újraindexeléshez vezethet az oldalra, a helytelen beállítás pedig azt eredményezheti, hogy az oldal teljesen eltűnik a keresésből, vagy egyszerűen nem kerül indexelésre. Ezért nem fog keresni a Yandexben, a Google-ban és más keresőmotorokban. Vessünk egy pillantást a robots.txt megfelelő beállításának minden árnyalatára.
Először is egy rövid videó, amely általános képet ad arról, hogy mi is az a robots.txt fájl.
A keresőrobotok a robots.txt fájl jelenlététől függetlenül indexelik a webhelyet. Ha létezik ilyen fájl, akkor a robotokat az ebbe a fájlba írt szabályok vezérelhetik. Ugyanakkor egyes robotok figyelmen kívül hagyhatnak bizonyos szabályokat, vagy bizonyos szabályok csak bizonyos botokra vonatkoznak. Különösen a GoogleBot nem használja a Host és a Crawl-Delay direktívákat, a YandexNews a közelmúltban elkezdte figyelmen kívül hagyni a Crawl-Delay direktívát, a YandexDirect és a YandexVideoParser pedig figyelmen kívül hagyja az általánosabb robotok direktíváit (de a kifejezetten nekik meghatározottak vezérlik).
Bővebben a kivételekről:
Yandex kivételek
Robot-kivétel szabvány (Wikipédia)
A webhely maximális terhelését olyan robotok hozzák létre, amelyek tartalmat töltenek le az Ön webhelyéről. Ezért azzal, hogy megadja, hogy mit indexeljen és mit hagyjon figyelmen kívül, valamint milyen időközönként töltse le, egyrészt jelentősen csökkentheti a webhely robotok általi terhelését, másrészt felgyorsíthatja a letöltést. folyamat a szükségtelen oldalak megkerülésének tiltásával.
Az ilyen felesleges oldalak közé tartozik az ajax, a felugró űrlapokért felelős json szkriptek, a bannerek, a captcha kimenet stb., a megrendelőlapok és a bevásárlókosár a vásárlás minden lépésével, keresési funkciók, személyes fiók, adminisztrációs panel.
A legtöbb robotnál kívánatos az összes JS és CSS indexelésének letiltása is. De a GoogleBot és a Yandex esetében az ilyen fájlokat indexelésre kell hagyni, mivel ezeket a keresőmotorok a webhely kényelmének és rangsorolásának elemzésére használják (Google proof, Yandex proof).
Az irányelvek a robotokra vonatkozó szabályok. Van egy W3C specifikáció 1994. január 30-tól és egy kiterjesztett szabvány 1996-tól. Azonban nem minden keresőmotor és robot támogat bizonyos irányelveket. Ebben a tekintetben hasznosabb lesz, ha nem a szabványt ismerjük, hanem azt, hogy a fő robotokat hogyan vezérlik bizonyos irányelvek.
Nézzük meg sorban.
Ez a legfontosabb irányelv, amely meghatározza, hogy mely robotokra vonatkoznak a szabályok.
Minden robothoz:
User-agent: *
Egy adott bothoz:
Felhasználói ügynök: GoogleBot
Vegye figyelembe, hogy a robots.txt fájl nem különbözteti meg a kis- és nagybetűket. Azok. A Google felhasználói ügynöke a következőképpen írható:
felhasználói ügynök: googlebot
Az alábbiakban egy táblázat található a különböző keresőmotorok fő felhasználói ügynökeiről.
Bot | Funkció |
---|---|
Googlebot | A Google fő indexelő robotja |
Googlebot Hírek | Google Hírek |
Googlebot kép | Google Képek |
Googlebot Videó | videó- |
Mediapartners-Google | |
médiapartnerek | Google Adsense, Google Mobile Adsense |
AdsBot-Google | céloldal minőségének ellenőrzése |
AdsBot-Google-Mobile-Apps | Google Robot alkalmazásokhoz |
Yandex | |
YandexBot | A Yandex fő indexelő robotja |
YandexImages | Yandex.Images |
YandexVideo | Yandex.Video |
YandexMedia | multimédiás adatok |
YandexBlogs | blogkereső robot |
YandexAddurl | robot eléri az oldalt, amikor azt az „URL hozzáadása” űrlapon keresztül hozzáadják |
YandexFavicons | robot, amely indexeli a webhely ikonjait (favicon) |
YandexDirect | Yandex.Direct |
YandexMetrika | Yandex.Metrica |
YandexCatalog | Yandex.Katalógus |
YandexNews | Yandex.News |
YandexImageResizer | mobilszolgáltató robot |
bing | |
bingbot | a fő indexelő robot Bing |
Jehu! | |
Slurp | fő indexelő robot Yahoo! |
Mail.Ru | |
Mail.Ru | fő indexelő robot Mail.Ru |
Turista | |
StackRambler | Korábban a Rambler fő indexelő robotja. 2011. június 23-tól azonban a Rambler megszünteti saját keresőmotorjának támogatását, és szolgáltatásaiban a Yandex technológiát használja. Már nem releváns. |
A Disallow bezárja a webhely oldalait és részeit az indexelésből.
Engedélyezés erőszakkal megnyitja a webhely oldalait és részeit indexelés céljából.
De itt nem minden olyan egyszerű.
Először is meg kell ismernie további operátorokat, és meg kell értenie, hogyan használják őket - ezek a *, $ és #.
* tetszőleges számú karakter, beleértve azok hiányát is. Ugyanakkor nem tehet csillagot a sor végére, érthető, hogy alapértelmezés szerint ott van.
$ - azt jelzi, hogy az előtte lévő karakternek az utolsónak kell lennie.
# - megjegyzés, a sorban ez után a karakter után mindent nem vesz figyelembe a robot.
Példák a felhasználásra:
Disallow: *?s=
Disallow: /category/$
Másodszor, meg kell értenie, hogyan hajtják végre a beágyazott szabályokat.
Ne feledje, hogy az utasítások írási sorrendje nem fontos. Az indexelésből származó megnyitandó vagy bezárandó szabályok öröklődését a megadott könyvtárak határozzák meg. Vegyünk egy példát.
Engedélyezés: *.css
Disallow: /template/
http://site.ru/template/ - az indexelés elől zárva
http://site.ru/template/style.css – az indexelés elől zárva
http://site.ru/style.css - nyitott indexelésre
http://site.ru/theme/style.css - indexelésre nyitva
Ha azt szeretné, hogy az összes .css fájl nyitva legyen indexeléshez, akkor ezt minden zárt mappához külön regisztrálnia kell. A mi esetünkben:
Engedélyezés: *.css
Engedélyezés: /template/*.css
Disallow: /template/
Ismétlem, az irányelvek sorrendje nem fontos.
Irányelv a webhelytérkép XML-fájl elérési útjának meghatározásához. Az URL-t ugyanúgy kell beírni, mint a címsorba.
Például,
Webhelytérkép: http://site.ru/sitemap.xml
A Webhelytérkép-irányelv bárhol megadható a robots.txt fájlban anélkül, hogy egy adott felhasználói ügynökhöz lenne kötve. Több webhelytérkép-szabályt is megadhat.
Irányelv az oldal főtükrének meghatározására (a legtöbb esetben: www-vel vagy anélkül). Kérjük, vegye figyelembe, hogy a főtükör http:// NÉLKÜL, hanem https://-vel van feltüntetve. Szükség esetén a port is megadásra kerül.
Az irányelvet csak a Yandex és a Mail.Ru robotok támogatják. Más robotok, különösen a GoogleBot, nem veszik figyelembe a parancsot. A házigazda csak egyszer van regisztrálva!
1. példa:
Házigazda: site.ru
2. példa:
Házigazda: https://site.ru
Irányelv a webhely oldalainak robot általi letöltése közötti időintervallum beállítására. Támogatja a Yandex robotok, a Mail.Ru, a Bing, a Yahoo. Az értéket egész vagy tört egységekben (elválasztó - pont), az időt másodpercben lehet megadni.
1. példa:
Feltérképezési késleltetés: 3
2. példa:
Feltérképezési késleltetés: 0,5
Ha a webhely kis terhelésű, akkor nem kell ilyen szabályt beállítani. Ha azonban az oldalak robot általi indexelése oda vezet, hogy az oldal túllépi a korlátokat, vagy jelentős terhelést tapasztal, akár szerverleállásig, akkor ez az irányelv segít csökkenteni a terhelést.
Minél magasabb az érték, annál kevesebb oldalt tölt le a robot egy munkamenet során. Az optimális értéket minden telephelyre egyedileg határozzák meg. Jobb, ha nem túl nagy értékekkel kezdi - 0,1, 0,2, 0,5 -, és fokozatosan növeli őket. Az olyan keresőrobotok esetében, amelyek kevésbé fontosak a promóciós eredmények szempontjából, mint például a Mail.Ru, a Bing és a Yahoo, kezdetben magasabb értékeket állíthat be, mint a Yandex robotok esetében.
Ez a szabály közli a robottal, hogy a megadott paraméterekkel rendelkező URL-eket nem szabad indexelni. A szabálynak két argumentuma van: egy paraméter és egy szakasz URL-címe. Az irányelvet a Yandex támogatja.
Tiszta paraméter: author_id http://site.ru/articles/
Tiszta paraméter: author_id&sid http://site.ru/articles/
Clean-Param: utm_source&utm_medium&utm_campaign
A kiterjesztett robots.txt specifikációban a Request-rate és a Visit-time paramétereket is megtalálja. A vezető keresőmotorok azonban jelenleg nem támogatják őket.
Az irányelvek jelentése:
Igénylési arány: 1/5 - legfeljebb egy oldal tölthető be öt másodperc alatt
Látogatási idő: 0600-0845 - Az oldalak csak reggel 6 és 8:45 GMT között tölthetők be.
Ha úgy kell beállítania webhelyét, hogy a keresőrobotok NE indexeljék, akkor a következő utasításokat kell beírnia:
User-agent: *
letilt: /
Győződjön meg arról, hogy ezek az utasítások fel vannak írva a webhely tesztoldalain.
Oroszországban és a FÁK-országokban, ahol a Yandex részesedése kézzelfogható, az összes robotra vonatkozó direktívát kell írni, a Yandex és a Google számára pedig külön.
A robots.txt megfelelő konfigurálásához használja a következő algoritmust:
Miután létrehozta a robots.txt fájlt, el kell helyeznie a webhelyére a site.ru/robots.txt címen – pl. a gyökérkönyvtárban. A bejáró mindig a /robots.txt URL-címen éri el a fájlt
A robots.txt ellenőrzése a következő linkeken történik:
A cikk végén bemutatok néhány tipikus robots.txt fájlhibát.
Hasznos videó a Yandextől (Figyelem! Néhány ajánlás csak a Yandex számára alkalmas).
A webhelytérkép sokkal könnyebbé teszi a blog indexelését. A webhelytérképnek kötelezőnek kell lennie minden webhelyhez és bloghoz. De minden webhelynek és blognak is kell lennie egy fájlnak robotok.txt. A robots.txt fájl utasításokat tartalmaz a keresőrobotokhoz. Azt mondhatjuk - a keresőrobotok viselkedési szabályai a blogodon. És ez a fájl tartalmazza a blog oldaltérképének elérési útját is. Valójában egy megfelelően összeállított robots.txt fájl esetén a keresőrobot nem tölti az értékes időt webhelytérkép keresésével és a szükségtelen fájlok indexelésével.
robots.txt- ez egy szöveges fájl, egy normál "jegyzettömbben" hozható létre, amely a blog gyökerében található, és a keresőrobotoknak szóló utasításokat tartalmazza.
Ezek az utasítások megakadályozzák, hogy a bejárók véletlenszerűen indexeljék Isten összes fájlját, és célja, hogy pontosan azokat az oldalakat indexeljék, amelyeknek a SERP-ben kell lenniük.
Ezzel a fájllal letilthatja a WordPress motorfájlok indexelését. Vagy mondjuk a blogod titkos része. Megadhatja a blogtérkép elérési útját és a blog fő tükrét. Ez alatt azt értem, hogy a domain neved www-vel és www nélkül.
Ez a képernyőkép egyértelműen megmutatja, hogy a robots.txt fájl hogyan tiltja bizonyos mappák indexelését a webhelyen. Fájl nélkül a webhelyén minden elérhető a robot számára.
A robots.txt fájl utasításainak megértéséhez meg kell értenie az alapvető parancsokat (irányelveket).
user-agent- ez a parancs a robotok hozzáférését jelzi az Ön webhelyéhez. Ezzel az irányelvvel minden robothoz külön-külön hozhat létre utasításokat.
Felhasználói ügynök: Yandex - szabályok a Yandex robothoz
User-agent: * - szabályok minden robotra
Letiltja és megengedi- tiltó és engedélyezési irányelvek. A Disallow direktíva segítségével az indexelés tilos, az Allow segítségével pedig megengedett.
Példa a kitiltásra:
User-agent: *
Disallow: / - tiltás a teljes webhelyre.
Felhasználói ügynök: Yandex
Disallow: /admin - megtiltja, hogy a Yandex robot hozzáférjen az adminisztrációs mappa oldalaihoz.
Példa a felbontásra:
User-agent: *
Engedélyezés: /photo
Disallow: / - tiltás a teljes webhelyre, kivéve a fotómappában található oldalakat.
Jegyzet! a Disallow: paraméter nélkül mindent engedélyez, az Allow: paraméter nélkül pedig mindent tilt. És az Allow without Disallow irányelvnek nem szabadna lennie.
Webhelytérkép– megadja az oldaltérkép elérési útját xml formátumban.
Webhelytérkép: https://site/sitemap.xml.gz
Webhelytérkép: https://site/sitemap.xml
Házigazda– direktíva határozza meg a blogod fő tükrét. Úgy gondolják, hogy ezt az irányelvet csak a Yandex robotokra írják elő. Ezt az utasítást a robots.txt fájl legvégére kell helyezni.
Felhasználói ügynök: Yandex
Disallow: /wp-includes
host: site
Jegyzet! a főtükör címe a hipertext átviteli protokoll (http://) megadása nélkül van megadva.
Most, hogy láttuk a robots.txt fájl alapvető parancsait, megkezdhetjük a fájl létrehozását. Ahhoz, hogy saját robots.txt fájlt tudjon létrehozni az egyéni beállításokkal, ismernie kell blogja szerkezetét.
Megvizsgáljuk egy szabványos (univerzális) robots.txt fájl létrehozását egy WordPress bloghoz. Mindig hozzáadhatja saját beállításait.
Tehát kezdjük. Szükségünk lesz a szokásos "jegyzettömbre", amely minden Windows operációs rendszerben megtalálható. Vagy TextEdit MacOS-en.
Nyisson meg egy új dokumentumot, és illessze be a következő parancsokat:
User-agent: * Disallow: Webhelytérkép: https://site/sitemap.xml.gz Webhelytérkép: https://site/sitemap.xml Felhasználói ügynök: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages>Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site
Ne felejtse el lecserélni a Webhelytérkép és a Host direktívák paramétereit a sajátjával.
Fontos! parancsok írásakor csak egy szóköz megengedett. Az irányelv és a paraméter között. Semmi esetre se tegyen szóközt a paraméter után, vagy csak bárhol.
Példa:
Letiltás:<пробел>/feed/
Ez a példa robots.txt fájl univerzális, és minden CNC URL-lel rendelkező WordPress bloghoz illeszkedik. Olvassa el, mi az a CNC. Ha nem konfigurálta a CNC-t, javasoljuk, hogy törölje a Disallow: /*?* Disallow: /?s= fájlt a javasolt fájlból
Az ilyen jellegű manipulációk legjobb módja az FTP-kapcsolat. Olvassa el, hogyan állíthat be FTP-kapcsolatot a TotolCommander számára. Vagy használhatja a fájlkezelőt a tárhelyén.
FTP kapcsolatot fogok használni a TotolCommanderen.
Hálózat > Csatlakozás FTP-kiszolgálóhoz.
Válassza ki a kívánt kapcsolatot, és kattintson a "Csatlakozás" gombra.
Nyissa meg a blog gyökerét, és másolja a robots.txt fájlt az F5 billentyű lenyomásával.
Másolja a robots.txt fájlt a szerverre
Mostantól a robots.txt fájl ellátja a megfelelő funkcióit. De továbbra is javaslom a robots.txt elemzését, hogy megbizonyosodjon arról, hogy nincsenek hibák.
Ehhez be kell jelentkeznie a Yandex vagy a Google webmester fiókjába. Tekintsük a Yandex példáját. Itt végezhet elemzést anélkül, hogy megerősítené a webhelyhez fűződő jogokat. Csak egy postafiókra van szüksége a Yandexen.
Megnyitjuk a Yandex.webmaster fiókot.
A webmesteriroda főoldalán nyissa meg a hivatkozást "Ellenőrizzerobotok.txt".
Az elemzéshez meg kell adnia blogja url-címét, majd kattintson a " Letöltés robotok.txt a webhelyről". A fájl feltöltése után kattintson a gombra "Ellenőrzés".
A figyelmeztető bejegyzések hiánya azt jelzi, hogy a robots.txt fájl megfelelően lett létrehozva.
Az eredmény lent lesz látható. Ahol világos és érthető, hogy milyen anyagokat szabad keresőrobotoknak bemutatni, és melyeket tilos.
A robots.txt fájl elemzésének eredménye
Itt módosíthatja a robots.txt fájlt, és addig kísérletezhet, amíg el nem éri a kívánt eredményt. De ne feledje, a blogján található fájl nem változik. Ehhez az itt kapott eredményt be kell másolni egy jegyzettömbbe, el kell menteni robots.txt formátumban, és át kell másolni a blogot.
Egyébként ha kíváncsi vagy, hogy néz ki valakinek a blogján egy robots.txt fájl, könnyen utánanézhetsz. Ehhez csak hozzá kell adnia a /robots.txt fájlt a webhely címéhez
https://website/robots.txt
A robots.txt elkészült. És ne feledje, ne halogassa a robots.txt fájl létrehozását, a blog indexelése attól függ.
Ha szeretné elkészíteni a megfelelő robots.txt fájlt, és egyúttal biztos lehet benne, hogy csak a szükséges oldalak kerüljenek be a keresőmotor indexébe, akkor ez automatikusan megtehető a plugin segítségével.
Nekem ennyi. Mindenkinek sok sikert kívánok. Ha kérdése vagy kiegészítése van, írja meg a megjegyzésekben.
Hamarosan találkozunk.
Üdvözlettel, Maxim Zaitsev.
Iratkozz fel az új cikkekre!
Az oldal független promóciójával és népszerűsítésével nemcsak egyedi tartalom létrehozása vagy lekérdezések kiválasztása fontos a Yandex statisztikájában, hanem kellő figyelmet kell fordítania olyan mutatókra is, mint az erőforrás keresőmotorok általi indexelése, mert minden további promóció sikere is ettől függ.
Két fő eszköz áll rendelkezésünkre, amelyekkel ezt a folyamatot kezelhetjük. Először is, ez természetesen a robots.txt fájl, amely segít letiltani a fő tartalmat nem tartalmazó (motorfájlok és tartalommásolatok) indexelését, és ez a cikk erről fog szólni, de ezen kívül Egy másik fontos eszköz a webhelytérkép (Sitemap xml).
A fent említett eszközök nagyon fontosak projektje sikeres fejlesztéséhez, és ez egyáltalán nem alaptalan kijelentés. A Sitemap xml-ről szóló cikkben (lásd a fenti linket) példaként említettem egy nagyon fontos tanulmány eredményeit a kezdő webmesterek leggyakoribb technikai hibáiról, ahol a második és harmadik helyen (a nem egyedi tartalom után) a ezeknek a robotoknak és webhelytérkép-fájloknak a hiánya, vagy helytelen megfogalmazása és használata.
Nagyon világosan meg kell érteni, hogy a keresőmotorok robotjai számára nem szabad, hogy egy internetes projekt teljes tartalma (fájlok és könyvtárak) bármely motoron elérhető legyen.
Ha ezeknél a robotoknál nem ír elő bizonyos viselkedési szabályokat a robotokban, akkor sok olyan oldal kerül be a kereső indexébe, amely nem kapcsolódik az erőforrás jelentős tartalmához, illetve többszörös tartalomduplikáció is előfordulhat (ugyanaz ill. erősen keresztező tartalmak lesznek elérhetők különböző linkeken keresztül ), amelyeket a keresőmotorok nem szeretnek.
A jó megoldás az lenne, ha a robots.txt-ben mindent, ami felesleges, betiltanunk (a címben minden betűnek kisbetűnek kell lennie – nagybetűk nélkül).
Segítségével befolyásolni tudjuk a Yandex és a Google oldalindexelési folyamatát. Ez egy egyszerű szöveges fájl, amelyet bármilyen szövegszerkesztőben létrehozhat, majd szerkeszthet (például Notepad++). A keresőbot megkeresi ezt a fájlt az erőforrás gyökérkönyvtárában, és ha nem találja, mindent, amit elérhet, indexel az indexbe.
Ezért a szükséges robot megírása után a gyökérmappába kell menteni, például Filezilla Ftp kliens segítségével, hogy elérhető legyen például a következő címen:
https://website/robots.txt
Egyébként, ha tudni szeretnéd, hogyan néz ki ez a fájl egy adott projektnél a hálózaton, akkor elég lesz a /robots.txt formátum végét hozzáadni a főoldal URL-jéhez. Ez segíthet megérteni, hogy mi legyen benne.
Figyelembe kell azonban venni, hogy ez a fájl eltérően fog kinézni a különböző motoroknál (az indexelést blokkolni kívánó motormappákat a különböző CMS-ekben eltérően fogják elnevezni). Ezért, ha a legjobb megoldást szeretné eldönteni egy robot számára, mondjuk az SMF-ről szóló fórumot, akkor csak az erre a motorra épített fórumokat kell tanulmányoznia.
A Robots teljesen egyszerű szintaxissal rendelkezik, amelyet például a Yandex súgójában részletesen leírnak. Általában azt jelzi, hogy melyik keresőbotra vonatkoznak a következő direktívák: bot neve ("User-agent"), engedélyező ("Allow") és tiltó ("Disallow"), és a "Sitemap" is aktívan használatos a keresőmotorok jelzésére. , hol van pontosan a térképfájl.
Hasznos az is, hogy ebben a fájlban jelezze, hogy webprojektjének melyik tükör a fő a speciális "Host" direktívában, amelyet csak a Yandex ért. Még akkor is, ha az erőforrása nem rendelkezik tükrökkel, hasznos lesz jelezni, hogy melyik írásmód a fő – www-vel vagy anélkül. Mivel ez is egyfajta tükrözés. Erről részletesen beszéltem egy cikkben, amely a 301-es átirányításokról szól WWW-vel és anélkül.
Most beszéljünk egy kicsit ennek a fájlnak a szintaxisáról. A robots.txt utasításai így néznek ki:
<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>
A helyes kódnak tartalmaznia kell legalább egy „Disallow” direktívát minden „User-agent” bejegyzés után. Az üres fájl engedélyt feltételez a teljes webhely indexelésére.
A "User-agent" direktívának tartalmaznia kell a keresőbot nevét. Ezzel magatartási szabályokat állíthat be minden egyes keresőmotorhoz (például tilthatja meg egy külön mappa indexelését csak a Yandex számára). Példa a „Felhasználói ügynök” írására, amely az erőforrásához érkező összes botnak szól, így néz ki:
User-agent: *
Ha bizonyos feltételeket szeretne beállítani a "Felhasználói ügynökben" csak egy bothoz, például a Yandexhez, akkor ezt kell írnia:
Felhasználói ügynök: Yandex
Minden keresőmotor botjának saját neve van (például egy rambler esetében StackRambler). Itt felsorolom közülük a leghíresebbeket:
Google http://www.google.com Googlebot Yahoo! http://www.yahoo.com Slurp (vagy Yahoo! Slurp) AOL http://www.aol.com Slurp MSN http://www.msn.com MSNBot Live http://www.live.com MSNBot Ask http://www.ask.com Teoma AltaVista http://www.altavista.com Scooter Alexa http://www.alexa.com ia_archiver Lycos http://www.lycos.com Lycos Yandex http://www. ya.ru Yandex Rambler http://www.rambler.ru StackRambler Mail.ru http://mail.ru Mail.Ru Aport http://www.aport.ru Webalta Aport http://www.webalta.ru WebAlta (Web Alta Crawler/2.0)
A nagy keresőkben néha a fő botokon kívül külön példányok is vannak a blogok, hírek, képek stb. indexelésére. Ezen az erőforráson sok információt találhat a botok típusairól.
Néhány egyszerű példát hozok az direktívák használatára a műveletek magyarázatával.
1. Az alábbi kód lehetővé teszi, hogy minden bot kivétel nélkül indexeljen minden tartalmat. Ezt az üres Disallow direktíva határozza meg.
User-agent: * Disallow:
2. A következő kód ezzel szemben teljesen megtiltja, hogy minden keresőmotor ennek az erőforrásnak az oldalait vegye fel az indexbe. Ezt a Disallow értékre állítja a „/” karakterrel az értékmezőben.
User-agent: * Disallow: /
3. Ebben az esetben minden botnak meg lesz tiltva, hogy megtekintse az /image/ könyvtár tartalmát (a http://mysite.ru/image/ a könyvtár abszolút elérési útja)
User-agent: * Disallow: /image/
4. Az alábbi példában az "image" könyvtár tiltott lesz, valamint minden olyan fájl és könyvtár, amely "image" karakterekkel kezdődik, azaz a következő fájlok: "image.htm", "images.htm", könyvtárak: " kép ”, „images1”, „image34” stb.):
User-agent: * Disallow: /image
5. Az Allow-Disallow direktívák elérési útjainak leírásakor használhatja a "*" és a "$" szimbólumokat, ezzel beállítva bizonyos logikai kifejezéseket. A "*" szimbólum bármely (beleértve az üres) karaktersorozatot is jelenti. A következő példa megakadályozza, hogy minden keresőmotor indexelje az ".aspx" kiterjesztésű fájlokat:
User-agent: * Disallow: *.aspx
A webhelytükrözéssel kapcsolatos kellemetlen problémák elkerülése érdekében ajánlatos hozzáadni a Host direktívát a robots.txt fájlhoz, amely a Yandex botot a fő tükörre irányítja. Az írási szabályok szerint a User-agent bejegyzésének tartalmaznia kell legalább egy Disallow direktívát (általában üresre állítva, ami nem tilt semmit):
Felhasználói ügynök: Yandex Disallow: Host: www.site.ru
Felhasználói ügynök: Yandex Disallow: Host: site.ru
amelyik a legjobb az Ön számára.
A Sitemap direktíva a webhelytérkép fájl helyére mutat (általában Sitemap.xml néven, de nem mindig). A fájl elérési útja paraméterként van megadva, beleértve a http://-t (azaz URL-címét). Például:
Webhelytérkép: http://site.ru/sitemap.xml
Robots meta tag – segít bezárni a duplikált tartalmat
Van egy másik mód a webhely egyes oldalainak indexelésének beállítására (engedélyezésére vagy letiltására), mind a Yandex, mind a Google számára. Ehhez a kívánt weboldal „HEAD” címkéjén belül felkerül a Robots META tag a szükséges paraméterekkel, és ez megismétlődik minden olyan dokumentumnál, amelyre egy vagy másik szabályt (tiltást vagy engedélyt) alkalmazni kell. Így nézhet ki például:
Ebben az esetben az összes keresőmotor robotjának el kell felejtenie ennek a weboldalnak az indexelését (ezt jelzi a noindex jelenléte ebben a metacímkében) és a rajta elhelyezett linkek elemzését (ezt jelzi a nofollow - a botnak tilos követnie az ebben a dokumentumban talált hivatkozásokat).
Ehhez a metacímkéhez csak két paraméterpár tartozik: index and follow:
Index – jelzi, hogy a robot képes-e indexelni ezt a dokumentumot
Követés – követheti-e az ebben a dokumentumban található hivatkozásokat
Az alapértelmezett értékek az "index" és a "follow". Létezik egy rövidített írásmód is az "all" és a "none" használatával, amelyek mindkét paraméter aktivitását jelzik, illetve fordítva: all=index,follow és none=noindex,nofollow.
A WordPress blogok esetében beállíthatja például a Robots metacímkét a plugin segítségével Minden egyben SEO csomag. Nos, ennyi, az elméletnek vége, és ideje továbblépni a gyakorlatba, nevezetesen az optimális robots.txt összeállítására Joomla, SMF és WordPress számára.
Tudniillik a tetszőleges motor (Joomla, WordPress, SMF, stb.) alapján létrehozott projektek számos segédobjektummal rendelkeznek, amelyek nem hordoznak semmilyen információs terhelést.
Ha nem tiltja meg ennek a szemétnek az indexelését, akkor a keresőmotorok által a webhely indexelésére szánt időt a motorfájlok válogatására fordítják (annak érdekében, hogy információs összetevőt, azaz tartalmat keressenek bennük).
De a trükk az, hogy a legtöbb CMS-ben a tartalmat nem fájlokban tárolják, hanem egy adatbázisban, amelyhez a keresőrobotok semmilyen módon nem férhetnek hozzá. A motor szemetes tárgyaira felkapaszkodva a bot kifut a neki szánt időből, és sós csapkodás nélkül távozik.
Ezenkívül törekednie kell a projektben található tartalom egyediségére, és nem szabad megengednie a tartalom (információs tartalom) teljes vagy akár részleges megkettőzését. Duplikáció előfordulhat, ha ugyanaz az anyag különböző címeken (URL) érhető el.
A Yandex és a Google indexelés közben észleli a duplikációkat, és esetleg intézkedéseket tesz annak érdekében, hogy nagy számmal némileg pesszimista legyen az erőforrása (ők sem akarnak szemeket keresni a trágyadombokban).
Ha a projektjét bármilyen motor alapján hozták létre, akkor nagy valószínűséggel a tartalom megkettőzése történik, ami azt jelenti, hogy foglalkoznia kell vele, beleértve a tiltást is. robots.txt, és főleg a meta tag-ben, mert az első esetben a Google figyelmen kívül hagyhatja a tiltást, de a meta tag-re nem tud mit kezdeni (így hozták fel).
Például be WordPress nagyon hasonló tartalmú oldalak bekerülhetnek a keresési indexbe, ha az indexelés engedélyezett mind a kategóriatartalom, mind a címkearchívum tartalom, mind az ideiglenes archívum tartalom esetében.
De ha a fent leírt metacímkét használja a címkearchívum és az ideiglenes archívum tiltására (elhagyhatja a címkéket, de megtilthatja a kategóriák tartalmának indexelését), akkor nem lesz tartalom duplikációja. Erre a célra a WordPressben a legjobb az All in One SEO Pack bővítmény lehetőségeit használni, melynek leírásához a linket kicsit feljebb találjuk a szövegben.
A helyzet még bonyolultabb az SMF fórummotor tartalmának megkettőzésével. Ha nem a robotokon keresztül finomhangol (tilt), akkor ugyanazon bejegyzések többszörös másolata kerül be a keresésbe. A Joomlában egyébként néha gond van a normál dokumentumok és azok nyomtatásra szánt másolatainak sokszorosításával.
Összefoglalva elmondom, hogy a Robots fájlt úgy tervezték, hogy globális szabályokat állítson be a teljes webhelykönyvtárhoz, vagy olyan fájlokhoz és mappákhoz való hozzáférés megtagadására, amelyek neve meghatározott karaktereket tartalmaz (maszk szerint). Példákat láthat az ilyen tilalmak egy kicsit magasabbra állítására.
Egyetlen oldal indexelésének megtiltásához célszerű az azonos nevű metataget használni, amelyet a kívánt dokumentum fejlécébe (a HEAD címkék közé) írnak. A metacímke szintaxisának részleteiért lásd egy kicsit magasabban a szövegben.
Most nézzünk konkrét példákat a különböző motorokhoz – Joomla, WordPress és SMF – tervezett robotokra. Természetesen mindhárom különböző CMS-hez létrehozott opció jelentősen (ha nem is kardinálisan) különbözik egymástól. Igaz, mindegyikben van egy közös dolog, és ez a pillanat a Yandex keresőmotorjához kapcsolódik.
Mivel A Yandexnek meglehetősen nagy súlya van a Runetben, akkor figyelembe kell vennie munkájának minden árnyalatát, és itt a Host direktíva segít nekünk. Ez kifejezetten jelzi ennek a keresőmotornak az Ön webhelyének fő tükrét.
Számára külön User-agent blog használata javasolt, amely csak a Yandex számára készült (User-agent: Yandex). Ennek az az oka, hogy más keresőmotorok esetleg nem értik a Host-ot, és ennek megfelelően az összes keresőmotornak szánt User-agent rekordba (User-agent: *) való felvétele negatív következményekkel és hibás indexeléssel járhat.
Nehéz megmondani, hogyan állnak a dolgok valójában, mivel a keresési algoritmusok önmagukban is léteznek, ezért jobb, ha a tanácsok szerint járunk el. De ebben az esetben meg kell ismételnie a User-agent: Yandex direktívában az összes általunk beállított User-agent szabályt: *. Ha elhagyja a User-agent: Yandexet egy üres Disallow: karakterrel, akkor ily módon lehetővé teszi, hogy a Yandex bárhová menjen, és mindent behúzzon az indexbe.
Mielőtt folytatná a konkrét lehetőségek mérlegelését, szeretném emlékeztetni, hogy ellenőrizheti a robots.txt fájl működését a Yandex Webmasterben és a Google Webmasterben. Itt megadhatja az erőforrás konkrét URL-címeit, és megnézheti (ellenőrizheti), hogy a keresőmotor hozzáadja-e őket az indexéhez, vagy sikeresen letiltotta ezt a műveletet a csodafájlban.
Az SMF motorral kapcsolatos fórum esetén a következő fájl lesz helyes (a műszaki támogatás fórumáról ebből a témából):
User-agent: * Allow: /forum/*sitemap Engedélyezés: /forum/*arcade Engedélyezés: /forum/*rss Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: / fórum/Smileys/ Disallow: /forum/Források/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action User-agent: Slurp Feltérképezési késleltetés: 100
Ne feledje, hogy ez az opció akkor használható, ha az SMF fórum telepítve van a fő webhely fórumkönyvtárába. Ha a fórum nincs a könyvtárban, egyszerűen távolítsa el a /fórumot az összes szabályból.
Az SMF-ben a barátságos URL-ek a fórum adminisztrációs paneljén aktiválhatók vagy deaktiválhatók a következő útvonalon: az adminisztrációs panel bal oldali oszlopában válassza ki a "Funkciók és beállítások" elemet, a megnyíló ablak alján keresse meg az elemet. „Barátságos URL-ek engedélyezése”, ahol bejelölheti vagy törölheti a pipát.
A robots.txt egy másik verziója is létezik SMF-hez (de valószínűleg még nincs teljesen tesztelve):
User-agent: * Engedélyezés: /forum/*sitemap Engedélyezés: /forum/*arcade # ha nincs játékmod, töröld a sor kihagyása nélkül Allow: /forum/*rss Engedélyezés: /forum/*type=rss Disallow: /fórum /mellékletek/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: / forum/ *.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action Disallow: /forum /*prev_next Disallow: /forum/*all Disallow: /forum/*go.php # vagy bármilyen átirányítási mód Host: www.my site.ru # adja meg a fő tükröt User-agent: Slurp Crawl-delay: one száz
Amint ebben a fájlban látható, a Yandex-only Host direktíva minden keresőmotor felhasználói ügynökében szerepel. Valószínűleg továbbra is hozzáadnék egy külön User-agent direktívát csak a Yandexhez, az összes szabály megismétlésével. De döntsd el magad.
Felhasználói ügynök: Slurp feltérképezési késleltetés: 100
amiatt, hogy a Yahoo kereső (a Slurp a keresőbotjának a neve) sok szálon bejárja a szervert, ami negatívan befolyásolhatja a teljesítményét.
Ebben a szabályban a Crawl-delay direktíva lehetővé teszi, hogy megmondja a Yahoo botnak a minimális időtartamot (másodpercben) az egyik dokumentumletöltés vége és a következő kezdete között. Ez enyhíti a szerver terhelését.
A Sources/Printpage.php fájlban keresse meg (például a Notepad++ beépített keresőjével) a következő sort:
fatal_lang_error(472, false);
Illessze be közvetlenül alá:
$context["robot_no_index"] = igaz;
A Themes/your_theme_name/Printpage.template.php fájlban keresse meg a következő sort:
Illessze be alá a következő sort:
Ha azt szeretné, hogy a nyomtatott verzióban is legyen link a fórum teljes verziójára (ha a nyomtatott oldalak egy részét már indexelték a Yandexben és a Google-ban), akkor ugyanabban a Printpage.template.php fájlban talál egy sor nyitó HEAD címkével:
És illessze be a sor alá:
A fórumra
További információkat kaphat a robots.txt fájl ezen verziójáról, ha elolvassa az orosz nyelvű támogatási fórum ezen szálát.
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
Itt elvileg szinte mindent figyelembe vesznek és jól működik. Az egyetlen dolog, hogy hozzá kell adni egy külön User-agent: Yandex szabályt, amely beilleszti a Host direktívát, amely meghatározza a Yandex fő tükrét, valamint megadja a webhelytérkép fájl elérési útját.
Ezért a végső formában a Joomla megfelelő robotjainak véleményem szerint így kell kinézniük:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /telepítés/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: vash_sait.ru Webhelytérkép: http://vash_sait.ru/index.php?option =com_xmap&sitemap=1&view=xml&no_html=1
Igen, vegye figyelembe azt is, hogy a második lehetőségben nincs Disallow: /images/ direktíva, amely tiltja a képek indexelését a webhelyen. Elfelejtettem először erre összpontosítani a figyelmedet, de kedves Alex emlékeztetett erre.
Teljesen egyetértek vele abban, hogy ha a képek egyediek, és azt szeretné, hogy a látogatók a Yandex és a Google képkeresőjéből is megtalálják az Ön erőforrását, akkor feltétlenül távolítsa el ezt a szabályt a fájlból, de ne felejtse el megadni az összes attribútumot. képeit Alt és Title az Img címkéhez.
Amikor a VirtueMart komponensen alapuló online áruházat készítettem a Joomla számára, azzal a ténnyel találkoztam, hogy ennek az üzletnek a nyomtatható változatai elkezdtek bekerülni a keresőmotorok indexei közé. Az oldalra vezető gomb a nyomtatáshoz szükséges volt (a megrendelő így akarta), így csak a robots.txt-ben való kitiltás maradt hátra.
De kiderült, hogy egyáltalán nem volt nehéz. A helyzet az, hogy nyomtatható verzió létrehozásához a Joomlában a weboldal ugyanazt az URL-címét használjuk, egy kivétellel: a hívás nem az index.php, hanem az index2.php címre megy. Ilyenkor a sablon nem töltődik be, pl. csak a tartalom jelenik meg teljes képernyőn.
Ezért a nyomtatott verziók VirtueMartban való tiltása érdekében a következő szabályt egészítettem ki:
Disallow: /index2.php?page=shop
Nem mondok példát olyan fájlra, amelyet a fejlesztők ajánlanak. Te magad is megnézheted. Sok blogger egyáltalán nem korlátozza a Yandex és a Google botokat a WordPress motor tartalmának megismerésében. Leggyakrabban a blogokban találhatunk olyan robotokat, amelyeket a Google XML Sitemaps bővítmény automatikusan kitölt.
De véleményem szerint továbbra is segíteni kell a keresést abban a nehéz feladatban, hogy kiszűrjük a búzát a pelyváról. Először is, sok időbe telik, amíg a Yandex és a Google robotok indexelik ezt a szemetet, és előfordulhat, hogy egyáltalán nem lesz idő arra, hogy az új cikkeket tartalmazó weboldalakat hozzáadja az indexhez. Másodszor, a motor kéretlen fájljain átmászó robotok további terhelést hoznak létre a gazdagép szerverén, ami nem jó.
Ezért itt megadom az én verziómat, és Ön dönti el, hogy ebben a formában használja-e, vagy az Ön igényeihez igazítja:
User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Felhasználói ügynök: Yandex Disallow: /wp-login.php Disallow: / wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? .com/sitemap.xml ( 4 szavazat(ok), aminek eredménye: 5,00 5-ből)
Részletes utasítások a robots.txt fájl webhelyhez való létrehozásához. A Robots.txt a teljes keresőoptimalizálási webhely egyik legfontosabb eleme. A fájl megfelelő használatának feltételeinek betartásával bizonyos pozitív hatást érhet el a webhelyen. A legtöbb PS-hez többféle utasítás is megadható. Amelyek jelzik a keresőbot számára a szükséges korlátozásokat vagy engedélyeket az oldalak, könyvtárak vagy a webhely szakaszainak átvizsgálásához.
A Robots.txt – bizonyos kizárási szabványokkal rendelkezik a keresőügynökök (botok) számára, amelyet 1944 januárjában fogadtak el. Ennek a fájlnak a szabályait a leggyakoribb PS önkéntesen követi. A fájl egy vagy több szabályból állhat, amelyek mindegyike blokkolja vagy lehetővé teszi a bejáró számára a webhely bizonyos elérési útjait.
Alapértelmezés szerint ez a fájl nem található a webhelyen – ami minden PS-nek teljes engedélyt ad a webhely teljes tartalmának indexelésére. Az ilyen engedély a webhely fontos technikai oldalainak a keresőmotor indexébe való felvételét eredményezheti, amelyeknek nem szabad ott lenniük.
A Robots.txt a webhely keresőoptimalizálásának legfontosabb tényezője. A keresőrobotokra vonatkozó, megfelelően megírt szabályrendszernek köszönhetően bizonyos mértékű növekedést érhet el egy webhely keresési rangsorában. Mit adnak ezek az utasítások:
A legtöbb webhely esetében az indexelési korlátozások egyszerűen szükségesek, a kis, teljes oldalas webhelyek opcionálisak. Bizonyos irányelveket azonban minden webhelyhez hozzá kell adni. Például az indexelés tilalma:
A Robots.txt fájl létrehozásával kapcsolatos nehézségek még a kezdők számára sem merülhetnek fel. Elég egy bizonyos műveletsort követni:
Használnia kell egy közönséges szövegszerkesztőt (alternatívaként a jegyzettömböt). Létrehozunk egy .txt dokumentumot robotok néven. Ezután ezt a dokumentumot elmentjük és FTP-kliens segítségével a webhely gyökérkönyvtárába továbbítjuk. Ezek a követendő fő lépések.
Ez a módszer a legegyszerűbb és leggyorsabb, azoknak megfelelő, akik félnek önállóan létrehozni a Robots.txt fájlt, vagy egyszerűen lusták. Számos szolgáltatás kínálja ennek a fájlnak a létrehozását. De érdemes figyelembe venni néhány árnyalatot ezzel a módszerrel kapcsolatban. Például:
Mindazonáltal jobb időt és erőfeszítést költeni egy megfelelő egyedi robot létrehozására. Ily módon újra létrehozhatja a webhelyének megfelelő tilalmak és engedélyek jól megalapozott struktúráját.
A Robots.txt sikeres létrehozása után tetszés szerint szerkesztheti és módosíthatja. Ebben az esetben figyelembe kell venni néhány szabályt és az illetékes szintaxist. Idővel ezt a fájlt többször módosítani fogja. De ne felejtse el, hogy a szerkesztés után fel kell töltenie ezt a fájlt a webhelyre. Így a tartalom frissítése a keresőrobotok számára.
A Robots.txt megírása nagyon egyszerű, ennek oka a fájl meglehetősen egyszerű felépítése. A szabályok írásakor a legfontosabb dolog egy szigorúan meghatározott szintaxis használata. Ezeket a szabályokat szinte minden jelentősebb PS önként betartja. Íme egy lista néhány szabályról, amellyel elkerülhető a legtöbb hiba a Robots.txt fájlban:
Ahhoz, hogy pozitív eredményt érjen el a robotok használatakor, megfelelően be kell állítania azt. Ennek a fájlnak az összes fő parancsát utasításokkal követik a legnagyobb keresőmotorok, a Google és a Yandex. Más PS-ek figyelmen kívül hagyhatnak bizonyos utasításokat. Hogyan lehet a robots.txt fájlt jobban reagálni a legtöbb keresőmotorra? Itt meg kell értenie a fájllal való munkavégzés alapvető szabályait, amelyeket fentebb tárgyaltunk.
Fontolja meg az alapvető parancsokat:
Felhasználói ügynök: *- az utasítások abszolút minden ps-botra vonatkoznak. Lehetőség van bizonyos keresőmotorok külön megadására is, például: User-Agent: GoogleBot és User-Agent: YandexBot. Így a fontos PS-ekre vonatkozó szabályok helyesen vannak kijelölve.
Letiltás:- teljes mértékben tiltja a feltérképezést és indexelést (oldal, könyvtár vagy fájlok).
lehetővé teszi:- teljes mértékben lehetővé teszi (oldal, könyvtár vagy fájlok) feltérképezését és indexelését.
Tiszta paraméter:- szükséges a dinamikus tartalmú oldalak kizárásához. Ennek a szabálynak köszönhetően megszabadulhat az ismétlődő tartalomtól a webhelyen.
Feltérképezési késleltetés:- a szabály meghatározza azt az időintervallumot, amikor a p-botok letölthetik a dokumentumokat a webhelyről. Lehetővé teszi a szerver terhelésének jelentős csökkentését. Például: "Feltérképezési késleltetés: 5" - közli az n-robottal, hogy a dokumentumok letöltése a webhelyről legfeljebb 5 másodpercenként lehetséges.
Gazda: your_site.ru- Felelős a fő helyszíni tükörért. Ebben az irányelvben meg kell adnia a webhely elsőbbségi verzióját.
Webhelytérkép: http://your_site.ru/sitemap.xml- ahogy sejtheti, ez az utasítás tájékoztatja a p-botot a webhelytérkép jelenlétéről.
# - lehetővé teszi megjegyzések írását. Hozzászólni csak a font jel után lehet. Új vonalra és az irányelv folytatásaként is elhelyezhető. A robotok figyelmen kívül hagyják ezeket a lehetőségeket az utasítások átadásakor.
Az utasítások másolásához kattintson a tipp gombra.
Felhasználói ügynök: *
Engedélyezés: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /kategória
Disallow: /archívum
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Házigazda: site.ru
»
User-agent: *
Disallow: captcha.php
Disallow: download_file.php
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /komponensek/
Disallow: /images/
Disallow: /includes/
Disallow: /telepítés/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /xmlrpc/
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /telepítés/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /xmlrpc/
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /index.php
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja
Felhasználói ügynök: *
Disallow: /install/
Disallow: /links/
Disallow: /netcat/
Disallow: /netcat_files/
Disallow: /*.swf
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml
User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: / kívánságlista
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Felhasználói ügynök: *
Disallow: /emarket/addToCompare
Disallow: /emarket/kosár
Disallow: /go_out.php
Disallow: /images
Disallow: /images/lizing
Disallow: /images/ntc
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja
User-agent: *
Disallow: /admin
Disallow: /_admin/
Disallow: /members
Disallow: /search
Disallow: /subscribe
Disallow: /users
Disallow: /*offset=0
Disallow: /*forum_ext=
Disallow: /*_print_version=
Disallow: /*action=export_rss
Disallow: /*action=search
Disallow: /*action=view_posts
Disallow: /*display_form=
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xm
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /személyes/
Disallow: /feltöltés/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=keresés
Disallow: /*PAGE_NAME=felhasználói_bejegyzés
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja
User-agent: *
Disallow: /adatbázis/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /frissítések/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *regisztrál*
Disallow: *bejelentkezés*
Disallow: /legjobbra értékelt-
Disallow: /üzenetek/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/szerkesztés/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*?page=0
Disallow: /*szakasz
Disallow: /* sorrend
Disallow: /*?sort*
Disallow: /*&rendezés*
Disallow: /*votesupdown
Disallow: /*naptár
Disallow: /*index.php
Házigazda: vash_sait.ru (vagy www.vash_sait.ru)
Webhelytérkép: http://az XML-webhelytérképének elérési útja
Furcsa módon csak a Google vagy a Yandex webmesteri paneljei szükségesek a fájl ellenőrzéséhez. Ami viszont sokkal könnyebbé teszi a hibák megtalálását.
Google Webmester- a bal oldali menüben válassza a „Szkennelés”, majd a „Robots.txt fájlellenőrző eszköz” fület. Ezután a megjelenő ablak alsó sorába írja be a fájl nevét. Ezután kattintson az "Ellenőrzés" gombra, és nézze meg, hogyan látja a Google bot az Ön robotjait.
Webmester Yandex- a bal oldali menüben válassza az "Eszközök" és az "Analysis Robots.txt" elemet. Ezután a megjelenő ablakban egyszerűen kattintson az "Ellenőrzés" gombra.
Érdemes megjegyezni, hogy sok online érvényesítő létezik a fájl ellenőrzésére. A legolcsóbbakról beszéltem, amelyek mindig kéznél vannak.
Lehetetlen egyetlen tökéletes robotot írni minden oldalra. Ennek oka maguk az oldalak, amelyek egy része kézzel készül, míg mások különböző CMS-eken találhatók. Abszolút minden webhely más könyvtárszerkezettel és egyéb dolgokkal rendelkezik. Ezért minden webmesternek egyszerűen meg kell alkotnia a saját egyedi szabályait a p-botokra vonatkozóan. Egy ilyen fájl megfelel az Ön prioritásainak, és nem teszi lehetővé, hogy bizalmas információk után kutasson. Ennek köszönhetően az index jó minőségű tartalmat fog tartalmazni felesleges szemét nélkül.
Helló, ma arról fogunk beszélni, hogyan lehet létrehozni a megfelelő Robots txt-t, és miért van rá egyáltalán szükség.
Tartalom:Egyik korábbi cikkünkben a keresőrobotok működéséről beszéltünk. A robots txt fájl utasításokat ad a robotoknak a webhely megfelelő indexeléséhez. Irányelvek segítségével például megmondhatja a robotnak, hogy mely oldalakat vagy könyvtárakat kell indexelni, és melyeket nem, létrehozhat egy csoportot a webhelyéhez tartozó tükrökből (ha van ilyen), megadhatja a webhelytérkép fájl elérési útját stb. . Alapvetően kifejezetten a webhely bizonyos oldalainak indexelésének tiltására használják.
Bármely szövegszerkesztőben hozzon létre egy robots txt nevű fájlt. Ezután az alább leírt direktívák segítségével irányítsa a robotot az oldal azon oldalaira, amelyeket hozzá kell adni, vagy éppen ellenkezőleg, el kell távolítani a keresési eredmények közül. A fájl létrehozása után ellenőrizze a hibákat a Yandex Webmaster vagy a Google Search Console segítségével.
Helyezze a kész fájlt webhelye gyökérkönyvtárába (ahol az index.html fájl található).
Ez a keresőrobotok egyfajta üdvözlete.
A „User-agent:*” karakterlánc azt jelzi, hogy minden bejáró használhatja az ebben a fájlban található utasításokat. És például a "User-agent: Yandex" karakterlánc csak a Yandex keresőrobotja számára ad utasításokat. A használati példák az alábbiakban találhatók. Ezenkívül a keresőmotoroknak vannak segédrobotjai a különböző kategóriákhoz. Például a YandexNews és a Googlebot-News robotok a hírek kezelésére.
A Disallow utasítással megadhatja, hogy webhelye mely oldalai vagy könyvtárai nem indexelhetők. Az Allow direktíva segítségével pedig megteheti.
Példák:Egy ilyen rekord minden keresőrobotnak közli, hogy a teljes webhelyről csak a katalóguskönyvtárat tudják indexelni.
A # szimbólum egyébként a megjegyzések leírására szolgál. A karakter utána és a sor végéig minden figyelmen kívül marad.
És itt van egy példa robotok txt egyedi utasításokkal a különböző keresőmotorokhoz:
#lehetővé teszi, hogy a robot a teljes webhelyet indexelje, kivéve a kerékpáros részt
User-agent:*
Disallow: /bikes/
#megtiltja, hogy a robot indexelje az oldalt, kivéve a csónakokkal rendelkező részt
Felhasználói ügynök: Googlebot
Engedélyezés: /csónakok/
Letiltás:/
# megakadályozza az összes többi keresőmotort a webhely indexelésében
User-agent: *
letilt: /
jegyzet hogy a User-agent, az Allow és a Disallow direktívák között ne legyenek üres sorok!
Használhatja a * és $ speciális karaktereket az enable és a Disallow direktívákban reguláris kifejezések megadásához. * - kiválasztja a megadott sorrendet
Például: #Tiltja a robotoknak, hogy indexeljenek minden olyan oldalt, amelynek URL-je privátAlapértelmezés szerint minden szabály végére meg kell írni a * speciális karaktert. A szabály végén található * törléséhez pedig a $ szimbólumot használjuk.
Például: # letiltja a "/lock" elemetA $ speciális karakter nem tiltja a megadott * karaktert a végén, azaz:
User-agent:*Ha webhelytérképet használ, akkor használja a sitemap direktívát, és adja meg benne egy (vagy több fájl) elérési útját.
User-agent:*Ha a webhelyén vannak tükrök, akkor ennek az irányelvnek a segítségével egy speciális robot összeállítja a webhely tükreinek csoportját, és csak a fő tükör kerül bele a keresésbe. Ez a direktíva nem garantálja, hogy a benne megadott helyszín lesz kiválasztva főtükörnek, de a döntés meghozatalakor kiemelten kezeli.
Példa:#adja meg a fő webhelytükröt
Felhasználói ügynök: Yandexjegyzet. Ezt az irányelvet használják kizárólag a Yandex! + Robots.txt fájlonként csak egy Host direktíva kerül feldolgozásra. Ha több direktíva van megadva a fájlban, akkor a robot az elsőt használja.
A Host direktívának tartalmaznia kell:
Nem, nem használhat cirill betűt. A cirill betűs tartománynevek megadásához használja például ezt a szolgáltatást.
A MogutaCMS nem igényli a robots.txt kitöltését, mert a motor beszerelésekor automatikusan kitöltődik.
Most már tudja, hogyan kell beállítani a megfelelő robots txt-t, és azt is tudja, hogyan kell különféle direktívákat használni webhelye indexelésének vezérlésére, és ha bármilyen kérdése van, készen állunk arra, hogy válaszoljon rájuk a VK-n vagy a megjegyzéseket lentebb. Hamarosan találkozunk!