![Technikai okokból eltérések lehetségesek. technikai okokból. Magyarázatok a „Sikertelen kézbesítési kísérlet” állapothoz](https://i2.wp.com/internet-marketings.ru/wp-content/uploads/2018/09/gde-dolzhen-nahoditsa-file-robots.png)
Ez egy szöveges fájl (.txt formátumú dokumentum), amely egyértelmű utasításokat tartalmaz egy adott webhely indexeléséhez. Más szóval, ez a fájl közli a keresőmotorokkal, hogy a webes erőforrás mely oldalait kell indexelni, és melyeket nem – az indexelés tiltása érdekében.
Úgy tűnik, miért tiltják meg a webhely bizonyos tartalmának indexelését? Mondjuk, hadd indexeljen mindent válogatás nélkül a keresőrobot, az elv szerint: minél több oldal, annál jobb! Csak a vezérigazgató amatőrje tud így vitatkozni.
Nem minden tartalomra van szüksége a keresőrobotoknak, amiből az oldal áll. Vannak rendszerfájlok, vannak ismétlődő oldalak, vannak kulcsszavak címsorai, és még sok minden más, amit egyáltalán nem szükséges indexelni. Ellenkező esetben a következő helyzet nem kizárt.
A keresőrobot az Ön oldalára érkezve mindenekelőtt a hírhedt robots.txt-t próbálja megtalálni. Ha ezt a fájlt nem találja, vagy megtalálják, ugyanakkor helytelenül áll össze (a szükséges tilalmak nélkül), a keresőmotor „hírnöke” saját belátása szerint elkezdi tanulmányozni az oldalt.
Az ilyen tanulmányozás során mindent indexel, és korántsem tény, hogy azokról az oldalakról indul ki, amelyeket elsősorban a keresésbe kell bevinni (új cikkek, ismertetők, fotóriportok stb.). Természetesen ebben az esetben egy új webhely indexelése némileg késhet.
Az irigylésre méltó sors elkerülése érdekében a webmesternek gondoskodnia kell a megfelelő robots.txt fájl időben történő létrehozásáról.
A gyakorlatban az utasításokat (parancsokat) a robots.txt-ben speciális kifejezések segítségével írják le, amelyek közül a fő a direktíva " felhasználói ügynök: ". Ez utóbbi a keresőrobot megadására szolgál, amely a jövőben bizonyos utasításokat kap. Például:
A robots.txt fájlban az összes többi keresőmotorra együtt hivatkozhat. A parancs ebben az esetben így néz ki: User-agent: *. A "*" speciális szimbólum alatt szokásos "bármilyen szöveget" érteni. A mi esetünkben - bármely más, a Yandex keresőmotorok kivételével. A Google egyébként ezt a direktívát is személyesen veszi, ha nem személyesen keresi fel.
A keresőmotoroknak címzett fő "User-agent:" direktíva után konkrét parancsok következhetnek. Közülük a leggyakoribb az irányelv. Letiltás: ". Ezzel a paranccsal a keresőrobot megtilthatja a teljes webes erőforrás vagy annak egy részének indexelését. Minden attól függ, hogy az adott irányelv milyen kiterjesztéssel rendelkezik. Vegye figyelembe a példákat:
Felhasználói ügynök: Yandex Disallow: /
Ez a fajta bejegyzés a robots.txt fájlban azt jelenti, hogy a Yandex keresőrobotja egyáltalán nem indexelheti ezt az oldalt, mivel a tiltó „/” jel nagyszerűen elszigetelten áll, és nem kíséri semmilyen magyarázat.
Felhasználói ügynök: Yandex Disallow: /wp-admin
Amint látja, ezúttal pontosítások vannak, és ezek a rendszermappára vonatkoznak wp-admin ban ben . Vagyis az ezt a parancsot használó indexelő robot (a benne megadott elérési út) megtagadja az egész mappa indexelését.
Felhasználói ügynök: Yandex Disallow: /wp-content/themes
A Yandex robot ilyen jelzése azt jelenti, hogy felveszi a nagy kategóriába. wp-tartalom ", amelyben minden tartalmat indexelhet, kivéve a " témákat ».
Fedezze fel a robots.txt szöveges dokumentum „tiltott” funkcióit tovább:
User-agent: Yandex Disallow: /index$
Ebben a parancsban a példából következően egy másik speciális "$" jelet használunk. Használata azt mondja a robotnak, hogy nem lehet indexelni azokat az oldalakat, amelyek hivatkozásaiban betűsor található. index ". Ezzel egyidejűleg indexeljen egy külön webhelyfájlt azonos névvel " index.php » A robot nem tiltott. Így a "$" szimbólumot akkor használjuk, ha az indexelés tilalmának szelektív megközelítésére van szükség.
A robots.txt fájlban is letilthatja az erőforrás azon oldalainak indexelését, amelyekben bizonyos karakterek előfordulnak. Így nézhet ki:
Felhasználói ügynök: Yandex Disallow: *&*
Ez a parancs arra utasítja a Yandex keresőrobotot, hogy ne indexelje a webhely azon oldalait, amelyek URL-jei „&” szimbólumot tartalmaznak. Ezen túlmenően, ennek a jelnek a linkben minden más karakter között kell lennie. Előfordulhat azonban más helyzet is:
Felhasználói ügynök: Yandex Disallow: *&
Itt az indexelési tilalom minden olyan oldalra vonatkozik, amelyek hivatkozásai "&"-ra végződnek.
Ha nem merül fel probléma a webhely rendszerfájljainak indexelésének tilalmával, akkor ilyen problémák merülhetnek fel az erőforrás egyes oldalainak indexelésének tilalmával kapcsolatban. Például miért van erre elvileg szükség? Egy tapasztalt webmesternek sok megfontolása lehet ezzel kapcsolatban, de a fő szempont az, hogy a keresés során meg kell szabadulnia az ismétlődő oldalaktól. A "Disallow:" parancs és a fentebb tárgyalt speciális karakterek csoportja segítségével meglehetősen könnyű kezelni a "nem kívánt" oldalakat.
Az előző direktíva antipódjának tekinthető a "parancs" lehetővé teszi: ". Ugyanazokat az egyértelműsítő elemeket használva, de a robots.txt fájlban ezzel a paranccsal engedélyezheti az indexelő robot számára, hogy hozzáadja a szükséges webhelyelemeket a keresési bázishoz. Íme egy másik példa ennek bizonyítására:
Felhasználói ügynök: Yandex Engedélyezés: /wp-admin
A webmester valamiért meggondolta magát, és megfelelő módosításokat végzett a robots.txt fájlban. Ennek eredményeként mostantól a mappa tartalma wp-admin A Yandex hivatalosan engedélyezte az indexelést.
Annak ellenére, hogy létezik az "Engedélyezés:" parancs, a gyakorlatban nem túl gyakran használják. Általában nincs rá szükség, mivel automatikusan alkalmazzák. Elég, ha a webhely tulajdonosa használja a "Disallow:" direktívát, megtiltva annak egyik vagy másik tartalmának indexelését. Ezt követően az erőforrás minden egyéb, a robots.txt fájlban nem tiltott tartalmát a keresőrobot úgy érzékeli, mint amely indexelhető és indexelhető. Minden úgy van, mint a jogtudományban: "Minden szabad, amit nem tilt a törvény."
A parancsok " házigazda: "És" oldaltérkép: ". Ami az elsőt illeti, kizárólag a Yandex számára készült, jelezve, hogy melyik webhelytükör (www-vel vagy anélkül) tekintendő főnek. Egy példaoldal így nézhet ki:
Felhasználói ügynök: Yandex Host: webhely
Felhasználói ügynök: Yandex Host: www.site
Ezzel a paranccsal elkerülhető a webhely tartalmának szükségtelen megkettőzése is.
Viszont az irányelvet oldaltérkép: ” jelzi az indexelő robotnak az úgynevezett Sitemap - fájlok helyes elérési útját sitemap.xml És sitemap.xml.gz (CMS WordPress esetén). Egy hipotetikus példa lehet:
Felhasználói ügynök: * Webhelytérkép: http://site/sitemap.xml Webhelytérkép: http://site/sitemap.xml.gz
Ha ezt a parancsot írja elő a robots.txt fájlban, a keresőrobot gyorsabban indexeli a webhelytérképet. Ez viszont azt a folyamatot is felgyorsítja, hogy a webes forrásoldalak a keresési eredmények közé kerüljenek.
Tételezzük fel, hogy Ön, mint kezdő webmester, elsajátította az összes fent megadott információt. Mi a teendő ezután? Hozzon létre egy robots.txt szöveges dokumentumot webhelyére szabva. Ehhez szüksége van:
Igen, majdnem elfelejtettem. Egy kezdő webmester kétségtelenül, mielőtt kísérletezne, először meg akarja nézni a fájl kész példáit, amelyeket mások készítettek. Nincs is könnyebb. Ehhez csak írja be a böngésző címsorába site.ru/robots.txt . A "site.ru" helyett - az Önt érdeklő erőforrás neve. Csak és minden.
Jó kísérletezést és köszönöm, hogy olvastál!
A robots.txt fájl a webhely gyökérkönyvtárában található. Például a www.example.com webhelyen a robots.txt fájl címe www.example.com/robots.txt lenne. Ez egy egyszerű szöveges fájl, amely megfelel a botkizárási szabványnak, és egy vagy több szabályt tartalmaz, amelyek mindegyike megtagadja vagy lehetővé teszi egyik vagy másik bejárónak a hozzáférést egy adott elérési úthoz a webhelyen.
Az alábbiakban egy egyszerű, két szabályt tartalmazó robots.txt fájlra és annak értelmezésére mutatunk be példát.
# 1. szabály User-agent: Googlebot Disallow: /nogooglebot/ # 2. szabály User-agent: * Engedélyezés: / Webhelytérkép: http://www.example.com/sitemap.xml
Értelmezés
Íme néhány tipp a robots.txt fájlokkal való munkához. Javasoljuk, hogy tanulja meg a robots.txt fájlok teljes szintaxisát, mivel a robots.txt fájlok létrehozásához használt szintaktikai szabályok nem nyilvánvalóak, és meg kell értenie azokat.
Szinte bármilyen szövegszerkesztőben létrehozhat robots.txt fájlt (támogatnia kell az ASCII vagy UTF-8 kódolást). Ne használjon szövegszerkesztőt: gyakran saját formátumban mentik a fájlokat, és illegális karaktereket adnak hozzájuk, például göndör idézőjeleket, amelyeket a keresőrobotok nem ismernek fel.
A fájlok létrehozásakor és tesztelésekor használja a robots.txt fájlellenőrző eszközt. Lehetővé teszi egy fájl szintaxisának elemzését, és megtudhatja, hogyan fog működni a webhelyén.
Fájlformátum- és helyszabályok
A robots.txt fájlokban használt irányelvek
Az ismeretlen kulcsszavakat figyelmen kívül hagyja.
A robots.txt fájl egy vagy több szabálykészletből áll. Minden készlet egy User-agent karakterlánccal kezdődik, amely meghatározza azt a robotot, amely betartja a halmaz szabályait. Íme egy példa két szabályt tartalmazó fájlra; szövegközi megjegyzésekkel magyarázzák:
# Blokkolja a Googlebot hozzáférését az example.com/directory1/... és example.com/directory2/... # de engedélyezze a hozzáférést a directory2/subdirectory1/... # Az összes többi könyvtárhoz alapértelmezés szerint engedélyezett. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Megakadályozza, hogy más keresőmotorok hozzáférjenek a teljes webhelyhez. User-agent: othercrawler Disallow: /
A teljes szintaxis leírása ebben a cikkben található. Javasoljuk, hogy ismerkedjen meg vele, mivel van néhány fontos árnyalat a robots.txt fájl szintaxisában.
Íme néhány általános szabály a robots.txt fájlra vonatkozóan:
szabály | Példa |
---|---|
Akadályozza meg a teljes webhely feltérképezését. Kérjük, vegye figyelembe, hogy bizonyos esetekben a webhely URL-jei akkor is indexelhetők, ha még nem térképezték fel őket. Felhívjuk figyelmét, hogy ez a szabály nem vonatkozik az AdsBotokra, amelyeket külön kell felsorolni. | User-agent: * Disallow: / |
Egy könyvtár és annak teljes tartalmának ellenőrzésének megakadályozása, tegyen egy perjelet a könyvtár neve mögé. Ne használja a robots.txt fájlt bizalmas információk védelmére! E célból hitelesítést kell használni. A robots.txt fájl által blokkolt URL-ek indexelhetők, a robots.txt fájl tartalmát pedig bármely felhasználó megtekintheti, és így megtudhatja a bizalmas információkat tartalmazó fájlok helyét. | User-agent: * Disallow: /calendar/ Disallow: /junk/ |
Csak egy bejáró számára engedélyezze a feltérképezést | User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Engedélyezze a feltérképezést az összes bejáró számára, kivéve egyet | User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Egyedi oldal beolvasásának letiltása, adja meg ezt az oldalt a perjel után. |
Disallow: /private_file.html |
Adott kép elrejtése a Google Képek bot elől |
Felhasználói ügynök: Googlebot-Image Disallow: /images/dogs.jpg |
A webhelyén lévő összes kép elrejtése a Google Képek bot elől |
User-agent: Googlebot-Image Disallow: / |
Egy bizonyos típusú összes fájl vizsgálatának megakadályozása(jelen esetben GIF) |
User-agent: Googlebot Disallow: /*.gif$ |
Webhelye bizonyos oldalainak letiltásához, de továbbra is AdSense hirdetéseket jeleníthet meg rajtuk, használja a Disallow szabályt minden robotra, kivéve a Mediapartners-Google-t. Ennek eredményeként ez a robot hozzáférhet a keresési eredmények közül eltávolított oldalakhoz, hogy kiválassza a hirdetéseket, amelyeket egy adott felhasználónak szeretne megjeleníteni. |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Bizonyos karakterekkel végződő URL-ek megadásához használja a $ szimbólumot. Például .xls végződésű URL-ek esetén használja a következő kódot: | User-agent: Googlebot Disallow: /*.xls$ |
Hasznos volt ez a cikk?
Hogyan javítható ez a cikk?
A SEO-ban nincsenek apróságok. Néha egyetlen kis fájl, a Robots.txt is befolyásolhatja a webhely promócióját.
Ha azt szeretné, hogy webhelye megfelelően lépjen be az indexbe, hogy a keresőrobotok megkerüljék a szükséges oldalakat, akkor ajánlásokat kell írnia számukra.
„Lehetséges ez?” – kérdezed.Talán. Ehhez webhelyének rendelkeznie kell egy robots.txt fájllal.
Hogyan kell helyesen összeállítani és feltölteni a webhelyre - megértjük ebben a cikkben.
A kész Robots.txt fájlnak a webhely gyökérmappájában kell lennie. Csak egy fájl, mappa nélkül:
Szeretné ellenőrizni, hogy megtalálható-e a webhelyén? Írja be a címsorba: site.ru/robots.txt. A következő oldal jelenik meg (ha a fájl létezik):
A fájl több, behúzással elválasztott blokkból áll. Minden blokk ajánlásokat tartalmaz a különböző keresőmotorok keresőrobotjai számára (plusz egy blokk általános szabályokkal mindenki számára), és egy külön blokk az oldaltérképre mutató hivatkozásokkal - Sitemap.
Nem kell behúzni a blokkon belül egy keresőrobotra vonatkozó szabályokat.
Minden blokk a User-agent direktívával kezdődik.
Minden direktívát a ":" (kettőspont) jel követ, egy szóköz, amely után megjelenik az érték (például melyik oldalt kell bezárni az indexelésből).
Relatív oldalcímeket kell megadnia, nem abszolút címeket. Relatív - ez a "www.site.ru" nélkül van. Például le kell tiltania egy oldal indexelésétwww.site.ru/shop. Tehát a kettőspont után szóközt, perjelet és "bolt"-t teszünk:
Disallow: /shop.
A csillag (*) bármely karakterkészletet jelöl.
A dollárjel ($) a sor vége.
Dönthet úgy, hogy miért írjon egy fájlt a semmiből, ha bármelyik webhelyen megnyithatja, és egyszerűen másolhatja saját magának?
Minden webhelyhez egyedi szabályokat kell előírnia. Figyelembe kell venni a jellemzőket. Például ugyanaz az adminisztrációs panel a /wp-admin címen található a WordPress motorban, egy másik címen más lesz. Ugyanez az egyes oldalak címeivel, oldaltérképpel és így tovább.
Amint azt a képernyőképen már láthatta, a User-agent direktíva az első. Azt jelzi, hogy az alábbi szabályok melyik keresőrobotra vonatkoznak.
User-agent: * - szabályok minden keresőrobotra, azaz bármely keresőmotorra (Google, Yandex, Bing, Rambler stb.).
User-agent: Googlebot – A Google keresőpók szabályait jelzi.
Felhasználói ügynök: Yandex - szabályok a Yandex keresőrobothoz.
Nincs különbség, hogy melyik keresőrobot írja le először a szabályokat. De általában minden robotra vonatkozó ajánlásokat írnak először.
A webhely egészének vagy egyes oldalainak indexelésének letiltásához használja a Disallow utasítást.
Például teljesen bezárhatja a webhelyet az indexelésből (ha az erőforrás véglegesítése folyamatban van, és nem szeretné, hogy ebben az állapotban megjelenjen a keresési eredmények között). Ehhez írja be a következőket:
User-agent: *
letilt: /
Így minden keresőrobotnak tilos tartalmat indexelni az oldalon.
És így nyithat meg egy webhelyet indexeléshez:
User-agent: *
Letiltás:
Ezért ellenőrizze, hogy van-e perjel a Disallow direktíva után, ha be akarja zárni a webhelyet. Ha később szeretné megnyitni - ne felejtse el eltávolítani a szabályt (és ez gyakran megtörténik).
Az egyes oldalak indexelésből való bezárásához meg kell adnia a címüket. Már írtam, hogyan kell:
User-agent: *
Disallow: /wp-admin
Így az adminisztrációs panel bezárult a webhelyen a harmadik fél nézetei elől.
Amit hiba nélkül be kell zárnia az indexelésből:
Bezárhatja az indexelést és bizonyos típusú fájlokat. Tegyük fel, hogy van néhány .pdf fájl a webhelyén, amelyeket nem szeretne indexelni. A keresőrobotok pedig nagyon egyszerűen átvizsgálják az oldalra feltöltött fájlokat. Az alábbiak szerint zárhatja be őket az indexelésből:
User-agent: *
Disallow: /*. pdf$
Még akkor is, ha egy webhely teljesen le van zárva az indexeléstől, megnyithatja bizonyos fájlok vagy oldalak elérési útját a robotok számára. Tegyük fel, hogy újratervezi a webhelyet, de a szolgáltatási címtár érintetlen marad. Oda irányíthatja a keresőrobotokat, hogy továbbra is indexeljék a szakaszt. Ehhez az Allow direktívát használjuk:
User-agent: *
Engedélyezi: /services
letilt: /
2018. március 20-ig a Yandex keresőrobot robots.txt fájljában meg kellett adni a fő webhelytükröt a Host direktíván keresztül. Most már nem szükséges ezt megtenni - elég.
Mi a fő tükör? Ez az Ön webhelyének fő címe – www-vel vagy anélkül. Ha nem állít be átirányítást, akkor mindkét webhely indexelve lesz, azaz minden oldal ismétlődő lesz.
Miután megírta a robotokra vonatkozó összes utasítást, meg kell adnia a webhelytérkép elérési útját. Az oldaltérkép megmutatja a robotoknak, hogy az összes indexelendő URL egy adott címen található. Például:
Webhelytérkép: site.ru/sitemap.xml
Amikor a robot feltérképezi a webhelyet, látni fogja, hogy milyen változtatásokat hajtottak végre ezen a fájlon. Ennek eredményeként az új oldalak gyorsabban lesznek indexelve.
2009-ben a Yandex új irányelvet vezetett be - a Clean-param. Olyan dinamikus paraméterek leírására használható, amelyek nem befolyásolják az oldalak tartalmát. Leggyakrabban ezt az irányelvet fórumokon használják. Itt sok a szemét, például session id, rendezési paraméterek. Ha regisztrálja ezt az utasítást, a Yandex keresőrobotja nem tölti le ismételten a megkettőzött információkat.
Ezt az utasítást bárhová beírhatja a robots.txt fájlba.
Azok a paraméterek, amelyeket a robotnak nem kell figyelembe vennie, az érték első részében vannak felsorolva a & jellel:
Tiszta paraméter: sid&sort /forum/viewforum.php
Ez az irányelv elkerüli az ismétlődő oldalakat dinamikus URL-ekkel (amelyek kérdőjelet tartalmaznak).
Ez az irányelv azoknak a segítségére lesz, akiknek gyenge a szerverük.
A keresőrobot érkezése további terhelést jelent a szerveren. Ha nagy a webhely forgalma, akkor előfordulhat, hogy az erőforrás egyszerűen nem bírja el, és "fekszik". Ennek eredményeként a robot 5xx hibaüzenetet kap. Ha ez a helyzet folyamatosan ismétlődik, előfordulhat, hogy a keresőmotor nem működik a webhelyen.
Képzelje el, hogy dolgozik, és ezzel párhuzamosan folyamatosan fogadnia kell a hívásokat. Ekkor csökken a termelékenysége.
Ugyanígy a szerverrel.
Térjünk vissza az irányelvhez. A feltérképezési késleltetés lehetővé teszi, hogy késleltetést állítson be a webhely oldalainak vizsgálatában, hogy csökkentse a szerver terhelését. Más szóval, beállítja azt az időszakot, amely után az oldal oldalai betöltődnek. Ez a paraméter másodpercben, egész számként van megadva:
Fájl robots.txt egy közönséges .txt kiterjesztésű fájl, amely egy közönséges Windows jegyzettömb segítségével hozható létre. Ez a fájl indexelési utasításokat tartalmaz keresőrobotokhoz. Helyezze ezt a gyökérkönyvtár fájlt a tárhelyre.
Az oldal meglátogatásakor a keresőrobot mindenekelőtt a robots.txt fájlra hivatkozik, hogy instrukciókat kapjon a további teendőkre, és megtudja, mely fájlok és könyvtárak indexelése tilos. Fájl robots.txt a keresőmotorok számára ajánlott. Nem lehet biztosan megmondani, hogy az összes indexeléstől megtiltott fájl ennek eredményeként nem kerül indexelésre.
Tekintsük a robots.txt fájl legegyszerűbb példáját. Ez a fájl a következő sorokat tartalmazza:
User-agent: * Disallow: /wp-admin/ Disallow: /images/
Az első sor azt jelzi, hogy ezek az utasítások mely keresőrobotokra vonatkoznak. Ebben a példában egy csillag látható, ami azt jelenti, hogy az utasítások minden bejáróra vonatkoznak. Ha egy adott keresőrobothoz utasításokat kell megadni, meg kell adni a nevét. A második és harmadik sor letiltja a "wp-admin" és az "images" könyvtárak indexelését.
A Yandex keresőrobot számára az is fontos, hogy előírja a Host könyvtárat a fő webhelytükör jelzésére:
Felhasználói ügynök: Yandex Disallow: /wp-admin/ Disallow: /images/ Host: yoursite.ru
1. Ne tiltsa meg a keresőmotorok robotjainak, hogy indexeljék a webhelyet:
User-agent: googlebot Disallow: /
4. Ne tiltsa meg, hogy csak egy robot indexeljen (például googlebot), és ne tiltsa meg az összes többi keresőrobot indexelését:
Felhasználói ügynök: googlebot Disallow:
User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php
User-agent: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html
A robots.txt fájl írása során gyakran követnek el hibákat. Ezek elkerülése érdekében nézzük meg az alapvető szabályokat:
1. A fájl tartalmát csak nagybetűkkel kell írni.
2. Csak egy könyvtárat vagy egy fájlt kell megadni a Disallow utasításban.
3. A "User-agent" karakterlánc nem lehet üres. Ha az utasítás minden keresőrobotra vonatkozik, akkor meg kell adni egy csillagot, ha pedig egy adott keresőrobotra vonatkozik, akkor a nevét kell megadni.
4. Nem cserélheti fel a Disallow és a User-agent utasításokat.
5. A Host direktívában, amelyet a Yandexhez használunk, az oldalunk címét HTTP protokoll és záró perjel nélkül kell megadni.
6. A címtárak indexelésének tiltásakor perjelek előírása szükséges.
7. Ellenőrizze a robots.txt fájlt, mielőtt feltölti a szerverre. Ezzel elkerülheti a webhely indexelésével kapcsolatos esetleges problémákat a jövőben.
A webhelyhez tartozó Robots.txt egy UTF-8 kódolású indexszövegfájl.
Azért hívták indexnek, mert ajánlásokat tartalmaz a keresőrobotoknak – mely oldalakat érdemes feltérképezni és melyeket nem.
Ha a fájl kódolása eltér az UTF-8-tól, akkor a keresőrobotok félreértelmezhetik a benne található információkat.
A fájl a http, https, ftp protokollokra érvényes, és csak azon a gazdagépen / protokollon / portszámon belül "érvényes", amelyen található.
A robots.txt fájlnak csak egy helye lehet – a tárhely gyökérkönyvtárában. Valahogy így néz ki: http://your-site.xyz/robots.txt
A webhely robots.txt fájljának kötelező összetevői a Disallow szabály és a User-agent utasítás. Vannak másodlagos szabályok is.
A Disallow egy szabály, amely alapján a keresőrobot értesül arról, hogy mely oldalakat nincs értelme feltérképezni. És rögtön néhány konkrét példa ennek a szabálynak az alkalmazására:
1. példa – engedélyezett a teljes webhely indexelése:
2. példa – a webhelyindexelés teljes letiltása:
Ebben az esetben haszontalan lesz. A példa használata akkor releváns, ha a webhely „le van zárva” a felülvizsgálat miatt (például nem működik megfelelően). Ebben az esetben az oldalnak nincs helye a keresési eredmények között, ezért le kell zárni a robots txt fájlon keresztüli indexeléstől. Természetesen az oldal véglegesítése után fel kell oldani az indexelési tilalmat, de ezt elfelejtik.
6. példa – hogyan zárható be egy adott kiterjesztésű fájl az indexelésből a robots txt-ben (ebben az esetben .gif):
A .gif$ előtti csillag azt jelzi, hogy a fájlnév bármi lehet, a $ jel pedig a sor végét jelzi. Azok. egy ilyen „maszk” általában tiltja az összes GIF-fájl vizsgálatát.
Az Engedélyezés szabály mindent pontosan az ellenkezőjére tesz – lehetővé teszi a fájl/mappa/oldal indexelését.
És most egy konkrét példa:
Azt már tudjuk, hogy a Disallow: / direktíva segítségével letilthatjuk az oldalt a robots txt indexeléstől. Ugyanakkor megvan az Allow: /catalog szabály, amely lehetővé teszi a /catalog mappa vizsgálatát. Ezért e két szabály kombinációját a keresőrobotok úgy fogják fel, hogy „tilos a webhely feltérképezése, kivéve a / katalógus mappát”.
Az engedélyezési és letiltási szabályok és utasítások az URL előtag hosszának megfelelően növekvő sorrendben vannak rendezve, és sorban alkalmazzák őket. Ha ugyanarra az oldalra több szabály is illeszkedik, akkor a robot az utolsót választja ki a listából.
Tekintsünk két olyan helyzetet, ahol két szabály ellentmond egymásnak – az egyik szabály tiltja a /content mappák indexelését, a másik megengedi.
Ebben az esetben az Allow direktíva élvez elsőbbséget, mert alább van felsorolva:
És itt a Disallow direktíva élvez elsőbbséget ugyanezen okokból (lásd alább):
User-agent - egy szabály, amely "hivatkozás" a keresőrobotra, azt mondják, "ajánlások listája kifejezetten az Ön számára" (egyébként a robots.txt fájlban több lista is lehet - a Google különböző keresőrobotjaihoz és a Yandex).
Például ebben az esetben azt mondjuk, hogy „Hey Googlebot, gyere ide, itt van egy speciálisan összeállított ajánláslista az Ön számára”, ő pedig olyan, mint „Rendben, különösen nekem – ez kifejezetten számomra” és nem fog másokat feltérképezni. listákon.
Helyes robotok txt a Google számára (Googlebot)
Nagyjából ugyanez a történet a Yandex keresőbottal. A jövőre nézve a Yandex ajánlásainak listája az esetek majdnem 100% -ában kissé eltér a többi keresőrobot listájától (erről egy kicsit később beszélünk). De a lényeg ugyanaz: "Hé, Yandex, van egy külön lista az Ön számára" - "Rendben, most tanulmányozzuk."
Azok. ha ugyanabban a robots.txt fájlban 3 lista található User-agenttel: *, User-agent: Googlebot és User-agent: Yandex, ez azt jelenti, hogy az első „egy mindenkiért”, kivéve a Googlebotot és a Yandexet, pl. nak nek. vannak "személyes" listák számukra.
Webhelytérkép szabály – egy XML-webhelytérképpel rendelkező fájl helye, amely tartalmazza az összes bejárandó oldal címét. Általában a http://site.ua/sitemap.xml űrlap címe van megadva.
Azok. A keresőrobot minden alkalommal megnézi az oldaltérképen az új címeket, majd követi azokat a további feltérképezéshez, hogy frissítse az oldallal kapcsolatos információkat a keresőmotorok adatbázisaiban.
A Webhelytérkép-szabályt a következőképpen kell megadni a Robots.txt fájlban:
A robots.txt fájlban a keresztmetszetű Host direktíva is szükséges. Ez szükséges a Yandex keresőrobotjához - megmondja, hogy az indexeléskor melyik oldaltükröt kell figyelembe venni. Ezért külön szabálylista jön létre a Yandex számára. A Google és más keresőmotorok nem értik a Host direktívát. Ezért, ha webhelyének vannak másolatai, vagy a webhely különböző URL-címeken nyitható meg, akkor adja hozzá a host direktívát a robots txt fájlhoz, hogy a webhely oldalai megfelelően indexelve legyenek.
A "tüköroldalt" általában a webhely pontos vagy majdnem pontos "másolatának" nevezik, amely más címen érhető el.
A főtükör címét az alábbiak szerint kell megadni:
A http://host: site.ua vagy Host: http://site.ua webhelyen működő webhelyek esetén (azaz a http:// nem kötelező)
https://site.ua-n működő webhelyek esetén: https://site.ua (azaz a https:// kötelező)
Példa a host direktívára a robots txt-ben egy HTTPS-protokollban lévő webhelyhez:
A korábbiakkal ellentétben a Crawl-delay paraméter már nem szükséges. Fő feladata, hogy megmondja a keresőrobotnak, hogy az oldalak hány másodpercig töltődnek be. Általában akkor használják, ha gyenge szervereket használ. Csak a Yandexre vonatkozik.
A Clean-param direktíva segítségével kezelheti a get-paramétereket, így elkerülheti a tartalom megkettőzését, mert ugyanaz a tartalom különböző dinamikus hivatkozásokon keresztül érhető el (ezek a kérdőjelekkel ellátottak). Dinamikus hivatkozásokat generálhat a webhely, amikor különböző rendezéseket, munkamenet-azonosítókat stb.
Például ugyanaz a tartalom három címen érhető el:
www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1
Ebben az esetben a Clean-param direktíva a következőképpen van formázva:
Azok. a kettőspont után a ref attribútumot írjuk, jelezve a hivatkozás forrását, és csak ezután kerül feltüntetésre a „farka” (jelen esetben a /catalog/get_phone.ua).
Erre a célra találták ki a Disallow szabályt: i.e. másolja ki az indexelésből bezárandó dokumentum/fájl hivatkozását, illessze be a kettőspont mögé:
Disallow: http://your-site.xyz/privance.html
Disallow: http://your-site.xyz/foord.doc
Disallow: http://your-site.xyz/barcode.jpg
Ezután törölje a domain címét (ebben az esetben törölnie kell ezt a részt - http://your-site.xyz). A törlés után pontosan az lesz, aminek meg kell maradnia:
Disallow: /privacy.html
Disallow: /foord.doc
Disallow: /barcode.jpg
Nos, ha be akar zárni minden fájlt egy bizonyos kiterjesztéssel az indexelésből, akkor a szabályok így fognak kinézni:
Disallow: /*.html
Disallow: /*.doc
Disallow: /*.jpg
Erre a célra találták ki a Host direktívát. Azok. ha a http://your-site.xyz és http://yoursite.com címek ugyanannak a webhelynek a „tükrei”, akkor ezek egyikét meg kell adni a Host direktívában. Legyen a fő tükör http://webhelyed.xyz. Ebben az esetben a megfelelő lehetőségek a következők lennének:
Ha a webhely https protokollon működik, akkor csak ezt kell tennie:
Felhasználói ügynök: Yandex
Disallow: /privacy.html
Disallow: /foord.doc
Disallow: /barcode.jpg
Gazda: https://your-site.xyz
Ha a webhely a http protokollon működik, akkor mindkét alábbi lehetőség megfelelő lesz:
Felhasználói ügynök: Yandex
Disallow: /privacy.html
Disallow: /foord.doc
Disallow: /barcode.jpg
Gazda: http://webhelyed.xyz
Felhasználói ügynök: Yandex
Disallow: /privacy.html
Disallow: /foord.doc
Disallow: /barcode.jpg
Gazda: your-site.xyz
Ne feledje azonban, hogy a Host direktíva ajánlás, nem szabály. Azok. lehetséges, hogy egy domain kerül meghatározásra a gazdagépben, és a Yandex egy másikat tekint főtükörnek, ha rendelkezik a megfelelő beállításokkal a webmester panelen.
Ebben a formában a robots.txt fájl szinte bármilyen webhelyen elhelyezhető (kisebb módosításokkal).
Most nézzük meg, mi van ott.
DE... Ez NEM azt jelenti, hogy a robots.txt fájlt így kell formázni. A szabályokat minden oldalra szigorúan egyedileg kell megírni. Például nincs értelme a "technikai" oldalak indexelésének (bejelentkezési jelszavas beviteli oldalak, vagy tesztoldalak, amelyeken új webhelytervezést dolgoznak ki stb.). A szabályok egyébként a használt CMS-től is függnek.
Azonnal adunk egy kész kódot, amely lehetővé teszi a webhely indexelésének megtiltását, függetlenül a CMS-től:
Nagyon egyszerű:
Gazda: https://your-site.xyz
FONTOS!!! A https oldalaknál szigorúan meg kell adni a protokollt!
Kifejezetten az Ön számára készítettünk egy válogatást a robots.txt fájlban elkövetett leggyakoribb hibákból. Ezeknek a hibáknak szinte mindegyikében van egy közös vonás - figyelmetlenség miatt követik el.
1. Zavaros utasítások:
Helyes lehetőség:
2. A rendszer egy csomó mappát beszúr egy Disallow-ba:
Egy ilyen rekordban a robot összezavarodhat. Melyik mappát nem lehet indexelni? Első? Utolsó? Vagy mindet? Vagy hogyan? Vagy mi? Egy mappa = egy tiltó szabály és semmi más.
3. Csak egy fájlnév engedélyezett – robots.txt, és minden betű kicsi. Robots.txt, ROBOTS.TXT stb. nevek. nem megengedett.
4. A User-agent szabályt nem szabad üresen hagyni. Vagy adja meg a keresőrobot nevét (például a Yandex esetében), vagy tegyen egy csillagot (az összes többi esetében).
5. Szemét a fájlban (extra perjelek, csillagok stb.).
6. Rejtett oldalak teljes címének hozzáadása a fájlhoz, és néha a Disallow szabály nélkül is.
Nem jó:
http://mega-site.academy/serrot.html
Szintén rossz:
Disallow: http://mega-site.academy/serrot.html
Jobb:
Disallow: /serrot.html
Számos módja van a robots.txt fájl érvényesítésének egy általánosan elfogadott webes szabvány szerint.
1. módszer. Regisztráljon a Yandex és a Google webmester paneljén. Az egyetlen negatívum az, hogy ásni kell, hogy kitaláljuk a funkcionalitást. Továbbá megtörténik a javasolt módosítások végrehajtása, és a kész fájl feltöltődik a tárhelyre.
2. módszer. Online szolgáltatások használata:
https://services.sl-team.ru/other/robots/
https://technicalseo.com/seo-tools/robots-txt/
http://tools.seochat.com/tools/robots-txt-validator/
Tehát létrejön a robots.txt. Már csak a hibák ellenőrzése marad. Ehhez a legjobb, ha maguk a keresőmotorok által kínált eszközöket használjuk.
Google Webmasters (Google Search Console): jelentkezzen be fiókjába, ha az oldal nincs igazolva benne - erősítse meg, majd lépjen a Crawl -> Robots.txt fájlellenőrző eszközre.
Itt megteheti:
Hasonló az előzőhöz, kivéve:
Disallow: /cgi-bin # classic
tiltás: /? # bármely lekérdezési paraméter a főoldalon
Disallow: /wp- # minden WP-fájl: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # keresés
Disallow: *&s= # keresés
Disallow: /search # keresés
Disallow: *?attachment_id= # mellékletoldal. Valójában van átirányítása...
Disallow: */feed # minden hírcsatorna
Disallow: */rss # rss feed
Disallow: */embed # minden beágyazás
Disallow: */page/ # minden oldalszámozás
Engedélyezés: */feltöltés # nyitott feltöltés
Engedélyezés: /*/*.js # a /wp- belsejében (/*/ - prioritás)
Engedélyezés: /*/*.css # belül /wp- (/*/ - prioritás)
Engedélyezés: /wp-*.png # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.jpg # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.jpeg # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.gif # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.svg # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.pdf # fájlok a bővítményekben, a gyorsítótár mappájában stb.
#Disallow: /wp/ # ha a WP telepítve van a wp alkönyvtárban
Webhelytérkép: http://site.ru/sitemap2.xml # még egy fájl
#Webhelytérkép: http://site.ru/sitemap.xml.gz # tömörített verzió (.gz)
Házigazda: www.site.ru # a Yandex és a Mail.RU számára. (kereszteződés)
# Kódverzió: 1.0
# Ne felejtse el módosítani a "site.ru" címet a webhelyére.
Vessünk egy pillantást a robots txt fájl kódjára a WordPress CMS-hez:
Itt jelezzük, hogy minden szabály érvényes minden keresőrobotra (kivéve azokat, akikről "személyes" listát állítanak össze). Ha a lista egy adott robothoz készült, akkor a * a robot nevére változik:
Felhasználói ügynök: Yandex
Felhasználói ügynök: Googlebot
Engedélyezés: */feltöltések
Itt szándékosan engedjük meg a /feltöltést tartalmazó linkek indexelését. Ebben az esetben ez a szabály kötelező, mert. a WordPress motornak van egy /wp-content/uploads könyvtára (amely jól tartalmazhat képeket vagy más "nyitott" tartalmat), amelynek indexelését a Disallow: /wp- szabály tiltja. Tehát az Allow: */uploads-szal kivételt teszünk a Disallow: /wp- szabály alól.
Ellenkező esetben egyszerűen tiltják az indexelést:
Disallow: /cgi-bin – a szkriptindexelés letiltása
Disallow: /feed - az RSS-hírcsatorna vizsgálatának tiltása
Disallow: /trackback – letiltja az értesítések ellenőrzését
Disallow: ?s= vagy Disallow: *?s= - a webhely belső keresési oldalainak indexelésének tiltása
Disallow: */page/ - minden típusú oldalszámozás indexelésének tiltása
A Webhelytérkép szabálya: http://site.ru/sitemap.xml megmondja a Yandex robotnak az xml-térképet tartalmazó fájl elérési útját. Az útvonalat teljes egészében fel kell írni. Ha több ilyen fájl van, akkor több webhelytérkép-szabályt írunk (1 fájl = 1 szabály).
A Host: site.ru sorban kifejezetten a Yandex számára regisztráltuk a webhely fő tükrét. Úgy van megadva, hogy a többi tükör ugyanúgy indexelve legyen. Az üres sor a Host: előtt kötelező.
Valószínűleg mindenki tudja, hol található a WordPress robots txt - más CMS-ekhez hasonlóan ennek a fájlnak a webhely gyökérkönyvtárában kell lennie.
A Joomla szinte a legnépszerűbb motor a webmesterek körében, mert. a legszélesebb lehetőség és sok kész megoldás ellenére ingyenes. A normál robots.txt fájlt azonban mindig van értelme javítani, mert. túl sok "szemét" van nyitva az indexeléshez, de a képek zárva vannak (ez rossz).
Így néz ki a megfelelő robots.txt a Joomla számára:
Disallow: /administrator/
Disallow: /cache/
Disallow: /komponensek/
Disallow: /images/
Disallow: /includes/
Disallow: /telepítés/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
A Wix Platform automatikusan létrehozza a robots.txt fájlokat minden egyes Wix webhelyhez. Azok. adja hozzá a /robots.txt fájlt a domainjéhez (például: www.domain.com/robots.txt), és biztonságosan megvizsgálhatja a webhelyén található robots.txt fájl tartalmát.
A robots.txt fájl nem szerkeszthető. A noindex segítségével azonban bizonyos oldalakat bezárhat az indexelésből.
Az OpenCart szabványos robots.txt fájlja:
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: / kívánságlista
Disallow: /login
Felhasználói ügynök: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*route=product/search
Disallow: /*?page=
Disallow: /*&page=
Clean-param: követés
Clean-param: filter_name
Clean-param: filter_sub_category
Clean-param: filter_description
Disallow: / kívánságlista
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
gazdagép: your_domain
Webhelytérkép: http://your_domain/sitemap.xml
1. A /bitrix és /cgi-bin mappákat be kell zárni, mert ez pusztán technikai "szemét", aminek nem kell tündökölnie a keresési eredmények között.
Disallow: /bitrix
Disallow: /cgi-bin
2. A /search mappa sem a felhasználók, sem a keresőmotorok számára nem érdekes. És senkinek nincs szüksége másolatok létrehozására. Tehát mi is bezárjuk.
Disallow: /search
Disallow: /auth/
Disallow: /auth.php
4. A nyomdai anyagoknak (például számláknak) szintén nincs értelme a keresési eredményekben tündökölni. Közel vagyunk.
Disallow: /*?print=
Disallow: /*&print=
5. A Bitrix egyik nagy előnye, hogy rögzíti az oldal teljes előzményét - ki mikor jelentkezett be, ki mikor változtatta meg a jelszót és egyéb bizalmas információkat, amelyek nem szivároghatnak ki. Ezért lezárjuk:
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
6. Nincs értelme a visszacímek indexelésének sem. Ezek a címek létrehozhatók például egy fotóalbum megtekintésekor, amikor először „előre”, majd „hátra” görgeti azt. Ilyenkor valami szitokszó jelenhet meg a címsorban: ?back_url_ =%2Fbitrix%2F%2F. Az ilyen címek értéke nulla, ezért ezeket is bezárjuk az indexelés elől. Nos, bónuszként megszabadulunk az esetleges "dupláktól" a keresési eredmények között.
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
7. A /upload mappát szigorúan a körülményeknek megfelelően le kell zárni. Ha az oldalakon közzétett fényképeket és videókat ott tárolják, akkor nem szükséges elrejteni, hogy ne szakítsa meg a további forgalmat. Nos, ha valami bizalmas, azt mindenképpen lezárjuk:
Disallow: /feltöltés
Engedélyezés: /search/map.php
Engedélyezés: /bitrix/templates/
Disallow: */index.php
Disallow: /*action=
Disallow: /*print=
Disallow: /*/gallery/*order=
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*?utm_source=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*arrFilter=
Disallow: /*auth=
Disallow: /*back_url_admin=
Disallow: /*BACK_URL=
Disallow: /*back_url=
Disallow: /*backurl=
Disallow: /*bitrix_*=
Disallow: /*bitrix_include_areas=
Disallow: /*épületi_könyvtár=
Disallow: /*bxajaxid=
Disallow: /*change_password=
Disallow: /*clear_cache_session=
Disallow: /*clear_cache=
Disallow: /*count=
Disallow: /*COURSE_ID=
Disallow: /*forgot_password=
Disallow: /*index.php$
Disallow: /*login=
Disallow: /*logout=
Disallow: /*modern-repair/$
Disallow: /*MUL_MODE=
Disallow: /*ORDER_BY
Disallow: /*PAGE_NAME=
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=keresés
Disallow: /*PAGE_NAME=felhasználói_bejegyzés
Disallow: /*PAGEN_
Disallow: /*print_course=
Disallow: /*print=
Disallow: /*register=
Disallow: /*register=yes
Disallow: /*set_filter=
Disallow: /*show_all=
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*SHOWALL_
Disallow: /*sort=
Disallow: /*sphrase_id=
Disallow: /*tags=
Disallow: /access.log
Disallow: /admin
Disallow: /auth.php
Disallow: /bitrix
Disallow: /bitrix/
Disallow: /cgi-bin
Disallow: /club/$
Disallow: /club/forum/search/
Disallow: /club/gallery/tags/
Disallow: /club/group/search/
Disallow: /club/log/
Disallow: /club/messages/
Disallow: /club/search/
Disallow: /communication/blog/search.php
Disallow: /communication/forum/search/
Disallow: /communication/forum/user/
Disallow: /content/board/my/
Disallow: /content/links/my/
Disallow: /error
Disallow: /e-store/affiliates/
Disallow: /e-store/paid/detail.php
Disallow: /examples/download/download_private/
Disallow: /examples/my-components/
Disallow: /include
Disallow: /personal
Disallow: /search
Disallow: /feltöltés
Disallow: /*/*ELEMENT_CODE=
Disallow: /*/*SECTION_CODE=
Disallow: /*/*IBLOCK_CODE
Disallow: /*/*ELEMENT_ID=
Disallow: /*/*SECTION_ID=
Disallow: /*/*IBLOCK_ID=
Disallow: /*/*CODE=
Disallow: /*/*ID=
Disallow: /*/*IBLOCK_EXTERNAL_ID=
Disallow: /*/*SECTION_CODE_PATH=
Disallow: /*/*EXTERNAL_ID=
Disallow: /*/*IBLOCK_TYPE_ID=
Disallow: /*/*SITE_DIR=
Disallow: /*/*SERVER_NAME=
Webhelytérkép: http://site.ru/sitemap_index.xml
Webhelytérkép: http://site.ru/sitemap.xml
A CMS Modx Revo sem mentes a duplikációk problémájától. Ez azonban nem olyan kiélezett, mint a Bitrixben. Most a döntéséről.
Disallow: /index.php # mert ez a webhely főoldalának másolata
Disallow: /*? # megoldja a problémát az összes oldal ismétlődésével egyszerre
Kész robots.txt fájl Modx és Modx Revo számára:
Disallow: /*?id=
Disallow: /assets
Disallow: /assets/cache
Disallow: /assets/components
Disallow: /assets/docs
Disallow: /assets/export
Disallow: /assets/import
Disallow: /assets/modules
Disallow: /assets/plugins
Disallow: /assets/snippets
Disallow: /connectors
Disallow: /index.php
Disallow: /install
Disallow: /manager
Disallow: /profile
Disallow: /search
Webhelytérkép: http://site.ru/sitemap.xml
A robots.txt fájlt túlzás nélkül nevezhetjük "útmutatónak a Yandex és a Google keresőrobotjai számára" (persze, ha jól van összeállítva). Ha hiányzik a robots txt fájl, akkor azt létre kell hozni és fel kell tölteni a webhely tárhelyére. A Súgó Disallow szabályait ebben a cikkben fentebb ismertettük, és biztonságosan használhatja őket saját céljaira.
Foglaljuk össze a robots.txt szabályait/irányelveit/utasításait:
Jelek a robots.txt fordításakor: