Technikai okokból eltérések lehetségesek.  technikai okokból.  Magyarázatok a „Sikertelen kézbesítési kísérlet” állapothoz

Technikai okokból eltérések lehetségesek. technikai okokból. Magyarázatok a „Sikertelen kézbesítési kísérlet” állapothoz

Ez egy szöveges fájl (.txt formátumú dokumentum), amely egyértelmű utasításokat tartalmaz egy adott webhely indexeléséhez. Más szóval, ez a fájl közli a keresőmotorokkal, hogy a webes erőforrás mely oldalait kell indexelni, és melyeket nem – az indexelés tiltása érdekében.

Úgy tűnik, miért tiltják meg a webhely bizonyos tartalmának indexelését? Mondjuk, hadd indexeljen mindent válogatás nélkül a keresőrobot, az elv szerint: minél több oldal, annál jobb! Csak a vezérigazgató amatőrje tud így vitatkozni.

Nem minden tartalomra van szüksége a keresőrobotoknak, amiből az oldal áll. Vannak rendszerfájlok, vannak ismétlődő oldalak, vannak kulcsszavak címsorai, és még sok minden más, amit egyáltalán nem szükséges indexelni. Ellenkező esetben a következő helyzet nem kizárt.

A keresőrobot az Ön oldalára érkezve mindenekelőtt a hírhedt robots.txt-t próbálja megtalálni. Ha ezt a fájlt nem találja, vagy megtalálják, ugyanakkor helytelenül áll össze (a szükséges tilalmak nélkül), a keresőmotor „hírnöke” saját belátása szerint elkezdi tanulmányozni az oldalt.

Az ilyen tanulmányozás során mindent indexel, és korántsem tény, hogy azokról az oldalakról indul ki, amelyeket elsősorban a keresésbe kell bevinni (új cikkek, ismertetők, fotóriportok stb.). Természetesen ebben az esetben egy új webhely indexelése némileg késhet.

Az irigylésre méltó sors elkerülése érdekében a webmesternek gondoskodnia kell a megfelelő robots.txt fájl időben történő létrehozásáról.

A "User-agent:" a fő robots.txt direktíva

A gyakorlatban az utasításokat (parancsokat) a robots.txt-ben speciális kifejezések segítségével írják le, amelyek közül a fő a direktíva " felhasználói ügynök: ". Ez utóbbi a keresőrobot megadására szolgál, amely a jövőben bizonyos utasításokat kap. Például:

  • Felhasználói ügynök: Googlebot- az ezen alapirányelv után következő összes parancs kizárólag a Google keresőmotorjára (indexelő robotjára) vonatkozik;
  • Felhasználói ügynök: Yandex- a címzett ebben az esetben a hazai Yandex kereső.

A robots.txt fájlban az összes többi keresőmotorra együtt hivatkozhat. A parancs ebben az esetben így néz ki: User-agent: *. A "*" speciális szimbólum alatt szokásos "bármilyen szöveget" érteni. A mi esetünkben - bármely más, a Yandex keresőmotorok kivételével. A Google egyébként ezt a direktívát is személyesen veszi, ha nem személyesen keresi fel.

"Disallow:" parancs - az indexelés tiltása a robots.txt fájlban

A keresőmotoroknak címzett fő "User-agent:" direktíva után konkrét parancsok következhetnek. Közülük a leggyakoribb az irányelv. Letiltás: ". Ezzel a paranccsal a keresőrobot megtilthatja a teljes webes erőforrás vagy annak egy részének indexelését. Minden attól függ, hogy az adott irányelv milyen kiterjesztéssel rendelkezik. Vegye figyelembe a példákat:

Felhasználói ügynök: Yandex Disallow: /

Ez a fajta bejegyzés a robots.txt fájlban azt jelenti, hogy a Yandex keresőrobotja egyáltalán nem indexelheti ezt az oldalt, mivel a tiltó „/” jel nagyszerűen elszigetelten áll, és nem kíséri semmilyen magyarázat.

Felhasználói ügynök: Yandex Disallow: /wp-admin

Amint látja, ezúttal pontosítások vannak, és ezek a rendszermappára vonatkoznak wp-admin ban ben . Vagyis az ezt a parancsot használó indexelő robot (a benne megadott elérési út) megtagadja az egész mappa indexelését.

Felhasználói ügynök: Yandex Disallow: /wp-content/themes

A Yandex robot ilyen jelzése azt jelenti, hogy felveszi a nagy kategóriába. wp-tartalom ", amelyben minden tartalmat indexelhet, kivéve a " témákat ».

Fedezze fel a robots.txt szöveges dokumentum „tiltott” funkcióit tovább:

User-agent: Yandex Disallow: /index$

Ebben a parancsban a példából következően egy másik speciális "$" jelet használunk. Használata azt mondja a robotnak, hogy nem lehet indexelni azokat az oldalakat, amelyek hivatkozásaiban betűsor található. index ". Ezzel egyidejűleg indexeljen egy külön webhelyfájlt azonos névvel " index.php » A robot nem tiltott. Így a "$" szimbólumot akkor használjuk, ha az indexelés tilalmának szelektív megközelítésére van szükség.

A robots.txt fájlban is letilthatja az erőforrás azon oldalainak indexelését, amelyekben bizonyos karakterek előfordulnak. Így nézhet ki:

Felhasználói ügynök: Yandex Disallow: *&*

Ez a parancs arra utasítja a Yandex keresőrobotot, hogy ne indexelje a webhely azon oldalait, amelyek URL-jei „&” szimbólumot tartalmaznak. Ezen túlmenően, ennek a jelnek a linkben minden más karakter között kell lennie. Előfordulhat azonban más helyzet is:

Felhasználói ügynök: Yandex Disallow: *&

Itt az indexelési tilalom minden olyan oldalra vonatkozik, amelyek hivatkozásai "&"-ra végződnek.

Ha nem merül fel probléma a webhely rendszerfájljainak indexelésének tilalmával, akkor ilyen problémák merülhetnek fel az erőforrás egyes oldalainak indexelésének tilalmával kapcsolatban. Például miért van erre elvileg szükség? Egy tapasztalt webmesternek sok megfontolása lehet ezzel kapcsolatban, de a fő szempont az, hogy a keresés során meg kell szabadulnia az ismétlődő oldalaktól. A "Disallow:" parancs és a fentebb tárgyalt speciális karakterek csoportja segítségével meglehetősen könnyű kezelni a "nem kívánt" oldalakat.

"Allow:" parancs – indexelési engedély a robots.txt fájlban

Az előző direktíva antipódjának tekinthető a "parancs" lehetővé teszi: ". Ugyanazokat az egyértelműsítő elemeket használva, de a robots.txt fájlban ezzel a paranccsal engedélyezheti az indexelő robot számára, hogy hozzáadja a szükséges webhelyelemeket a keresési bázishoz. Íme egy másik példa ennek bizonyítására:

Felhasználói ügynök: Yandex Engedélyezés: /wp-admin

A webmester valamiért meggondolta magát, és megfelelő módosításokat végzett a robots.txt fájlban. Ennek eredményeként mostantól a mappa tartalma wp-admin A Yandex hivatalosan engedélyezte az indexelést.

Annak ellenére, hogy létezik az "Engedélyezés:" parancs, a gyakorlatban nem túl gyakran használják. Általában nincs rá szükség, mivel automatikusan alkalmazzák. Elég, ha a webhely tulajdonosa használja a "Disallow:" direktívát, megtiltva annak egyik vagy másik tartalmának indexelését. Ezt követően az erőforrás minden egyéb, a robots.txt fájlban nem tiltott tartalmát a keresőrobot úgy érzékeli, mint amely indexelhető és indexelhető. Minden úgy van, mint a jogtudományban: "Minden szabad, amit nem tilt a törvény."

A "Host:" és a "Sitemap:" irányelvek

A parancsok " házigazda: "És" oldaltérkép: ". Ami az elsőt illeti, kizárólag a Yandex számára készült, jelezve, hogy melyik webhelytükör (www-vel vagy anélkül) tekintendő főnek. Egy példaoldal így nézhet ki:

Felhasználói ügynök: Yandex Host: webhely

Felhasználói ügynök: Yandex Host: www.site

Ezzel a paranccsal elkerülhető a webhely tartalmának szükségtelen megkettőzése is.

Viszont az irányelvet oldaltérkép: ” jelzi az indexelő robotnak az úgynevezett Sitemap - fájlok helyes elérési útját sitemap.xml És sitemap.xml.gz (CMS WordPress esetén). Egy hipotetikus példa lehet:

Felhasználói ügynök: * Webhelytérkép: http://site/sitemap.xml Webhelytérkép: http://site/sitemap.xml.gz

Ha ezt a parancsot írja elő a robots.txt fájlban, a keresőrobot gyorsabban indexeli a webhelytérképet. Ez viszont azt a folyamatot is felgyorsítja, hogy a webes forrásoldalak a keresési eredmények közé kerüljenek.

A robots.txt fájl készen áll – mi a következő lépés?

Tételezzük fel, hogy Ön, mint kezdő webmester, elsajátította az összes fent megadott információt. Mi a teendő ezután? Hozzon létre egy robots.txt szöveges dokumentumot webhelyére szabva. Ehhez szüksége van:

  • használjon szövegszerkesztőt (például Jegyzettömböt) a szükséges robots.txt lefordításához;
  • ellenőrizze a létrehozott dokumentum helyességét, például ezzel a Yandex szolgáltatással;
  • FTP kliens segítségével töltse fel az elkészült fájlt webhelye gyökérmappájába (WordPress esetén általában a Public_html rendszermappáról beszélünk).

Igen, majdnem elfelejtettem. Egy kezdő webmester kétségtelenül, mielőtt kísérletezne, először meg akarja nézni a fájl kész példáit, amelyeket mások készítettek. Nincs is könnyebb. Ehhez csak írja be a böngésző címsorába site.ru/robots.txt . A "site.ru" helyett - az Önt érdeklő erőforrás neve. Csak és minden.

Jó kísérletezést és köszönöm, hogy olvastál!

A robots.txt fájl a webhely gyökérkönyvtárában található. Például a www.example.com webhelyen a robots.txt fájl címe www.example.com/robots.txt lenne. Ez egy egyszerű szöveges fájl, amely megfelel a botkizárási szabványnak, és egy vagy több szabályt tartalmaz, amelyek mindegyike megtagadja vagy lehetővé teszi egyik vagy másik bejárónak a hozzáférést egy adott elérési úthoz a webhelyen.

Az alábbiakban egy egyszerű, két szabályt tartalmazó robots.txt fájlra és annak értelmezésére mutatunk be példát.

# 1. szabály User-agent: Googlebot Disallow: /nogooglebot/ # 2. szabály User-agent: * Engedélyezés: / Webhelytérkép: http://www.example.com/sitemap.xml

Értelmezés

  1. A Googlebot nevű felhasználói ügynök nem térképezheti fel a http://example.com/nogooglebot/ könyvtárat és annak alkönyvtárait.
  2. Az összes többi felhasználói ügynöknek hozzáférése van a teljes oldalhoz (elhagyható, az eredmény ugyanaz, mivel alapértelmezés szerint teljes hozzáférés biztosított).
  3. Webhelytérkép fájl ez a webhely a http://www.example.com/sitemap.xml címen található.

Íme néhány tipp a robots.txt fájlokkal való munkához. Javasoljuk, hogy tanulja meg a robots.txt fájlok teljes szintaxisát, mivel a robots.txt fájlok létrehozásához használt szintaktikai szabályok nem nyilvánvalóak, és meg kell értenie azokat.

Formátum és elrendezés

Szinte bármilyen szövegszerkesztőben létrehozhat robots.txt fájlt (támogatnia kell az ASCII vagy UTF-8 kódolást). Ne használjon szövegszerkesztőt: gyakran saját formátumban mentik a fájlokat, és illegális karaktereket adnak hozzájuk, például göndör idézőjeleket, amelyeket a keresőrobotok nem ismernek fel.

A fájlok létrehozásakor és tesztelésekor használja a robots.txt fájlellenőrző eszközt. Lehetővé teszi egy fájl szintaxisának elemzését, és megtudhatja, hogyan fog működni a webhelyén.

Fájlformátum- és helyszabályok

  • A fájlnak robots.txt nevűnek kell lennie.
  • Csak egy ilyen fájl lehet a webhelyen.
  • A robots.txt fájlt be kell helyezni gyökérkönyvtár webhely. Például a http://www.example.com/ összes oldalának feltérképezéséhez helyezze el a robots.txt fájlt a http://www.example.com/robots.txt címen. Nem lehet alkönyvtárban(például at http://example.com/pages/robots.txt). Ha problémái vannak a gyökérkönyvtár elérésével, forduljon tárhelyszolgáltatójához. Ha nem fér hozzá a webhely gyökérkönyvtárához, használjon alternatív blokkolási módszert, például metacímkéket.
  • A robots.txt fájl a következővel adható hozzá a címekhez aldomainek(pl. http:// weboldal.example.com/robots.txt) vagy nem szabványos portok (például http://example.com: 8181 /robots.txt).
  • A megjegyzés minden olyan sor, amely fontjellel (#) kezdődik.

Szintaxis

  • A robots.txt fájlnak ASCII vagy UTF-8 kódolású szöveges fájlnak kell lennie. Más karakterek nem engedélyezettek.
  • A robots.txt fájl egy vagy több fájlból állhat szabályokat.
  • szabály többnek is tartalmaznia kell irányelveket(utasítások), amelyek mindegyikét külön sorban kell feltüntetni.
  • A szabály a következő információkat tartalmazza:
    • Amelyhez felhasználói ügynökérvényes a szabály.
    • hozzáférése van.
    • Milyen könyvtárakkal vagy fájlokkal rendelkezik ez az ügynök Nincs hozzáférés.
  • A szabályokat felülről lefelé dolgozzák fel. Egy felhasználói ügynök csak egy, számára megfelelő szabályt követhet, amely először kerül feldolgozásra.
  • Az alapértelmezettet feltételezi hogy ha az oldalhoz vagy a könyvtárhoz való hozzáférést nem blokkolja a Disallow: szabály, akkor azt a felhasználói ügynök tudja kezelni.
  • szabályokat Kis-nagybetű érzékeny. Például a Disallow: /file.asp szabály a http://www.example.com/file.asp URL-re vonatkozik, a http://www.example.com/File.asp URL-re azonban nem.

A robots.txt fájlokban használt irányelvek

  • felhasználói ügynök: Kötelező használni, egy szabályban lehet egy vagy több ilyen szabály. Meghatározza robot a keresőmotor, amelyre a szabály vonatkozik. Ez a sor az első minden szabályban. Legtöbbjük szerepel az Internet Bots Database vagy a Google Bots List listájában. A helyettesítő karakter * támogatott egy elérési út vagy egy teljes elérési út elő- vagy utótagjának jelzésére. Az alábbi példában látható módon használja a (*) karaktert az összes bejáró blokkolásához ( kivéve az AdsBot robotokat, amelyet külön kell megadni). Javasoljuk, hogy ismerkedjen meg a Google robotok listájával. Példák:# 1. példa: Csak a Googlebot felhasználói ügynökének blokkolása: Googlebot Disallow: / # 2. példa: A Googlebot és az Adsbot User-agent blokkolása: Googlebot User-agent: AdsBot-Google Disallow: / # 3. példa: Az AdsBot feltérképező robotok kivételével az összes blokkolása User-agent :* Disallow: /
  • Letiltás: . Olyan könyvtárra vagy oldalra mutat a gyökértartományban, amelyet a fent meghatározott felhasználói ügynök nem tud feltérképezni. Ha ez egy oldal, akkor meg kell adni a teljes elérési utat, mint a böngésző címsorában. Ha ez egy könyvtár, akkor az elérési útnak perjellel (/) kell végződnie. A helyettesítő karakter * támogatott egy elérési út vagy egy teljes elérési út elő- vagy utótagjának jelzésére.
  • lehetővé teszi: Minden szabálynak rendelkeznie kell legalább egy Disallow: vagy Allow: direktívával.. Olyan könyvtárra vagy oldalra mutat a gyökértartományban, amelyet a fent meghatározott felhasználói ügynök nem tud feltérképezni. A Disallow szabály törlésére szolgál, és lehetővé teszi egy alkönyvtár vagy oldal vizsgálatát egy olyan könyvtárban, amely le van zárva a kereséshez. Ha ez egy oldal, akkor meg kell adni a teljes elérési utat, mint a böngésző címsorában. Ha ez egy könyvtár, akkor az elérési útnak perjellel (/) kell végződnie. A helyettesítő karakter * támogatott egy elérési út vagy egy teljes elérési út elő- vagy utótagjának jelzésére.
  • oldaltérkép: Opcionálisan előfordulhat, hogy ezek közül az irányelvek közül több vagy egy sem. A webhely által használt webhelytérkép helyére mutat. Az URL-nek teljesnek kell lennie. A Google nem dolgozza fel és nem érvényesíti a http és https előtaggal rendelkező URL-változatokat, illetve www elemmel vagy anélkül. A webhelytérképek jelzik a Google-nak, hogy milyen tartalmat szükséges beolvasott, és hogyan lehet megkülönböztetni a tartalomtól, amely tud vagy ez tiltott letapogatás. További információ a webhelytérképekről. Példa: Webhelytérkép: https://example.com/sitemap.xml Webhelytérkép: http://www.example.com/sitemap.xml

Az ismeretlen kulcsszavakat figyelmen kívül hagyja.

Még egy példa

A robots.txt fájl egy vagy több szabálykészletből áll. Minden készlet egy User-agent karakterlánccal kezdődik, amely meghatározza azt a robotot, amely betartja a halmaz szabályait. Íme egy példa két szabályt tartalmazó fájlra; szövegközi megjegyzésekkel magyarázzák:

# Blokkolja a Googlebot hozzáférését az example.com/directory1/... és example.com/directory2/... # de engedélyezze a hozzáférést a directory2/subdirectory1/... # Az összes többi könyvtárhoz alapértelmezés szerint engedélyezett. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Megakadályozza, hogy más keresőmotorok hozzáférjenek a teljes webhelyhez. User-agent: othercrawler Disallow: /

A robots.txt fájl teljes szintaxisa

A teljes szintaxis leírása ebben a cikkben található. Javasoljuk, hogy ismerkedjen meg vele, mivel van néhány fontos árnyalat a robots.txt fájl szintaxisában.

Hasznos szabályok

Íme néhány általános szabály a robots.txt fájlra vonatkozóan:

szabály Példa
Akadályozza meg a teljes webhely feltérképezését. Kérjük, vegye figyelembe, hogy bizonyos esetekben a webhely URL-jei akkor is indexelhetők, ha még nem térképezték fel őket. Felhívjuk figyelmét, hogy ez a szabály nem vonatkozik az AdsBotokra, amelyeket külön kell felsorolni. User-agent: * Disallow: /
Egy könyvtár és annak teljes tartalmának ellenőrzésének megakadályozása, tegyen egy perjelet a könyvtár neve mögé. Ne használja a robots.txt fájlt bizalmas információk védelmére! E célból hitelesítést kell használni. A robots.txt fájl által blokkolt URL-ek indexelhetők, a robots.txt fájl tartalmát pedig bármely felhasználó megtekintheti, és így megtudhatja a bizalmas információkat tartalmazó fájlok helyét. User-agent: * Disallow: /calendar/ Disallow: /junk/
Csak egy bejáró számára engedélyezze a feltérképezést User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Engedélyezze a feltérképezést az összes bejáró számára, kivéve egyet User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /

Egyedi oldal beolvasásának letiltása, adja meg ezt az oldalt a perjel után.

Disallow: /private_file.html

Adott kép elrejtése a Google Képek bot elől

Felhasználói ügynök: Googlebot-Image Disallow: /images/dogs.jpg

A webhelyén lévő összes kép elrejtése a Google Képek bot elől

User-agent: Googlebot-Image Disallow: /

Egy bizonyos típusú összes fájl vizsgálatának megakadályozása(jelen esetben GIF)

User-agent: Googlebot Disallow: /*.gif$

Webhelye bizonyos oldalainak letiltásához, de továbbra is AdSense hirdetéseket jeleníthet meg rajtuk, használja a Disallow szabályt minden robotra, kivéve a Mediapartners-Google-t. Ennek eredményeként ez a robot hozzáférhet a keresési eredmények közül eltávolított oldalakhoz, hogy kiválassza a hirdetéseket, amelyeket egy adott felhasználónak szeretne megjeleníteni.

User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Bizonyos karakterekkel végződő URL-ek megadásához használja a $ szimbólumot. Például .xls végződésű URL-ek esetén használja a következő kódot: User-agent: Googlebot Disallow: /*.xls$

Hasznos volt ez a cikk?

Hogyan javítható ez a cikk?

A SEO-ban nincsenek apróságok. Néha egyetlen kis fájl, a Robots.txt is befolyásolhatja a webhely promócióját.

Ha azt szeretné, hogy webhelye megfelelően lépjen be az indexbe, hogy a keresőrobotok megkerüljék a szükséges oldalakat, akkor ajánlásokat kell írnia számukra.

„Lehetséges ez?” – kérdezed.Talán. Ehhez webhelyének rendelkeznie kell egy robots.txt fájllal.

Hogyan kell helyesen összeállítani és feltölteni a webhelyre - megértjük ebben a cikkben.

A kész Robots.txt fájlnak a webhely gyökérmappájában kell lennie. Csak egy fájl, mappa nélkül:

Szeretné ellenőrizni, hogy megtalálható-e a webhelyén? Írja be a címsorba: site.ru/robots.txt. A következő oldal jelenik meg (ha a fájl létezik):

A fájl több, behúzással elválasztott blokkból áll. Minden blokk ajánlásokat tartalmaz a különböző keresőmotorok keresőrobotjai számára (plusz egy blokk általános szabályokkal mindenki számára), és egy külön blokk az oldaltérképre mutató hivatkozásokkal - Sitemap.

Nem kell behúzni a blokkon belül egy keresőrobotra vonatkozó szabályokat.

Minden blokk a User-agent direktívával kezdődik.

Minden direktívát a ":" (kettőspont) jel követ, egy szóköz, amely után megjelenik az érték (például melyik oldalt kell bezárni az indexelésből).

Relatív oldalcímeket kell megadnia, nem abszolút címeket. Relatív - ez a "www.site.ru" nélkül van. Például le kell tiltania egy oldal indexelésétwww.site.ru/shop. Tehát a kettőspont után szóközt, perjelet és "bolt"-t teszünk:

Disallow: /shop.

A csillag (*) bármely karakterkészletet jelöl.

A dollárjel ($) a sor vége.

Dönthet úgy, hogy miért írjon egy fájlt a semmiből, ha bármelyik webhelyen megnyithatja, és egyszerűen másolhatja saját magának?

Minden webhelyhez egyedi szabályokat kell előírnia. Figyelembe kell venni a jellemzőket. Például ugyanaz az adminisztrációs panel a /wp-admin címen található a WordPress motorban, egy másik címen más lesz. Ugyanez az egyes oldalak címeivel, oldaltérképpel és így tovább.

A Robots.txt megfelelő konfigurálása

Amint azt a képernyőképen már láthatta, a User-agent direktíva az első. Azt jelzi, hogy az alábbi szabályok melyik keresőrobotra vonatkoznak.

User-agent: * - szabályok minden keresőrobotra, azaz bármely keresőmotorra (Google, Yandex, Bing, Rambler stb.).

User-agent: Googlebot – A Google keresőpók szabályait jelzi.

Felhasználói ügynök: Yandex - szabályok a Yandex keresőrobothoz.

Nincs különbség, hogy melyik keresőrobot írja le először a szabályokat. De általában minden robotra vonatkozó ajánlásokat írnak először.

Indexelés letiltása: robots.txt Disallow

A webhely egészének vagy egyes oldalainak indexelésének letiltásához használja a Disallow utasítást.

Például teljesen bezárhatja a webhelyet az indexelésből (ha az erőforrás véglegesítése folyamatban van, és nem szeretné, hogy ebben az állapotban megjelenjen a keresési eredmények között). Ehhez írja be a következőket:

User-agent: *

letilt: /

Így minden keresőrobotnak tilos tartalmat indexelni az oldalon.

És így nyithat meg egy webhelyet indexeléshez:

User-agent: *

Letiltás:

Ezért ellenőrizze, hogy van-e perjel a Disallow direktíva után, ha be akarja zárni a webhelyet. Ha később szeretné megnyitni - ne felejtse el eltávolítani a szabályt (és ez gyakran megtörténik).

Az egyes oldalak indexelésből való bezárásához meg kell adnia a címüket. Már írtam, hogyan kell:

User-agent: *

Disallow: /wp-admin

Így az adminisztrációs panel bezárult a webhelyen a harmadik fél nézetei elől.

Amit hiba nélkül be kell zárnia az indexelésből:

  • adminisztratív panel;
  • a felhasználók személyes oldalai;
  • kosarak;
  • webhelykeresési eredmények;
  • bejelentkezési, regisztrációs, engedélyezési oldalak.

Bezárhatja az indexelést és bizonyos típusú fájlokat. Tegyük fel, hogy van néhány .pdf fájl a webhelyén, amelyeket nem szeretne indexelni. A keresőrobotok pedig nagyon egyszerűen átvizsgálják az oldalra feltöltött fájlokat. Az alábbiak szerint zárhatja be őket az indexelésből:

User-agent: *

Disallow: /*. pdf$

Indexelés engedélyezése: robots.txt Engedélyezés

Még akkor is, ha egy webhely teljesen le van zárva az indexeléstől, megnyithatja bizonyos fájlok vagy oldalak elérési útját a robotok számára. Tegyük fel, hogy újratervezi a webhelyet, de a szolgáltatási címtár érintetlen marad. Oda irányíthatja a keresőrobotokat, hogy továbbra is indexeljék a szakaszt. Ehhez az Allow direktívát használjuk:

User-agent: *

Engedélyezi: /services

letilt: /

Főoldal tükör: robots.txt

2018. március 20-ig a Yandex keresőrobot robots.txt fájljában meg kellett adni a fő webhelytükröt a Host direktíván keresztül. Most már nem szükséges ezt megtenni - elég.

Mi a fő tükör? Ez az Ön webhelyének fő címe – www-vel vagy anélkül. Ha nem állít be átirányítást, akkor mindkét webhely indexelve lesz, azaz minden oldal ismétlődő lesz.

Webhelytérkép: robots.txt webhelytérkép

Miután megírta a robotokra vonatkozó összes utasítást, meg kell adnia a webhelytérkép elérési útját. Az oldaltérkép megmutatja a robotoknak, hogy az összes indexelendő URL egy adott címen található. Például:

Webhelytérkép: site.ru/sitemap.xml

Amikor a robot feltérképezi a webhelyet, látni fogja, hogy milyen változtatásokat hajtottak végre ezen a fájlon. Ennek eredményeként az új oldalak gyorsabban lesznek indexelve.

Clean-param irányelv

2009-ben a Yandex új irányelvet vezetett be - a Clean-param. Olyan dinamikus paraméterek leírására használható, amelyek nem befolyásolják az oldalak tartalmát. Leggyakrabban ezt az irányelvet fórumokon használják. Itt sok a szemét, például session id, rendezési paraméterek. Ha regisztrálja ezt az utasítást, a Yandex keresőrobotja nem tölti le ismételten a megkettőzött információkat.

Ezt az utasítást bárhová beírhatja a robots.txt fájlba.

Azok a paraméterek, amelyeket a robotnak nem kell figyelembe vennie, az érték első részében vannak felsorolva a & jellel:

Tiszta paraméter: sid&sort /forum/viewforum.php

Ez az irányelv elkerüli az ismétlődő oldalakat dinamikus URL-ekkel (amelyek kérdőjelet tartalmaznak).

Feltérképezési késleltetési utasítás

Ez az irányelv azoknak a segítségére lesz, akiknek gyenge a szerverük.

A keresőrobot érkezése további terhelést jelent a szerveren. Ha nagy a webhely forgalma, akkor előfordulhat, hogy az erőforrás egyszerűen nem bírja el, és "fekszik". Ennek eredményeként a robot 5xx hibaüzenetet kap. Ha ez a helyzet folyamatosan ismétlődik, előfordulhat, hogy a keresőmotor nem működik a webhelyen.

Képzelje el, hogy dolgozik, és ezzel párhuzamosan folyamatosan fogadnia kell a hívásokat. Ekkor csökken a termelékenysége.

Ugyanígy a szerverrel.

Térjünk vissza az irányelvhez. A feltérképezési késleltetés lehetővé teszi, hogy késleltetést állítson be a webhely oldalainak vizsgálatában, hogy csökkentse a szerver terhelését. Más szóval, beállítja azt az időszakot, amely után az oldal oldalai betöltődnek. Ez a paraméter másodpercben, egész számként van megadva:

Fájl robots.txt egy közönséges .txt kiterjesztésű fájl, amely egy közönséges Windows jegyzettömb segítségével hozható létre. Ez a fájl indexelési utasításokat tartalmaz keresőrobotokhoz. Helyezze ezt a gyökérkönyvtár fájlt a tárhelyre.

Az oldal meglátogatásakor a keresőrobot mindenekelőtt a robots.txt fájlra hivatkozik, hogy instrukciókat kapjon a további teendőkre, és megtudja, mely fájlok és könyvtárak indexelése tilos. Fájl robots.txt a keresőmotorok számára ajánlott. Nem lehet biztosan megmondani, hogy az összes indexeléstől megtiltott fájl ennek eredményeként nem kerül indexelésre.

Tekintsük a robots.txt fájl legegyszerűbb példáját. Ez a fájl a következő sorokat tartalmazza:

User-agent: * Disallow: /wp-admin/ Disallow: /images/

Az első sor azt jelzi, hogy ezek az utasítások mely keresőrobotokra vonatkoznak. Ebben a példában egy csillag látható, ami azt jelenti, hogy az utasítások minden bejáróra vonatkoznak. Ha egy adott keresőrobothoz utasításokat kell megadni, meg kell adni a nevét. A második és harmadik sor letiltja a "wp-admin" és az "images" könyvtárak indexelését.

A Yandex keresőrobot számára az is fontos, hogy előírja a Host könyvtárat a fő webhelytükör jelzésére:

Felhasználói ügynök: Yandex Disallow: /wp-admin/ Disallow: /images/ Host: yoursite.ru

Példák robots.txt fájl írására meghatározott feladatokhoz

1. Ne tiltsa meg a keresőmotorok robotjainak, hogy indexeljék a webhelyet:

User-agent: googlebot Disallow: /

4. Ne tiltsa meg, hogy csak egy robot indexeljen (például googlebot), és ne tiltsa meg az összes többi keresőrobot indexelését:

Felhasználói ügynök: googlebot Disallow:
User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php
User-agent: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html

A robots.txt írásának alapvető szabályai

A robots.txt fájl írása során gyakran követnek el hibákat. Ezek elkerülése érdekében nézzük meg az alapvető szabályokat:

1. A fájl tartalmát csak nagybetűkkel kell írni.
2. Csak egy könyvtárat vagy egy fájlt kell megadni a Disallow utasításban.
3. A "User-agent" karakterlánc nem lehet üres. Ha az utasítás minden keresőrobotra vonatkozik, akkor meg kell adni egy csillagot, ha pedig egy adott keresőrobotra vonatkozik, akkor a nevét kell megadni.
4. Nem cserélheti fel a Disallow és a User-agent utasításokat.
5. A Host direktívában, amelyet a Yandexhez használunk, az oldalunk címét HTTP protokoll és záró perjel nélkül kell megadni.
6. A címtárak indexelésének tiltásakor perjelek előírása szükséges.
7. Ellenőrizze a robots.txt fájlt, mielőtt feltölti a szerverre. Ezzel elkerülheti a webhely indexelésével kapcsolatos esetleges problémákat a jövőben.

A webhelyhez tartozó Robots.txt egy UTF-8 kódolású indexszövegfájl.

Azért hívták indexnek, mert ajánlásokat tartalmaz a keresőrobotoknak – mely oldalakat érdemes feltérképezni és melyeket nem.

Ha a fájl kódolása eltér az UTF-8-tól, akkor a keresőrobotok félreértelmezhetik a benne található információkat.

A fájl a http, https, ftp protokollokra érvényes, és csak azon a gazdagépen / protokollon / portszámon belül "érvényes", amelyen található.

Hol található a robots.txt a webhelyen?

A robots.txt fájlnak csak egy helye lehet – a tárhely gyökérkönyvtárában. Valahogy így néz ki: http://your-site.xyz/robots.txt

Weboldal robotok txt direktívái

A webhely robots.txt fájljának kötelező összetevői a Disallow szabály és a User-agent utasítás. Vannak másodlagos szabályok is.

Tiltás szabály

A Disallow egy szabály, amely alapján a keresőrobot értesül arról, hogy mely oldalakat nincs értelme feltérképezni. És rögtön néhány konkrét példa ennek a szabálynak az alkalmazására:

1. példa – engedélyezett a teljes webhely indexelése:

2. példa – a webhelyindexelés teljes letiltása:

Ebben az esetben haszontalan lesz. A példa használata akkor releváns, ha a webhely „le van zárva” a felülvizsgálat miatt (például nem működik megfelelően). Ebben az esetben az oldalnak nincs helye a keresési eredmények között, ezért le kell zárni a robots txt fájlon keresztüli indexeléstől. Természetesen az oldal véglegesítése után fel kell oldani az indexelési tilalmat, de ezt elfelejtik.

6. példa – hogyan zárható be egy adott kiterjesztésű fájl az indexelésből a robots txt-ben (ebben az esetben .gif):

A .gif$ előtti csillag azt jelzi, hogy a fájlnév bármi lehet, a $ jel pedig a sor végét jelzi. Azok. egy ilyen „maszk” általában tiltja az összes GIF-fájl vizsgálatát.

Szabály engedélyezése a robots txt-ben

Az Engedélyezés szabály mindent pontosan az ellenkezőjére tesz – lehetővé teszi a fájl/mappa/oldal indexelését.

És most egy konkrét példa:

Azt már tudjuk, hogy a Disallow: / direktíva segítségével letilthatjuk az oldalt a robots txt indexeléstől. Ugyanakkor megvan az Allow: /catalog szabály, amely lehetővé teszi a /catalog mappa vizsgálatát. Ezért e két szabály kombinációját a keresőrobotok úgy fogják fel, hogy „tilos a webhely feltérképezése, kivéve a / katalógus mappát”.

Az engedélyezési és letiltási szabályok és utasítások az URL előtag hosszának megfelelően növekvő sorrendben vannak rendezve, és sorban alkalmazzák őket. Ha ugyanarra az oldalra több szabály is illeszkedik, akkor a robot az utolsót választja ki a listából.

Tekintsünk két olyan helyzetet, ahol két szabály ellentmond egymásnak – az egyik szabály tiltja a /content mappák indexelését, a másik megengedi.

Ebben az esetben az Allow direktíva élvez elsőbbséget, mert alább van felsorolva:

És itt a Disallow direktíva élvez elsőbbséget ugyanezen okokból (lásd alább):

Felhasználói ügynök a robots txt-ben

User-agent - egy szabály, amely "hivatkozás" a keresőrobotra, azt mondják, "ajánlások listája kifejezetten az Ön számára" (egyébként a robots.txt fájlban több lista is lehet - a Google különböző keresőrobotjaihoz és a Yandex).

Például ebben az esetben azt mondjuk, hogy „Hey Googlebot, gyere ide, itt van egy speciálisan összeállított ajánláslista az Ön számára”, ő pedig olyan, mint „Rendben, különösen nekem – ez kifejezetten számomra” és nem fog másokat feltérképezni. listákon.

Helyes robotok txt a Google számára (Googlebot)

Nagyjából ugyanez a történet a Yandex keresőbottal. A jövőre nézve a Yandex ajánlásainak listája az esetek majdnem 100% -ában kissé eltér a többi keresőrobot listájától (erről egy kicsit később beszélünk). De a lényeg ugyanaz: "Hé, Yandex, van egy külön lista az Ön számára" - "Rendben, most tanulmányozzuk."

Azok. ha ugyanabban a robots.txt fájlban 3 lista található User-agenttel: *, User-agent: Googlebot és User-agent: Yandex, ez azt jelenti, hogy az első „egy mindenkiért”, kivéve a Googlebotot és a Yandexet, pl. nak nek. vannak "személyes" listák számukra.

Webhelytérkép

Webhelytérkép szabály – egy XML-webhelytérképpel rendelkező fájl helye, amely tartalmazza az összes bejárandó oldal címét. Általában a http://site.ua/sitemap.xml űrlap címe van megadva.

Azok. A keresőrobot minden alkalommal megnézi az oldaltérképen az új címeket, majd követi azokat a további feltérképezéshez, hogy frissítse az oldallal kapcsolatos információkat a keresőmotorok adatbázisaiban.

A Webhelytérkép-szabályt a következőképpen kell megadni a Robots.txt fájlban:

fogadó irányelv

A robots.txt fájlban a keresztmetszetű Host direktíva is szükséges. Ez szükséges a Yandex keresőrobotjához - megmondja, hogy az indexeléskor melyik oldaltükröt kell figyelembe venni. Ezért külön szabálylista jön létre a Yandex számára. A Google és más keresőmotorok nem értik a Host direktívát. Ezért, ha webhelyének vannak másolatai, vagy a webhely különböző URL-címeken nyitható meg, akkor adja hozzá a host direktívát a robots txt fájlhoz, hogy a webhely oldalai megfelelően indexelve legyenek.

A "tüköroldalt" általában a webhely pontos vagy majdnem pontos "másolatának" nevezik, amely más címen érhető el.

A főtükör címét az alábbiak szerint kell megadni:

A http://host: site.ua vagy Host: http://site.ua webhelyen működő webhelyek esetén (azaz a http:// nem kötelező)

https://site.ua-n működő webhelyek esetén: https://site.ua (azaz a https:// kötelező)

Példa a host direktívára a robots txt-ben egy HTTPS-protokollban lévő webhelyhez:

Feltérképezési késleltetés

A korábbiakkal ellentétben a Crawl-delay paraméter már nem szükséges. Fő feladata, hogy megmondja a keresőrobotnak, hogy az oldalak hány másodpercig töltődnek be. Általában akkor használják, ha gyenge szervereket használ. Csak a Yandexre vonatkozik.

tiszta param

A Clean-param direktíva segítségével kezelheti a get-paramétereket, így elkerülheti a tartalom megkettőzését, mert ugyanaz a tartalom különböző dinamikus hivatkozásokon keresztül érhető el (ezek a kérdőjelekkel ellátottak). Dinamikus hivatkozásokat generálhat a webhely, amikor különböző rendezéseket, munkamenet-azonosítókat stb.

Például ugyanaz a tartalom három címen érhető el:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Ebben az esetben a Clean-param direktíva a következőképpen van formázva:

Azok. a kettőspont után a ref attribútumot írjuk, jelezve a hivatkozás forrását, és csak ezután kerül feltüntetésre a „farka” (jelen esetben a /catalog/get_phone.ua).

Leggyakrabban ismételt kérdések

Hogyan lehet letiltani az indexelést a robots.txt fájlban?

Erre a célra találták ki a Disallow szabályt: i.e. másolja ki az indexelésből bezárandó dokumentum/fájl hivatkozását, illessze be a kettőspont mögé:

Disallow: http://your-site.xyz/privance.html

Disallow: http://your-site.xyz/foord.doc

Disallow: http://your-site.xyz/barcode.jpg

Ezután törölje a domain címét (ebben az esetben törölnie kell ezt a részt - http://your-site.xyz). A törlés után pontosan az lesz, aminek meg kell maradnia:

Disallow: /privacy.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Nos, ha be akar zárni minden fájlt egy bizonyos kiterjesztéssel az indexelésből, akkor a szabályok így fognak kinézni:

Disallow: /*.html

Disallow: /*.doc

Disallow: /*.jpg

Hogyan lehet megadni a fő tükröt a robots.txt fájlban?

Erre a célra találták ki a Host direktívát. Azok. ha a http://your-site.xyz és http://yoursite.com címek ugyanannak a webhelynek a „tükrei”, akkor ezek egyikét meg kell adni a Host direktívában. Legyen a fő tükör http://webhelyed.xyz. Ebben az esetben a megfelelő lehetőségek a következők lennének:

Ha a webhely https protokollon működik, akkor csak ezt kell tennie:

Felhasználói ügynök: Yandex

Disallow: /privacy.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Gazda: https://your-site.xyz

Ha a webhely a http protokollon működik, akkor mindkét alábbi lehetőség megfelelő lesz:

Felhasználói ügynök: Yandex

Disallow: /privacy.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Gazda: http://webhelyed.xyz

Felhasználói ügynök: Yandex

Disallow: /privacy.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Gazda: your-site.xyz

Ne feledje azonban, hogy a Host direktíva ajánlás, nem szabály. Azok. lehetséges, hogy egy domain kerül meghatározásra a gazdagépben, és a Yandex egy másikat tekint főtükörnek, ha rendelkezik a megfelelő beállításokkal a webmester panelen.

A legegyszerűbb példa egy érvényes robots.txt fájlra

Ebben a formában a robots.txt fájl szinte bármilyen webhelyen elhelyezhető (kisebb módosításokkal).

Most nézzük meg, mi van ott.

  1. Két szabálylista létezik - az egyik "személyesen" a Yandex, a másik - az összes többi keresőrobot számára.
  2. A Disallow: szabály üres, ami azt jelenti, hogy nincsenek tiltások a vizsgálatra.
  3. A Yandex listája tartalmazza a Host direktívát, amely a fő tükröt jelzi, valamint egy hivatkozást a webhelytérképre.

DE... Ez NEM azt jelenti, hogy a robots.txt fájlt így kell formázni. A szabályokat minden oldalra szigorúan egyedileg kell megírni. Például nincs értelme a "technikai" oldalak indexelésének (bejelentkezési jelszavas beviteli oldalak, vagy tesztoldalak, amelyeken új webhelytervezést dolgoznak ki stb.). A szabályok egyébként a használt CMS-től is függnek.

A webhely az indexelés miatt lezárva – hogyan néz ki a robots.txt?

Azonnal adunk egy kész kódot, amely lehetővé teszi a webhely indexelésének megtiltását, függetlenül a CMS-től:

Hogyan lehet megadni a webhely fő tükrét a https robots.txt fájlban?

Nagyon egyszerű:

Gazda: https://your-site.xyz

FONTOS!!! A https oldalaknál szigorúan meg kell adni a protokollt!

A leggyakoribb robots.txt hibák

Kifejezetten az Ön számára készítettünk egy válogatást a robots.txt fájlban elkövetett leggyakoribb hibákból. Ezeknek a hibáknak szinte mindegyikében van egy közös vonás - figyelmetlenség miatt követik el.

1. Zavaros utasítások:

Helyes lehetőség:

2. A rendszer egy csomó mappát beszúr egy Disallow-ba:

Egy ilyen rekordban a robot összezavarodhat. Melyik mappát nem lehet indexelni? Első? Utolsó? Vagy mindet? Vagy hogyan? Vagy mi? Egy mappa = egy tiltó szabály és semmi más.

3. Csak egy fájlnév engedélyezett – robots.txt, és minden betű kicsi. Robots.txt, ROBOTS.TXT stb. nevek. nem megengedett.

4. A User-agent szabályt nem szabad üresen hagyni. Vagy adja meg a keresőrobot nevét (például a Yandex esetében), vagy tegyen egy csillagot (az összes többi esetében).

5. Szemét a fájlban (extra perjelek, csillagok stb.).

6. Rejtett oldalak teljes címének hozzáadása a fájlhoz, és néha a Disallow szabály nélkül is.

Nem jó:

http://mega-site.academy/serrot.html

Szintén rossz:

Disallow: http://mega-site.academy/serrot.html

Jobb:

Disallow: /serrot.html

A robots.txt fájl online ellenőrzése

Számos módja van a robots.txt fájl érvényesítésének egy általánosan elfogadott webes szabvány szerint.

1. módszer. Regisztráljon a Yandex és a Google webmester paneljén. Az egyetlen negatívum az, hogy ásni kell, hogy kitaláljuk a funkcionalitást. Továbbá megtörténik a javasolt módosítások végrehajtása, és a kész fájl feltöltődik a tárhelyre.

2. módszer. Online szolgáltatások használata:

https://services.sl-team.ru/other/robots/

https://technicalseo.com/seo-tools/robots-txt/

http://tools.seochat.com/tools/robots-txt-validator/

Tehát létrejön a robots.txt. Már csak a hibák ellenőrzése marad. Ehhez a legjobb, ha maguk a keresőmotorok által kínált eszközöket használjuk.

Google Webmasters (Google Search Console): jelentkezzen be fiókjába, ha az oldal nincs igazolva benne - erősítse meg, majd lépjen a Crawl -> Robots.txt fájlellenőrző eszközre.

Itt megteheti:

  • azonnal észleli az összes hibát és lehetséges problémát,
  • azonnal „a helyszínen”, hogy elvégezze a javításokat és ismét ellenőrizze a hibákat (hogy ne töltse újra a fájlt a webhelyen 20-szor)
  • ellenőrizze, hogy az oldalindexelési korlátozások és engedélyek helyesek-e.

Hasonló az előzőhöz, kivéve:

  • engedély nem szükséges;
  • a webhelyhez fűződő jogok megerősítése nem szükséges;
  • elérhető az oldalak tömeges ellenőrzése;
  • megbizonyosodhat arról, hogy a Yandex minden szabályt helyesen észlel.

Kész megoldások a legnépszerűbb CMS-ekhez

Javítsa ki a robots.txt fájlt a Wordpress számára

Disallow: /cgi-bin # classic

tiltás: /? # bármely lekérdezési paraméter a főoldalon

Disallow: /wp- # minden WP-fájl: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # keresés

Disallow: *&s= # keresés

Disallow: /search # keresés

Disallow: *?attachment_id= # mellékletoldal. Valójában van átirányítása...

Disallow: */feed # minden hírcsatorna

Disallow: */rss # rss feed

Disallow: */embed # minden beágyazás

Disallow: */page/ # minden oldalszámozás

Engedélyezés: */feltöltés # nyitott feltöltés

Engedélyezés: /*/*.js # a /wp- belsejében (/*/ - prioritás)

Engedélyezés: /*/*.css # belül /wp- (/*/ - prioritás)

Engedélyezés: /wp-*.png # kép a bővítményekben, a gyorsítótár mappájában stb.

Engedélyezés: /wp-*.jpg # kép a bővítményekben, a gyorsítótár mappájában stb.

Engedélyezés: /wp-*.jpeg # kép a bővítményekben, a gyorsítótár mappájában stb.

Engedélyezés: /wp-*.gif # kép a bővítményekben, a gyorsítótár mappájában stb.

Engedélyezés: /wp-*.svg # kép a bővítményekben, a gyorsítótár mappájában stb.

Engedélyezés: /wp-*.pdf # fájlok a bővítményekben, a gyorsítótár mappájában stb.

#Disallow: /wp/ # ha a WP telepítve van a wp alkönyvtárban

Webhelytérkép: http://site.ru/sitemap2.xml # még egy fájl

#Webhelytérkép: http://site.ru/sitemap.xml.gz # tömörített verzió (.gz)

Házigazda: www.site.ru # a Yandex és a Mail.RU számára. (kereszteződés)

# Kódverzió: 1.0

# Ne felejtse el módosítani a "site.ru" címet a webhelyére.

Vessünk egy pillantást a robots txt fájl kódjára a WordPress CMS-hez:

Itt jelezzük, hogy minden szabály érvényes minden keresőrobotra (kivéve azokat, akikről "személyes" listát állítanak össze). Ha a lista egy adott robothoz készült, akkor a * a robot nevére változik:

Felhasználói ügynök: Yandex

Felhasználói ügynök: Googlebot

Engedélyezés: */feltöltések

Itt szándékosan engedjük meg a /feltöltést tartalmazó linkek indexelését. Ebben az esetben ez a szabály kötelező, mert. a WordPress motornak van egy /wp-content/uploads könyvtára (amely jól tartalmazhat képeket vagy más "nyitott" tartalmat), amelynek indexelését a Disallow: /wp- szabály tiltja. Tehát az Allow: */uploads-szal kivételt teszünk a Disallow: /wp- szabály alól.

Ellenkező esetben egyszerűen tiltják az indexelést:

Disallow: /cgi-bin – a szkriptindexelés letiltása

Disallow: /feed - az RSS-hírcsatorna vizsgálatának tiltása

Disallow: /trackback – letiltja az értesítések ellenőrzését

Disallow: ?s= vagy Disallow: *?s= - a webhely belső keresési oldalainak indexelésének tiltása

Disallow: */page/ - minden típusú oldalszámozás indexelésének tiltása

A Webhelytérkép szabálya: http://site.ru/sitemap.xml megmondja a Yandex robotnak az xml-térképet tartalmazó fájl elérési útját. Az útvonalat teljes egészében fel kell írni. Ha több ilyen fájl van, akkor több webhelytérkép-szabályt írunk (1 fájl = 1 szabály).

A Host: site.ru sorban kifejezetten a Yandex számára regisztráltuk a webhely fő tükrét. Úgy van megadva, hogy a többi tükör ugyanúgy indexelve legyen. Az üres sor a Host: előtt kötelező.

Valószínűleg mindenki tudja, hol található a WordPress robots txt - más CMS-ekhez hasonlóan ennek a fájlnak a webhely gyökérkönyvtárában kell lennie.

Joomla robots.txt fájl

A Joomla szinte a legnépszerűbb motor a webmesterek körében, mert. a legszélesebb lehetőség és sok kész megoldás ellenére ingyenes. A normál robots.txt fájlt azonban mindig van értelme javítani, mert. túl sok "szemét" van nyitva az indexeléshez, de a képek zárva vannak (ez rossz).

Így néz ki a megfelelő robots.txt a Joomla számára:

Disallow: /administrator/

Disallow: /cache/

Disallow: /komponensek/

Disallow: /images/

Disallow: /includes/

Disallow: /telepítés/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

robots.txt Wix

A Wix Platform automatikusan létrehozza a robots.txt fájlokat minden egyes Wix webhelyhez. Azok. adja hozzá a /robots.txt fájlt a domainjéhez (például: www.domain.com/robots.txt), és biztonságosan megvizsgálhatja a webhelyén található robots.txt fájl tartalmát.

A robots.txt fájl nem szerkeszthető. A noindex segítségével azonban bizonyos oldalakat bezárhat az indexelésből.

robots.txt az Opencarthoz

Az OpenCart szabványos robots.txt fájlja:

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: / kívánságlista

Disallow: /login

Felhasználói ügynök: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*route=product/search

Disallow: /*?page=

Disallow: /*&page=

Clean-param: követés

Clean-param: filter_name

Clean-param: filter_sub_category

Clean-param: filter_description

Disallow: / kívánságlista

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

gazdagép: your_domain

Webhelytérkép: http://your_domain/sitemap.xml

robots.txt a Bitrix számára

1. A /bitrix és /cgi-bin mappákat be kell zárni, mert ez pusztán technikai "szemét", aminek nem kell tündökölnie a keresési eredmények között.

Disallow: /bitrix

Disallow: /cgi-bin

2. A /search mappa sem a felhasználók, sem a keresőmotorok számára nem érdekes. És senkinek nincs szüksége másolatok létrehozására. Tehát mi is bezárjuk.

Disallow: /search

Disallow: /auth/

Disallow: /auth.php

4. A nyomdai anyagoknak (például számláknak) szintén nincs értelme a keresési eredményekben tündökölni. Közel vagyunk.

Disallow: /*?print=

Disallow: /*&print=

5. A Bitrix egyik nagy előnye, hogy rögzíti az oldal teljes előzményét - ki mikor jelentkezett be, ki mikor változtatta meg a jelszót és egyéb bizalmas információkat, amelyek nem szivároghatnak ki. Ezért lezárjuk:

Disallow: /*register=yes

Disallow: /*forgot_password=yes

Disallow: /*change_password=yes

Disallow: /*login=yes

Disallow: /*logout=yes

Disallow: /*auth=yes

6. Nincs értelme a visszacímek indexelésének sem. Ezek a címek létrehozhatók például egy fotóalbum megtekintésekor, amikor először „előre”, majd „hátra” görgeti azt. Ilyenkor valami szitokszó jelenhet meg a címsorban: ?back_url_ =%2Fbitrix%2F%2F. Az ilyen címek értéke nulla, ezért ezeket is bezárjuk az indexelés elől. Nos, bónuszként megszabadulunk az esetleges "dupláktól" a keresési eredmények között.

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

7. A /upload mappát szigorúan a körülményeknek megfelelően le kell zárni. Ha az oldalakon közzétett fényképeket és videókat ott tárolják, akkor nem szükséges elrejteni, hogy ne szakítsa meg a további forgalmat. Nos, ha valami bizalmas, azt mindenképpen lezárjuk:

Disallow: /feltöltés

Kész robots.txt fájl a Bitrix számára:

Engedélyezés: /search/map.php

Engedélyezés: /bitrix/templates/

Disallow: */index.php

Disallow: /*action=

Disallow: /*print=

Disallow: /*/gallery/*order=

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*?utm_source=

Disallow: /*ADD_TO_COMPARE_LIST

Disallow: /*arrFilter=

Disallow: /*auth=

Disallow: /*back_url_admin=

Disallow: /*BACK_URL=

Disallow: /*back_url=

Disallow: /*backurl=

Disallow: /*bitrix_*=

Disallow: /*bitrix_include_areas=

Disallow: /*épületi_könyvtár=

Disallow: /*bxajaxid=

Disallow: /*change_password=

Disallow: /*clear_cache_session=

Disallow: /*clear_cache=

Disallow: /*count=

Disallow: /*COURSE_ID=

Disallow: /*forgot_password=

Disallow: /*index.php$

Disallow: /*login=

Disallow: /*logout=

Disallow: /*modern-repair/$

Disallow: /*MUL_MODE=

Disallow: /*ORDER_BY

Disallow: /*PAGE_NAME=

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*PAGE_NAME=keresés

Disallow: /*PAGE_NAME=felhasználói_bejegyzés

Disallow: /*PAGEN_

Disallow: /*print_course=

Disallow: /*print=

Disallow: /*register=

Disallow: /*register=yes

Disallow: /*set_filter=

Disallow: /*show_all=

Disallow: /*show_include_exec_time=

Disallow: /*show_page_exec_time=

Disallow: /*show_sql_stat=

Disallow: /*SHOWALL_

Disallow: /*sort=

Disallow: /*sphrase_id=

Disallow: /*tags=

Disallow: /access.log

Disallow: /admin

Disallow: /auth.php

Disallow: /bitrix

Disallow: /bitrix/

Disallow: /cgi-bin

Disallow: /club/$

Disallow: /club/forum/search/

Disallow: /club/gallery/tags/

Disallow: /club/group/search/

Disallow: /club/log/

Disallow: /club/messages/

Disallow: /club/search/

Disallow: /communication/blog/search.php

Disallow: /communication/forum/search/

Disallow: /communication/forum/user/

Disallow: /content/board/my/

Disallow: /content/links/my/

Disallow: /error

Disallow: /e-store/affiliates/

Disallow: /e-store/paid/detail.php

Disallow: /examples/download/download_private/

Disallow: /examples/my-components/

Disallow: /include

Disallow: /personal

Disallow: /search

Disallow: /feltöltés

Disallow: /*/*ELEMENT_CODE=

Disallow: /*/*SECTION_CODE=

Disallow: /*/*IBLOCK_CODE

Disallow: /*/*ELEMENT_ID=

Disallow: /*/*SECTION_ID=

Disallow: /*/*IBLOCK_ID=

Disallow: /*/*CODE=

Disallow: /*/*ID=

Disallow: /*/*IBLOCK_EXTERNAL_ID=

Disallow: /*/*SECTION_CODE_PATH=

Disallow: /*/*EXTERNAL_ID=

Disallow: /*/*IBLOCK_TYPE_ID=

Disallow: /*/*SITE_DIR=

Disallow: /*/*SERVER_NAME=

Webhelytérkép: http://site.ru/sitemap_index.xml

Webhelytérkép: http://site.ru/sitemap.xml

robots.txt Modx és Modx Revo számára

A CMS Modx Revo sem mentes a duplikációk problémájától. Ez azonban nem olyan kiélezett, mint a Bitrixben. Most a döntéséről.

  1. Kapcsolja be a CNC-t a webhely beállításaiban.
  2. bezárás az indexelésből:

Disallow: /index.php # mert ez a webhely főoldalának másolata

Disallow: /*? # megoldja a problémát az összes oldal ismétlődésével egyszerre

Kész robots.txt fájl Modx és Modx Revo számára:

Disallow: /*?id=

Disallow: /assets

Disallow: /assets/cache

Disallow: /assets/components

Disallow: /assets/docs

Disallow: /assets/export

Disallow: /assets/import

Disallow: /assets/modules

Disallow: /assets/plugins

Disallow: /assets/snippets

Disallow: /connectors

Disallow: /index.php

Disallow: /install

Disallow: /manager

Disallow: /profile

Disallow: /search

Webhelytérkép: http://site.ru/sitemap.xml

következtetéseket

A robots.txt fájlt túlzás nélkül nevezhetjük "útmutatónak a Yandex és a Google keresőrobotjai számára" (persze, ha jól van összeállítva). Ha hiányzik a robots txt fájl, akkor azt létre kell hozni és fel kell tölteni a webhely tárhelyére. A Súgó Disallow szabályait ebben a cikkben fentebb ismertettük, és biztonságosan használhatja őket saját céljaira.

Foglaljuk össze a robots.txt szabályait/irányelveit/utasításait:

  1. User-agent – ​​jelzi, hogy melyik keresőrobothoz készült a szabálylista.
  2. Disallow - "Javaslom, hogy ez ne legyen indexelve."
  3. Webhelytérkép – megadja az XML-webhelytérkép helyét az összes indexelendő URL-lel. A legtöbb esetben a térkép a http://[sajat_webhely]/sitemap.xml címen található.
  4. A feltérképezés késleltetése egy direktíva, amely meghatározza azt az időszakot (másodpercben), amely után a webhely oldala betöltődik.
  5. Gazdagép - a Yandex fő webhelytükrét mutatja.
  6. Allow - "Javaslom ennek indexelését, annak ellenére, hogy ellentmond az egyik Disallow szabálynak."
  7. Clean-param - segít a get-parameters elleni küzdelemben, az oldalak ismétlődésének kockázatának csökkentésére szolgál.

Jelek a robots.txt fordításakor:

  1. A "$" jel a "csillaghoz" a "határoló".
  2. A „/” perjel után megjelenik a fájl/mappa/kiterjesztés neve, amelyet el kell rejteni (Disallow esetén) vagy megnyitni (Engedélyezés esetén) indexelés céljából.
  3. A "*" jel azt jelenti, hogy tetszőleges számú karakter.
  4. A „#” jel választja el a webmester által saját maga vagy valaki más számára írt megjegyzéseket vagy megjegyzéseket. A keresőrobotok nem olvassák el őket.