لأسباب تقنية تتميز. أسباب فنية. تفسيرات إلى وضع

لأسباب تقنية تتميز. أسباب فنية. تفسيرات إلى وضع "عرض غير ناجح للعرض"

هذا ملف نصي (تنسيق مستند in.txt) يحتوي على تعليمات واضحة لفهرسة موقع معين. بمعنى آخر، يشير هذا الملف إلى محركات البحث، والتي تحتاج صفحات موارد الويب إلى الفهرس، والتي ليست - تحظر الفهرسة.

يبدو أنه لماذا يحظر فهرس بعض محتويات الموقع؟ قل، واسمحوا البحث عن روبوت فهرس كل شيء دون كارثة، يسترشد بالمبدأ: كلما زاد عدد الصفحات، كلما كان ذلك أفضل! لذلك فقط الهواة من الرئيس التنفيذي يمكن أن يجادل.

ليس كل المحتوى، الذي يتكون منه الموقع، مطلوب من خلال البحث الروبوتات. هناك ملفات النظام، وهناك صفحات مكررة، وهناك عناوين من الكلمات الرئيسية وما زال هناك الكثير من الأشياء التي لا فهرسة بالضرورة. خلاف ذلك، لا يتم استبعاد الوضع التالي.

البحث الروبوت، بعد أن وصلت إلى موقعك، يحاول الواجب الأول العثور على Robots.txt. إذا لم يتم الكشف عن هذا الملف أو اكتشافه، لكنه غير صحيح (بدون الحظر الضروري)، يبدأ "مبعوث" محرك البحث في دراسة الموقع وفقا لتقدير خاص به.

في عملية هذه الدراسة، فهي فهرسة كل شيء بعيدة عن حقيقة أنه يبدأ من تلك الصفحات التي تحتاج إلى إدخالها في البحث أولا (مقالات جديدة، مراجعات، تقارير الصور، إلخ). بطبيعة الحال، في هذه الحالة، يمكن تأخير الفهرسة لموقع جديد إلى حد ما.

من أجل تجنب مثل هذا المصير غير قابل للنقل، يجب أن يهتم سيد الويب بإنشاء ملف Robots.txt الصحيح.

"وكيل المستخدم:" - الروبوتس التوجيه الرئيسي

في الممارسة العملية في robots.txt، بمساعدة المصطلحات الخاصة، يتم وصف التوجيهات (الأوامر)، الواحدة الرئيسية التي يمكن اعتبارها التوجيه " وكيل المستخدم: " يستخدم الأخير لتحديد روبوت البحث، والتي ستحصل لاحقا على تعليمات معينة. على سبيل المثال:

  • وكيل المستخدم: googlebot - جميع الفرق التي ستتبع بعد هذا التوجيه الأساسي سوف يتعلق بنظام بحث Google الاستثنائي (روبوتها الفهرسة)؛
  • وكيل المستخدم: ياندكس- المرسل إليه في هذه الحالة هو محرك البحث المحلي ياندكس.

في ملف Robots.txt، يمكنك الاتصال بجميع محركات البحث الأخرى مجتمعة. سيبدو الفريق في هذه الحالة مثل هذا: وكيل المستخدم: *وبعد تحت حرف خاص "*"، من المعتاد فهم "أي نص". في حالتنا، أي أخرى، باستثناء ياندكس، محركات البحث. جوجل، بالمناسبة، تتصدر أيضا هذا التوجيه لحسابه، إن لم يكن للتعامل معها شخصيا.

فريق "عدم السماح:" - حظر الفهرسة في Robots.txt

بعد التوجيه الرئيسي "وكيل المستخدم:" تواجه محركات البحث يمكن أن تتبع أوامر محددة. من بينها، يمكن اعتبار أكثر شيوعا توجيها " عدم السماح: " باستخدام هذا الأمر روبوت البحث، يمكنك حظر فهرس مورد الويب أو جزء منه. كل هذا يتوقف على كيفية التوسع هذا التوجيه سيكون. النظر في أمثلة:

وكيل المستخدم: ياندكس عدم السماح: /

يعني هذا النوع من الدخول في ملف Robots.txt أن روبوت البحث Yandex غير مسموح به بفهرسة هذا الموقع، لأن الحظر الذي يحظر علامة "/" يقف في الشعور بالوحدة فخور ولا يرافقه بعض الإيضاحات.

وكيل المستخدم: ياندكس عدم السماح: / WP-ADMIN

كما يمكن أن ينظر إليه، هذه المرة تتوفر الإيضاحات وهي تتصل بمجلد النظام. wP-Admin. في . وهذا هو، سوف يرفض الروبوت الفهرسة من خلال هذا الأمر (المقررة فيه) فهرسة المجلد بأكمله.

وكيل المستخدم: ياندكس عدم السماح: / WP المحتوى / المواضيع

مثل هذا المؤشر على روبوت ياندكس ينطوي على قبوله في فئة كبيرة " wP محتوى. "الذي يمكنه فهرسة جميع المحتويات باستثناء" المواضيع. ».

نستكشف ميزات "ممنوعة" من وثيقة نص Robots.txt أكثر:

وكيل المستخدم: ياندكس عدم السماح: / مؤشر $

في هذا الفريق، على النحو التالي من المثال، يتم استخدام علامة مميزة أخرى "$". يخبر تطبيقها الروبوت أنه من المستحيل فهرسة تلك الصفحات، في الروابط التي يوجد بها سلسلة من الحروف " فهرس " في الوقت نفسه، فهرسة ملف موقع منفصل بنفس الاسم " index.php. »الروبوت غير محظور. وبالتالي، يتم استخدام رمز "$" في الحالة عندما يكون النهج الانتقائي لحظر الفهرسة ضروري.

أيضا في ملف Robots.txt، يمكنك حظر فهرسة صفحات الموارد الفردية التي توجد فيها أحرف معينة. يمكن أن تبدو مثل هذا:

وكيل المستخدم: ياندكس عدم السماح: * & *

يطلب هذا الأمر البحث عن روبوت البحث Yandex لا لفهرسة جميع صفحات موقع الويب هذه، في عناوين URL التي تم العثور عليها "&". علاوة على ذلك، يجب أن تقف هذه العلامة في الرابط بين أي رموز أخرى. ومع ذلك، قد يكون هناك موقف آخر:

وكيل المستخدم: ياندكس عدم السماح: * &

هنا حظر الفهرسة يتعلق بكل تلك الصفحات التي تنتهي مراجعها "و".

إذا لم يكن هناك أي سؤال مع حظر فهرسة ملفات النظام للموقع، فقد يكون هناك منتج مثل فهرس صفحات الموارد الفردية. مثل، لماذا هو ضروري من حيث المبدأ؟ يمكن أن تكون الاعتبارات لهذه النفقات في سيد الويب ذوي الخبرة كثيرا، ولكن الأهم من ذلك هي الحاجة إلى التخلص من البحث من الصفحات المكررة. بمساعدة "عدم السماح:" أمر ومجموعات أحرف خاصة، تمت مناقشتها أعلاه، فمن البساطة للغاية محاربة الصفحات "غير المرغوب فيها".

"السماح:" الأمر - إذن فهرسة إلى Robots.txt

يمكن اعتبار antipode للتوجيه السابق هو الأمر " تسمح: " باستخدام نفس العناصر الموضحة، ولكن استخدام هذا الأمر في ملف ROBOTS.txt، يمكنك السماح بروبوت الفهرسة لجعل عناصر الموقع في قاعدة البحث. في التأكيد - المثال التالي:

وكيل المستخدم: ياندكس السماح: / WP-ADMIN

لسبب ما، غير مشرف الموقع عقوله وقدم التعديلات المناسبة على Robots.txt. نتيجة لذلك، من الآن فصاعدا في محتويات المجلد wP-Admin. يسمح رسميا بفهرسة ياندكس.

على الرغم من حقيقة أن "السماح:" موجود، في الممارسة العملية، لا يستخدم في كثير من الأحيان. بواسطة وكبيرة ليست هناك حاجة لذلك لأنه يتم تطبيقه تلقائيا. مالك الموقع يكفي لاستخدام التوجيه غير المسموح به، يحظر فهرسة هذا أو محتوياته. بعد ذلك، ينظر إلى بقية محتوى الموارد غير المحظور في ملف ROBOTS.txt بواسطة روبوت البحث على النحو الذي يمكن فهرسته وضروري. كل ما في الفقه: "كل ما لا يحظره القانون مسموح به".

مضيف التوجيه: "و" خريطة الموقع: "

نظرة عامة كاملة على التوجيهات الهامة في فرق Robots.txt مضيف: "و" خريطة الموقع: " بالنسبة لأول مرة، فإنه مخصص حصريا ل Yandex، مشيرا إليه أي مرآة من الموقع (مع www أو بدون) هو الواحدة الرئيسية. على سبيل المثال، قد يبدو الموقع هكذا:

وكيل المستخدم: ياندكس المضيف: الموقع

وكيل المستخدم: ياندكس المضيف: www.syt

يتيح لك استخدام هذا الأمر أيضا تجنب ازدواجية غير ضرورية لمحتويات الموقع.

بدوره، التوجيه " خريطة الموقع: »يشير إلى الطريقة الصحيحة لروبوت الفهرسة إلى خريطة الموقع المزعومة - الملفات sitemap.xml. و sitemap.xml.gz. (في حالة CMS WordPress). قد يكون المثال الافتراضي كما يلي:

وكيل المستخدم: * خريطة الموقع: http: //sitemap.xml sitemap: http: //syt/sitemap.xml.gz

سيؤدي الضغط على هذا الأمر في ملف Robots.txt إلى مساعدة روبوت البحث بشكل أسرع في فهرسة خريطة الموقع. هذا، بدوره، سيسرع أيضا عملية إدخال صفحات موارد الويب الخاصة بنتائج البحث.

الملف Robots.txt جاهز - ما هو التالي؟

لنفترض أنك، كشراف مبتدئ مبتدئ، تم التقاطها على مجموعة كاملة من المعلومات التي أدتنا إليها أعلاه. ماذا تفعل بعد؟ إنشاء مستند نصي Robots.txt، مع مراعاة خصائص موقعك. لهذا تحتاج:

  • استخدم محرر نصوص (على سبيل المثال، Notepad) لتجميع Robots.txt الذي تحتاجه؛
  • تحقق من صحة المستند المنشأ، على سبيل المثال، من خلال خدمة Yandex هذه؛
  • باستخدام عميل FTP، قم بتنزيل الملف النهائي في مجلد الجذر لموقعك (في الموقف مع WordPress، عادة ما نذهب حول مجلد نظام Public_html).

نعم، لقد نسيت تقريبا. بداية ماجستير على الويب، لا شك، قبل التجربة، يريد أن ننظر أولا إلى الأمثلة النهائية لهذا الملف يؤديها الآخرون. لا يوجد شيء أسهل. للقيام بذلك، أدخل شريط العناوين للمتصفح site.ru/robots.txt. وبعد بدلا من "site.ru" - اسم المورد الذي تهتم به. فقط وكل شيء.

تجارب ناجحة وشكرا على القراءة!

يوجد ملف Robots.txt في الدليل الجذر لموقعك. على سبيل المثال، على الموقع www.example.com، سيبدو عنوان ملف Robots.txt مثل www.example.com/robots.txt. إنه ملف نصي منتظم يلبي معيار الاستثناء للروبوتات، ويتضمن قواعد واحدة أو أكثر، يحظر كل منها أو يسمح لكل منها أو يسمح بروتوكرا واحدا أو آخر في الوصول إلى مسار محدد على الموقع.

فيما يلي مثال على ملف Robots.txt بسيط يحتوي على قاعدتين وتفسيره.

# القاعدة 1 وكيل المستخدم: googlebot عدم السماح: / nogoogotbot / # القاعدة 2 وكيل المستخدم: * السماح: / خريطة الموقع: http://www.example.com/sitemap.xml

ترجمة

  1. يجب عدم مسح اسم المستخدم الذي يسمى GoogleBOT الفحص الدقيق http://example.com/nogooglebot/ واختلاعه الفرعية.
  2. يمكن لجميع وكلاء المستخدمين الآخرين الوصول إلى جميع المواقع (يمكنك حذفها، ستكون النتيجة هي نفسها، حيث يتم توفير الوصول الكامل بشكل افتراضي).
  3. ملف خريطة الموقع يقع هذا الموقع على http://www.example.com/sitemap.xml.

فيما يلي العديد من النصائح للعمل مع ملفات Robots.txt. نوصي باستكشاف بناء الجملة الكامل لملفات Robots.txt، نظرا لأن قواعد بناء الجملة تستخدم عند إنشاء ملفات Robots.txt غير واضحة ويجب عليك فهمها.

التنسيق والموقع

يمكنك إنشاء ملف Robots.txt في أي محرر نصي تقريبا (يجب أن يدعم ترميز ASCII أو OUTF-8). لا تستخدم معالجات النصوص: غالبا ما يقومون بحفظ الملفات بتنسيق الملكية وإضافة أحرف غير مقبولة لهم، مثل اقتباسات مجعد غير معترف بها عن طريق البحث عن الروبوتات.

استخدم أداة التحقق من ملف Robots.txt عند إنشاء هذه الملفات واختبارها. يتيح لك تحليل بناء جملة الملف ومعرفة كيف ستعمل على موقعك.

القواعد المتعلقة بتنسيق وموقع الملف

  • يجب أن يرتدي الملف اسم Robots.txt.
  • على الموقع يجب أن يكون هناك ملف واحد فقط.
  • يجب وضع ملف Robots.txt في كتالوج الجذر موقع. على سبيل المثال، مراقبة المسح الضوئي لجميع صفحات الموقع http://www.example.com/، يجب وضع ملف Robots.txt على http://www.example.com/robots.txt. لا ينبغي أن يكون في الدليل الفرعي (على سبيل المثال، في http://example.com/pages/robots.txt.). في حالة صعوبة الوصول إلى كتالوج الجذر، اتصل بمزود الاستضافة الخاص بك. إذا لم يكن لديك حق الوصول إلى الدليل الجذر للموقع، فاستخدم طريقة حظر بديلة، مثل Metagelet.
  • يمكن إضافة ملف Robots.txt إلى العناوين النطاقات الفرعية (على سبيل المثال، http: // موقع إلكتروني.. examplemample.com / robots.txt) أو منافذ غير قياسية (على سبيل المثال، http://example.com: 8181 /robots.txt).
  • التعليقات هي أي صفوف تبدأ من رمز شعرية (#).

بناء الجملة

  • يجب أن يكون ملف Robots.txt ملف نصي في ترميز ASCII أو UTF-8. استخدام الأحرف الأخرى غير مسموح بها.
  • قد يتكون ملف Robots.txt من واحد أو أكثر قواعد.
  • قاعدة يجب أن تحتوي على عدة التوجيه (التعليمات)، يجب تحديد كل منها على خط منفصل.
  • تحتوي القاعدة على المعلومات التالية:
    • التي وكيل المستخدم يشير القاعدة.
    • هناك وصول.
    • إلى أي دلائل أو ملفات من هذا الوكيل ممنوع الدخول.
  • تتم معالجة القواعد من أعلى إلى أسفل. يمكن لوكيل المستخدم اتباع قاعدة واحدة مناسبة فقط لذلك، والتي سيتم معالجتها أولا.
  • بشكل افتراضي، يفترضإذا لم يتم حظر الوصول إلى الصفحة أو الدليل بواسطة قاعدة عدم السماح:، يمكن لوكيل المستخدم معالجةها.
  • قواعد حساسة للتسجيلوبعد لذلك، فإن عدم السماح: /file.asp قاعدة تنطبق على عنوان URL http://www.example.com/file.asp، ولكن ليس على http://www.example.com/file.asp.

التوجيهات المستخدمة في ملفات Robots.txt

  • وكيل المستخدم: تأكد من الاستخدام، في قاعدة واحدة قد تكون هناك مثل هذه القواعد أو أكثر. يحدد إنسان آلي محرك البحث الذي ينتمي القاعدة. هذا الخط هو الأول في أي قاعدة. يتم سرد معظمهم في قاعدة بيانات روبوتات الإنترنت أو في قائمة روبوتات البحث في Google. يتم دعم WildCard * لتعيين مسار البادئة أو اللاحقة أو المسار بأكمله. استخدم مثل هذه الإشارة (*)، كما هو موضح في المثال أدناه لمنع جميع روبوتات البحث ( بالإضافة إلى adsbot الروبوتاتالتي تحتاج لتحديدها بشكل منفصل). نوصي بالتعرف على قائمة الروبوتات في Google. أمثلة: # مثال على ذلك 1: BlockBOT OnlyBoBOT فقط وكيل المستخدم: OvergoBot Disallow: / # مثال 2: BlockBot و ADSBOT User-Agent: GoogleBOT User-Agent Unial: ADSBot-Google Disallow: / # مثال 3: Block All But AdsBot Crawlers User : * عدم السماح: /
  • عدم السماح: وبعد يحدد الدليل أو الصفحة في مجال الجذر الذي لا يمكنك مسح وكيل المستخدم المحدد أعلاه. إذا تم تحديد هذه الصفحة المسار الكامل عليه، كما هو الحال في شريط العنوان للمتصفح. إذا كان هذا دليل، يجب أن ينتهي المسار إلى مائل (/). يتم دعم WildCard * لتعيين مسار البادئة أو اللاحقة أو المسار بأكمله.
  • تسمح: في كل قاعدة يجب أن يكون هناك توجيه واحد على الأقل لعدم السماح: أو السماح:وبعد يحدد الدليل أو الصفحة في مجال الجذر الذي لا يمكنك مسح وكيل المستخدم المحدد أعلاه. تستخدم لإلغاء قاعدة عدم السماح والسماح لمسح الدليل الفرعي أو الصفحات في الدليل المغلق للمسح الضوئي. إذا تم تحديد هذه الصفحة المسار الكامل عليه، كما هو الحال في شريط العنوان للمتصفح. إذا كان هذا دليل، يجب أن ينتهي المسار إلى مائل (/). يتم دعم WildCard * لتعيين مسار البادئة أو اللاحقة أو المسار بأكمله.
  • خريطة الموقع: اختياريا، قد تكون هذه التوجيهات إلى حد ما أو لا تكون تماما. يحدد موقع ملف Sitemap المستخدم في هذا الموقع. يجب أن يكون عنوان URL كامل. لا تتابع Google ولا تحقق من متغيرات URL باستخدام بادئات HTTP و HTTPS أو مع www أو بدونها. ملفات Sitemap تقرير جوجل، ما المحتوى بحاجة ل مسح وكيفية التمييز بين المحتوى تستطيع أو مستحيل مسح. تعرف على معلومات إضافية حول ملفات Sitemap. مثال: خريطة الموقع: https://example.com/sitemap.xml sitemap: http://www.example.com/sitemap.xml

يتم تجاهل الكلمات الرئيسية غير معروفة.

مثال على ذلك آخر

يتكون ملف Robots.txt من مجموعة واحدة أو أكثر من القواعد. تبدأ كل مجموعة بسلسلة وكيل المستخدم، والتي تحدد الروبوت المرتبط بالقواعد في المجموعة. فيما يلي مثال على ملف بقواعد؛ يتم تفسيرها من قبل التعليقات المدمجة:

# حظر الوصول إلى GoogleBot روبوت الوصول إلى Expemple.Com/Directory1 / ... and and examplete.com/directory1 / ... and examplete.com/directory2 / ... # ... # ... # ... # ... # ... ولكن السماح بالوصول إلى الدليل / الدليل الفرعي 1 / ... # الوصول إلى جميع الدلائل الأخرى مسموح به افتراضيا. وكيل المستخدم: googlebot disallow: / directory1 / discalling: / directory2 / السماح: / directory2 / subdirectory1 / # حظر الوصول إلى الموقع بأكمله إلى محرك بحث آخر. وكيل المستخدم: othercrawler عدم السماح: /

ملف بناء جملة كاملة Robots.txt

يوصف بناء الجملة الكامل في هذه المقالة. نوصي بأنك تعرف نفسك، كما هو الحال المنفرد في بناء جملة ملف Robots.txt.

قواعد مفيدة

فيما يلي بعض القواعد الشائعة لملف Robots.txt:

قاعدة مثال
حظر مسح الموقع بأكمله. تجدر الإشارة إلى أنه في بعض الحالات قد يكون عنوان URL للموقع موجودا في الفهرس، حتى لو لم يتم فحصها. يرجى ملاحظة أن هذه القاعدة لا تنطبق على روبوتات ADSBOT التي تحتاج إلى تحديدها بشكل منفصل. وكيل المستخدم: * عدم السماح: /
لحظر مسح الكتالوج وجميع محتوياتهتحقق بعد اسم اسم الكتالوج. لا تستخدم ملف Robots.txt لحماية المعلومات السرية! لهذه الأغراض، يجب تطبيق المصادقة. يمكن فهرسة عنوان URL، المسح الضوئي من قبل ملف Robots.txt، ومحتوى ملف Robots.txt عرض أي مستخدم، وبالتالي اكتشف موقع الملفات مع معلومات سرية. وكيل المستخدم: * عدم السماح: / التقويم / عدم السماح: / غير المرغوب فيه /
مسح القرار فقط لروبوت البحث واحد وكيل المستخدم: GoogleBot-News تسمح: / وكيل المستخدم: * عدم السماح:
دقة المسح الضوئي لجميع روبوتات البحث، باستثناء واحد وكيل المستخدم: عدم السماح غير ضروري: / وكيل المستخدم: * السماح: /

لمنع مسح صفحة منفصلة، حدد هذه الصفحة بعد مائل.

عدم السماح: /private_file.html.

لإخفاء صورة محددة من صور Google Robot

وكيل المستخدم: GoogleBot-Image Disallow: /images/dogs.jpg

لإخفاء جميع الصور من موقعك من صور Google Robot

وكيل المستخدم: GoogleBot - صورة عدم السماح: /

لمنع مسح جميع الملفات من نوع معين (في هذه الحالة GIF)

وكيل المستخدم: GoogleBot عدم السماح: /*.giffiel

لحظر صفحات صفحة معينة، ولكن للمتابعة لإظهار إعلانات AdSenseاستخدم قاعدة عدم السماح لجميع الروبوتات، باستثناء MediaPartners-Google. نتيجة لذلك، سيتمكن هذا الروبوت من الوصول إلى الصفحات البعيدة من نتائج البحث لتحديد الإعلانات لإظهار مستخدم واحد أو آخر.

وكيل المستخدم: * عدم السماح: / وكيل المستخدم: MediaPartners-Google تسمح: /
لتحديد عنوان URL ينتهي بأحرف معينة استخدم الرمز $. على سبيل المثال، لأن عناوين URL المنتهية مع On-LineXLS، استخدم التعليمات البرمجية التالية: وكيل المستخدم: GoogleBot عدم السماح: /*.xlss

هل كانت هذه المقالة مفيدة؟

كيف يمكنني تحسين هذه المقالة؟

في كبار المسئولين الاقتصاديين، لا يحدث ذلك. في بعض الأحيان، يمكن أن يؤثر على الترويج للموقع على ملف صغير واحد فقط - Robots.txt.

إذا كنت تريد دخول موقعك إلى الفهرس بشكل صحيح بحيث يتجاوز الروبوتات البحث الصفحات التي تحتاجها، تحتاج إلى التسجيل للحصول على توصيات لهم.

"هل من الممكن؟"، - أنت تسأل.يمكن. للقيام بذلك، يجب أن يكون موقعك ملف Robots.txt.

كيفية جعله صحيحا وملء ذلك في الموقع - نحن نفهم هذه المقالة.

يجب أن يكون الملف النهائي Robots.txt في المجلد الجذر للموقع. مجرد ملف، بدون مجلد:

تريد التحقق مما إذا كان ذلك على موقعك؟ نأخذ العنوان إلى شريط العنوان: site.ru/robots.txt.وبعد ستجد هذه الصفحة (إذا كان هناك ملف):

يتكون الملف من عدة كتل مفصولة بمسافة البادئة. في كل كتلة - توصيات بحث عن روبوتات البحث لمحركات البحث المختلفة (بالإضافة إلى كتلة مع قواعد عامة للجميع)، وحدة منفصلة ذات إشارة إلى خريطة الموقع - خريطة الموقع.

داخل الكتلة مع قواعد روبوت بحث واحد، لا تحتاج المسافات البادئة القيام به.

تبدأ كل وحدة باستخدام توجيه وكيل المستخدم.

بعد كل التوجيه، علامة ":" (القولون)، مساحة، وبعد ذلك تم تحديد القيمة (على سبيل المثال، ما هي الصفحة التي يمكن إغلاقها من الفهرسة).

تحتاج إلى تحديد النقاط النسبية للصفحات، وليس مطلقا. قريب - هذا بدون www.site.ru. على سبيل المثال، تحتاج إلى حظر صفحة الفهرسةwww.site.ru/shop.وبعد لذلك بعد القولون، وضعنا الفجوة، مائل و "متجر":

عدم السماح: / متجر.

يشير النجمة (*) إلى أي مجموعة من الأحرف.

علامة الدولار ($) - نهاية الخط.

يمكنك أن تقرر لماذا تكتب ملف من نقطة الصفر إذا كنت تستطيع فتحه على أي موقع ونسخ نفسك فقط؟

لكل موقع تحتاج إلى وصف قواعد فريدة من نوعها. من الضروري أن تأخذ في مراعاة الميزات. على سبيل المثال، يوجد نفس Adminelel في / WP-Admin على محرك WordPress، سيختلف العنوان عن الآخر. الشيء نفسه مع عناوين الصفحات الفردية، مع خريطة الموقع وغيرها.

كيفية تكوين Robots.txt

كما رأيت بالفعل على لقطة الشاشة، فإن توجيه وكيل المستخدم الأول هو. يشير إلى كيفية بدء روبوت البحث القواعد أدناه.

وكيل المستخدم: * - قواعد لجميع روبوتات البحث، أي، أي محرك بحث (جوجل، ياندكس، بنج، المتسكع، إلخ).

وكيل المستخدم: GoogleBOT - يشير إلى قواعد Spoice Search Spoard.

وكيل المستخدم: ياندكس - قواعد لبحث الروبوت ياندكس.

للحصول على روبوت بحث لتسجيل القواعد أولا، لا يوجد فرق. ولكن عادة ما تكتب توصيات لجميع الروبوتات.

حظر الفهرسة: Robots.txt

لحظر فهرسة الموقع بشكل عام أو فردية، يتم استخدام التوجيه غير المسموح به.

على سبيل المثال، يمكنك إغلاق الموقع بالكامل من الفهرسة (إذا كان المورد قيد التنقيح، ولا تريد أن تقع في الإصدار في مثل هذه الحالة). لهذا تحتاج إلى تسجيل ما يلي:

وكيل المستخدم: *

عدم السماح: /

وبالتالي، فإن جميع روبوتات البحث ممنوع لمحتوى الفهرس على الموقع.

وهكذا يمكنك فتح الموقع للفهرسة:

وكيل المستخدم: *

عدم السماح:

لذلك، تحقق مما إذا كان هناك مائل بعد التوجيه غير السماح، إذا كنت ترغب في إغلاق الموقع. إذا كنت ترغب في فتحه - لا تنس إزالة القاعدة (وغالبا ما يحدث ذلك).

لإغلاق صفحات منفصلة من الفهرسة، تحتاج إلى تحديد عنوانها. كتبت بالفعل كيف يتم ذلك:

وكيل المستخدم: *

عدم السماح: / مشرف WP

وبالتالي، في الموقع مغلق من التصاقات الطرف الثالث.

ما تحتاج إلى إغلاقه من الفهرسة بالضرورة:

  • لوحة إدارية
  • الصفحات الشخصية للمستخدمين؛
  • سلال؛
  • نتائج البحث في الموقع
  • صفحات الدخول والتسجيل والترخيص.

يمكنك الإغلاق من الفهرسة والأنواع الفردية من الملفات. لنفترض أن لديك بعض الملفات .PDF على الموقع، الذي يكون فهرسه غير مرغوب فيه. والبحث في الروبوتات سهلة للغاية لمسح الملفات التي غمرتها المياه إلى الموقع. أغلقها من الفهرسة كما يلي:

وكيل المستخدم: *

عدم السماح: / *. PDF $

السماح بفهرسة: robots.txt

حتى مع إغلاق الموقع بالكامل من الفهرسة، يمكنك فتح المسار إلى بعض الملفات أو الصفحات. لنفترض أنك تدعم الموقع، لكن الدليل مع الخدمات لا يزال سليما. يمكنك إرسال روبوتات البحث هناك للمتابعة لفهرسة القسم. للقيام بذلك، استخدم التوجيه السماح:

وكيل المستخدم: *

السماح: / uslugi

عدم السماح: /

موقع المرآة الرئيسية: Robots.txt

حتى 20 مارس 2018 في ملف Robots.txt للبحث ROB of Yandex، كان من الضروري الإشارة إلى المرآة الرئيسية للموقع من خلال توجيه المضيف. الآن ليس من الضروري القيام به - بما فيه الكفاية.

ما هي المرآة الرئيسية؟ هذا هو ما عنوان موقعك هو الشيء الرئيسي - مع www أو بدون. إذا لم تقم بتكوين إعادة توجيه، فسيتم فهرسة كلا الموقعين، وهذا هو، سيكون هناك نسخة مكررة من جميع الصفحات.

خريطة الموقع: robots.txt sitemap

بعد تحديد جميع توجيهات الروبوتات، يجب عليك تحديد المسار إلى خريطة الموقع. تظهر خريطة الموقع الروبوتات التي تكون عناوين URL التي تحتاج إلى الفهرس على عنوان محدد. على سبيل المثال:

خريطة الموقع: site.ru/sitemap.xml.

عندما يكون الروبوت موجود، سينظر التغييرات التي تم إجراؤها على هذا الملف. نتيجة لذلك، سيتم فهرسة صفحات جديدة بشكل أسرع.

التوجيه النظيف

في عام 2009، أدخل ياندكس توجيه جديد - نظيفة بارع. مع ذلك، يمكنك وصف المعلمات الديناميكية التي لا تؤثر على محتوى الصفحات. في معظم الأحيان، يتم استخدام هذا التوجيه في المنتديات. هناك الكثير من القمامة، مثل معرف الجلسة، معلمات الفرز. إذا تم تحديد هذا التوجيه، فلن يضاعف روبوت البحث في ياندكس المعلومات المكررة.

يمكنك تسجيل هذا التوجيه في أي مكان في ملف Robots.txt.

المعلمات التي لا تحتاج إلى مراعاة الروبوت مدرجة في الجزء الأول من القيمة من خلال &:

Clean-Param: SID & فرز /forum/viewforum.php

يتجنب هذا التوجيه الصفحات المكررة بالعناوين الديناميكية (والتي تحتوي على علامة استفهام).

توجيه تأخير الزحف

سيأتي هذا التوجيه لمساعدة أولئك الذين لديهم خادم ضعيف.

وصول روبوت البحث هو عبء إضافي على الخادم. إذا كان لديك حضور مواقع مرتفع، فقد لا يتحمل المورد ببساطة و "كذبة". نتيجة لذلك، سيحصل الروبوت على رسالة خطأ 5xx. إذا تم تكرار مثل هذا الموقف باستمرار، فيمكن التعرف على الموقع كعنية بحث غير صالحة للعمل.

تخيل أنك تعمل، وبالتوازي، يجب عليك الإجابة باستمرار على المكالمات. إنتاجيتك في هذه الحالة يقع.

فقط مع الخادم.

دعنا نعود إلى التوجيه. يتيح لك Crawl-Delay تعيين تأخير مسح الموقع من أجل تقليل الحمل على الخادم. بمعنى آخر، يمكنك تحديد الفترة التي سيتم من خلالها تنزيل صفحات الموقع. تحدد هذه المعلمة في ثوان، عدد صحيح:

ملف robots.txt. - هذا ملف عادي مع Extension.txt، والتي يمكن إنشاؤها باستخدام Windows دفتر ملاحظات عادي. يحتوي هذا الملف على إرشادات لفهرسة الروبوتات البحث. ضع دليل جذر الملف على الاستضافة.

عند إدخال الموقع، يعد روبوت البحث أول مناشد ملف Robots.txt من أجل الحصول على إرشادات لمزيد من الإجراءات واكتشف الملفات والدلائل التي يحظر على الفهرسة. ملف robots.txt. يرتدي شخصية توصية لمحركات البحث. من المستحيل أن نقول أي شيء يعني أن جميع الملفات المحظورة بفهرسة لن يتم فهرسة نتيجة لذلك.

النظر في أبسط مثال على ملف Robots.txt. يحتوي هذا الملف على الأسطر التالية:

وكيل المستخدم: * عدم السماح: / WP-ADMIN / عدم السماح: / الصور /

يشير السطر الأول إلى أي روبوتات البحث تنطبق هذه التعليمات. في هذا المثال، يشار إلى علامة النجمة - وهذا يعني أن التعليمات تتعلق بجميع الروبوتات الاستكشافية. إذا كنت بحاجة إلى تحديد التعليمات للحصول على روبوت بحث محدد، يجب عليك تسجيل اسمه. تحظر الصفوف الثانية والثالثة فهرسة دليل WP-Admin و Images.

بالنسبة للبحث عن ROB of Yandex، فمن المناسب أيضا أن يصف دليل مضيف للإشارة إلى المرآة الرئيسية للموقع:

وكيل المستخدم: ياندكس عدم السماح: / WP-ADMIN / عدم السماح: / الصور / المضيف: yoursite.ru

أمثلة كتابة ملف Robots.txt لمهام محددة

1. لا تحظر روبوتات أي فهرس محركات البحث الموقع:

وكيل المستخدم: GoogleBot عدم السماح: /

4. لا تحظر فهرسة روبوت واحد فقط (على سبيل المثال، GoogleBot) وحظر الفهرسة لجميع روبوتات البحث الأخرى:

وكيل المستخدم: GoogleBot عدم السماح:
وكيل المستخدم: * عدم السماح: / المسؤول / عدم السماح: / WP المحتوى / عدم السماح: / الصور /
وكيل المستخدم: * عدم السماح: /News/webnews.html عدم السماح: /content/page.php
وكيل المستخدم: * عدم السماح: / page.php عدم السماح: / links.htm عدم السماح: /secret.html

القواعد الأساسية لكتابة Robots.txt

عند كتابة ملف Robots.txt، غالبا ما يتم السماح بالأخطاء. من أجل تجنبها، دعونا ننظر في القواعد الأساسية:

1. لكتابة محتويات الملف فقط بأحرف كبيرة.
2. في التعليمات غير المسموح بها، يجب عليك تحديد دليل واحد فقط أو ملف واحد فقط.
3. لا ينبغي أن تكون سلسلة "وكيل المستخدم" فارغة. إذا كانت التعليمات تشير إلى جميع روبوتات البحث، فأنت بحاجة إلى تحديد النجوم، وإذا لم يكن روبوت بحث محدد، فحدد اسمه.
4. تغيير تعليمات عدم السماح وعامل المستخدم في الأماكن.
5. في التوجيه المضيف، الذي يستخدم ل Yandex، يجب تحديد عنوان موقعنا دون بروتوكول HTTP وبدون مائل إغلاق.
6. عند حظر فهرسة الدليل، من الضروري وصف مائل.
7. يجب عليك التحقق من ملف Robots.txt قبل تنزيله إلى الخادم. سيجمن هذا في المستقبل المشكلات المحتملة في فهرسة الموقع.

Robots.txt للموقع هو ملف نصي فهرس في ترميز UTF-8.

تم استدعاء الفهرس لأنه يوصف توصيات لبحث الروبوتات - التي تحتاج إلى مسح الصفحات، والتي لا تحتاج إليها.

إذا كان ترميز الملف مختلفا عن UTF-8، فقد ترى روبوتات البحث بشكل غير صحيح المعلومات فيه.

الملف صالح لبروتوكولات HTTP، HTTPS، بروتوكول FTP، ولديه أيضا "الطاقة" فقط ضمن رقم المضيف / البروتوكول / المنفذ الموجود عليه.

أين هو Robots.txt على الموقع؟

قد يحتوي ملف Robots.txt على موقع واحد فقط - الدليل الجذر على الاستضافة. يبدو هذا: http://vash-site.xyz/robots.txt

توجيهات ملف الروبوتات TXT للموقع

المكونات المطلوبة لملف Robots.txt للموقع هي قاعدة عدم السماح وتعليمات وكيل المستخدم. هناك قواعد ثانوية.

عدم السماح القاعدة

عدم السماح هو القاعدة التي يقوم بها روبوت البحث الذي يبلغ عنه معلومات حول المسح الصفحات التي لا معنى لها. وعلى الفور العديد من الأمثلة المحددة لتطبيق هذه القاعدة:

مثال 1 - المسموح به لفهرسة الموقع بأكمله:

مثال 2 - يحظر تماما فهرسة الموقع:

في هذه الحالة، سيكون عديم الفائدة. يعد استخدام هذا المثال ذا صلة إذا كان الموقع "مغلقا" إلى التنقيح (على سبيل المثال، وظائف بشكل غير صحيح). في هذه الحالة، فإن الموقع في نتائج البحث ليس مكانا، لذلك من الضروري من خلال ملف الروبوتات TXT لإغلاقه من الفهرسة. بالطبع، بعد الانتهاء من الموقع، يجب إزالة حظر الفهرسة، لكنهم ينسون ذلك.

مثال 6 - كما هو الحال في الروبوتات TXT، بالقرب من ملفات الفهرسة لملحق معين (في هذه الحالة - .gif):

علامة نجمية قبل .GIF $ تقارير تفيد بأن اسم الملف يمكن أن يكون أي شيء، وعلامة $ تقارير نهاية الخط. أولئك. يحظر مثل هذا "قناع" المسح على جميع ملفات GIF.

السماح للحكم في الروبوتات

اسمح للحكم يجعل كل شيء عكسي - يسمح بفهرسة الملف / المجلد / الصفحة.

وعلى الفور مثال محدد:

نحن نعلم بالفعل ذلك بمساعدة التوجيه غير المسموح به: / يمكننا إغلاق الموقع من فهرسة الروبوتات TXT. في الوقت نفسه، لدينا القاعدة السماح: / الكتالوج، مما يسمح لمسح المجلد / الكتالوج. لذلك، سيتم إدراك مزيج من هذين النظامين من رواد البحث على أنه "يحظر مسح الموقع، باستثناء المجلد / الكتالوج"

يتم تصنيف قواعد الفرز والسماح وإجازات عدم السماح لزيادة طول بادئة URL واستخدامها بالتتابع. إذا كانت عدة قواعد مناسبة لنفس الصفحة، فإن الروبوت يختار آخر مناسب من القائمة.

النظر في 2 حالات مع القاعدتين التي تتناقض مع بعضها البعض - تحظر قاعدة واحدة من فهرسة المجلدات / المحتوى، والآخر يسمح.

في هذه الحالة، ستكون أولوية السماح بالتوجيه، ل إنه أقل من القائمة:

ولكن هنا الأولوية هي عدم السماح للتوجيه لنفس الأسباب (أسفل القائمة):

وكيل المستخدم في الروبوتات

وكيل المستخدم هو قاعدة هي قاعدة "الاستئناف" لروبوت البحث، كما يقولون، "قائمة التوصيات خصيصا لك" (بالمناسبة، قد تكون القوائم في Robots.txt إلى حد ما - للحصول على روبوتات بحث مختلفة من Google و Yandex ).

على سبيل المثال، في هذه الحالة، نقول "مهلا، GoogleBot، اذهب هنا، هنا بالنسبة لك قائمة مدربة خصيصا بالتوصيات"، وهو "موافق"، لا سيما بالنسبة لي - فهذا يعني خصيصا بالنسبة لي "وغيرها من القوائم لن مسح.

الروبوتات الصحيحة TXT لجوجل (GoogleBOT)

تقريبا نفس القصة مع البحث بوت ياندكس. يتم تشغيل قائمة توصيات Yandex تقريبا في 100٪ تقريبا من الحالات بشكل طفيف عن قائمة روبوتات البحث الأخرى (من - سنقول لاحقا قليلا). لكن جوهر نفسه: "مهلا، ياندكس، بالنسبة لك قائمة منفصلة" - "حسنا، الآن سأدرسها".

أولئك. إذا كان نفس Robots.txt لديه 3 قائمة مع وكيل المستخدم: *، وكيل المستخدم: GoogleBot وكيل المستخدم: ياندكس، وهذا يعني أن "واحد للجميع"، باستثناء GoogleBot و Yandex، T. بالنسبة لهم هناك قوائم "الشخصية".

خريطة الموقع

قاعدة خريطة الموقع هي موقع الملف باستخدام موقع بطاقة XML، والذي يحتوي على عناوين جميع الصفحات إلزامية للمسح الضوئي. كقاعدة عامة، يتم تحديد عنوان النوع http://site.ua/sitemap.xml.

أولئك. في كل مرة سيؤدي فيها روبوت البحث إلى عرض خريطة الموقع للحصول على مظهر عناوين جديدة، ثم انتقل إليهم للحصول على مزيد من المسح، من أجل تحديث المعلومات حول الموقع في قواعد بيانات محرك البحث.

يجب كتابة قاعدة Sitemap في Robots.txt كما يلي:

مضيف التوجيه.

التوجيه المضيف الواقي في ملف Robots.txt إلزامي أيضا. من الضروري البحث عن روبوت البحث Yandex - يعلمه أي من مرايا الموقع يجب أن تؤخذ في الاعتبار عند الفهرسة. ولهذا السبب يتم تشكيل قائمة منفصلة بالقواعد ل Yandex، لأن جوجل ومحركات البحث المتبقية لا تفهم توجيه المضيف. لذلك، إذا كان موقعك يحتوي على نسخ أو يمكن أن يفتح الموقع ضمن عناوين URL المختلفة، فقم بإضافة توجيه مضيف إلى ملف الروبوتات TXT إلى صفحات الموقع مفهرسة بشكل صحيح.

يطلق على "مرآة الموقع" إما "نسخة" دقيقة أو دقيقة تقريبا من الموقع، والتي تتوفر على عنوان آخر.

يجب الإشارة إلى عنوان المرآة الرئيسية على النحو التالي:

ل HTTP - المضيف: Site.ua أو المضيف: http://site.ua (I.E. http: // يكتب في الإرادة)

بالنسبة إلى HTTPS - المواقع المضيفة: https:/site.ua (I.E. https: // المنصوص عليها إلزامية)

مثال توجيه مضيف في الروبوتات TXT للموقع في بروتوكول HTTPS:

تأخير الزحف.

على عكس تلك السابقة، لم تعد المعلمة تأخير الزحف إلزامية. المهمة الرئيسية هي مطالبة روبوت البحث، لكم ثوان سيتم تحميل الصفحات. عادة ما يتم تطبيقه إذا كنت تستخدم الخوادم الضعيفة. ذات الصلة فقط ل ياندكس.

بارمية نظيفة.

بمساعدة توجيه المعلم النظيف، يمكنك التعامل مع معلمات Get بحيث لا يتكرر المحتوى، لأن نفس المحتوى متاح في روابط ديناميكية مختلفة (هؤلاء هم الذين لديهم علامات استفهام). يمكن إنشاء روابط ديناميكية من قبل الموقع عند استخدام الفرز المختلفة، يتم استخدام معرفات الجلسة، إلخ.

على سبيل المثال، يمكن أن يكون نفس المحتوى متاحا في ثلاثة عناوين:

www.site.com/catalog/get_phone.ua؟ref\u003dpage_1&phone_id\u003d1.

www.site.com/catalog/get_phone.ua؟ref\u003dpage_2&phone_id\u003d1.

www.site.com/catalog/get_phone.ua؟ref\u003dpage_3&phone_id\u003d1.

في هذه الحالة، يتم وضع توجيه المعلم النظيف مثل هذا:

أولئك. بعد القولون، يتم وصف سمة المرفأ بمصدر المرجع، وبعد ذلك يتم الإشارة إلى "ذيل" فقط (في هذه الحالة - /catalog/get_phone.ua).

الأسئلة الأكثر شيوعا

كيفية حظر الفهرسة في Robots.txt؟

لهذه الأغراض، يتم اختراع قاعدة عدم السماح: I.E. انسخ الرابط إلى المستند / ملف لإغلاقه من الفهرسة، أدخله بعد القولون:

عدم السماح: http://your-site.xyz/privance.html.

عدم السماح: http://your-site.xyz/foord.doc.

عدم السماح: http://your-site.xyz/barcode.jpg.

ثم احذف عنوان المجال (في هذه الحالة، تحتاج إلى حذف هذا الجزء - http://your-site.xyz). بعد الإزالة، سنبقى بالضبط ما يجب أن تبقى:

عدم السماح: / privance.html.

عدم السماح: /foord.doc.

عدم السماح: / barcode.jpg.

حسنا، إذا كنت ترغب في إغلاق جميع الملفات بامتداد محدد من الفهرسة، فإن القواعد ستظهر مثل هذا:

عدم السماح: /*.html.

عدم السماح: /*.doc.

عدم السماح: /*.jpg.

كيفية تحديد المرآة الرئيسية في robots.txt؟

لهذه الأغراض، يتم اختراع توجيه المضيف. أولئك. إذا كانت العناوين http://your-site.xyz و http://yoursite.com هي "المرايا" في نفس الموقع، ثم يجب تحديد واحد منهم في توجيه المضيف. دع المرآة الرئيسية تكون http://your-site.xyz. في هذه الحالة، ستكون الخيارات الصحيحة ما يلي:

إذا كان الموقع يعمل على بروتوكول HTTPS، فأنت بحاجة إلى القيام به فقط:

وكيل المستخدم: ياندكس

عدم السماح: / privance.html.

عدم السماح: /foord.doc.

عدم السماح: / barcode.jpg.

المضيف: https://your-site.xyz.

إذا كان الموقع يعمل على بروتوكول HTTP، فسيكون كل من الخيارات التالية صحيحا:

وكيل المستخدم: ياندكس

عدم السماح: / privance.html.

عدم السماح: /foord.doc.

عدم السماح: / barcode.jpg.

المضيف: http://your-site.xyz.

وكيل المستخدم: ياندكس

عدم السماح: / privance.html.

عدم السماح: /foord.doc.

عدم السماح: / barcode.jpg.

المضيف: الخاص بك-site.xyz.

ومع ذلك، يجب تذكره، توجيه المضيف هو توصية، وليس القاعدة. أولئك. من الممكن تحديد مجال واحد في المضيف، وسوف تنظر ياندكس في المرآة الأخرى، إذا تم إدخال الإعدادات المقابلة في لوحة مشرفي المواقع.

أبسط مثال على Robots.txt

في هذا النموذج، يمكن وضع ملف Robots.txt تقريبا على أي موقع (بأصغر تعديلات).

دعونا ننظر الآن، ما هو هناك.

  1. فيما يلي قائمة من القواعد - واحد "شخصيا" ل Yandex، والآخر - لجميع روبوتات البحث الأخرى.
  2. القاعدة غير المسموح بها: فارغة، مما يعني عدم وجود حظر على المسح.
  3. يوجد توجيه المضيف في قائمة Yandex مع إشارة إلى المرآة الرئيسية، وكذلك الرابط إلى خريطة الموقع.

ولكن ... هذا لا يعني أنه من الضروري جعل Robots.txt بهذه الطريقة. يجب توضيح القواعد بشكل فردي بدقة لكل موقع. على سبيل المثال، لا معنى له بفهرسة الصفحات "التقنية" (صفحات إدخال كلمة المرور في تسجيل الدخول، أو صفحات الاختبار التي تعمل تصميم موقع جديد، إلخ.). القواعد، بالمناسبة، تعتمد أيضا على CMS المستخدمة.

مغلق من موقع الفهرسة - كيف تبدو Robots.txt؟

نعطي فورا رمز جاهز سيسمح بحظر فهرسة الموقع بغض النظر عن CMS:

كيفية تحديد المرآة الرئيسية للموقع على HTTPS Robots.txt؟

بسيط جدا:

المضيف: https://your-site.xyz.

مهم!!! بالنسبة لمواقع HTTPS، يجب أن يحدد البروتوكول ضروريا بدقة!

الأخطاء الأكثر شيوعا في Robots.txt

خاصة بالنسبة لك، لقد أعددنا مجموعة مختارة من الأخطاء الأكثر شيوعا المسموح بها في Robots.txt. تقريبا كل هذه الأخطاء تجمع بين واحد - يسمح لهم بالاهتمام.

1. تعليمات متعبة:

الخيار الصحيح:

2. يتم إدراج مجموعة من المجلدات في حالة عدم السماح:

في مثل هذا السجل، قد يتم الخلط بين الروبوت. ما المجلد لا يمكن فهرسة؟ أولا؟ آخر؟ أو كل شيء؟ أو كيف؟ أو ماذا؟ مجلد واحد \u003d قاعدة واحدة لا السماح ولا شيء آخر.

3. يسمح اسم الملف واحد فقط - Robots.txt، وجميع الحروف صغيرة. أسماء robots.txt، robots.txt، إلخ. غير مسموح.

4. يحظر قاعدة وكيل المستخدم للمغادرة فارغة. إما حدد اسم روبوت البحث (على سبيل المثال، ل Yandex)، أو ضع علامة نجمية (لجميع الآخرين).

5. القمامة في الملف (مائلة إضافية، العلامات النجمية، إلخ).

6. إضافة العناوين الكاملة للصفحات المخفية إلى ملف العنوان الكامل، وأحيانا حتى بدون قاعدة عدم السماح.

خاطئ:

http://mega-site.academy/serrot.html.

إنه خطأ أيضا:

عدم السماح: http://mega-site.academy/serrot.html.

حق:

عدم السماح: /serrot.html.

التحقق عبر الإنترنت ملف Robots.txt

هناك عدة طرق للتحقق من ملف Robots.txt للامتثال مع المعيار القياسي.

الطريقة 1. التسجيل في لوحات Yandex و Google Web Belect. ناقص فقط - عليك أن تحفر، للتعامل مع الوظيفة. يتم إجراء التغييرات التالية ويرسل الملف النهائي للاستضافة.

منهيا 2. استخدام الخدمات عبر الإنترنت:

https:/services.sl-team.ru/other/robots/

https://technicalseo.com/seo-tools/robots-txt /

http://tools.seochat.com/tools/robots-txt-validator/

لذلك، يتم تشكيل robots.txt. لا يزال فقط للتحقق من ذلك على الأخطاء. من الأفضل استخدامه لهذه الأدوات التي تقدمها محركات البحث نفسها.

Google Weogo Webmasters (Search Console Google): نذهب إلى الحساب إذا لم يتم تأكيد الموقع في ذلك - تأكيد، ثم انتقل إلى المسح الضوئي -\u003e أداة التحقق من ملف Robots.txt.

هنا تستطيع:

  • كشف على الفور جميع الأخطاء والمشاكل المحتملة
  • على الفور "على الفور" لتعديل التعديلات والتحقق من الأخطاء مرة أخرى (حتى لا إعادة تشغيل الملف إلى الموقع 20 مرة)
  • تحقق من صحة المحظورات والأذونات لفهرسة الصفحات.

إنه تناظرية من السابق، باستثناء:

  • الإذن غير مطلوب؛
  • تأكيد الحقوق في الموقع ليست ضرورية؛
  • يتوفر فحص هائل لصفحات إمكانية الوصول؛
  • يمكنك التأكد من أن جميع القواعد ينظر إليها بشكل صحيح بواسطة Yandex.

حلول جاهزة لأكثر CMS شهرة

Robots.txt الصحيح ل WordPress

عدم السماح: / CGI-BIN # النوع الكلاسيكي

عدم السماح: /؟ # أي معلمات طلب على الرئيسية

عدم السماح: / WP- # جميع ملفات WP: / WP-JSON /، / WP-يشمل، / WP محتوى / الإضافات

عدم السماح: *؟ S \u003d #

عدم السماح: * & s \u003d # البحث

عدم السماح: / البحث # البحث

عدم السماح: *؟ Attachment_id \u003d # صفحة الاستثمار. في الواقع، على ذلك إعادة توجيه ...

عدم السماح: * / تغذية. كل fids

عدم السماح: * / RSS # RSS FID

عدم السماح: * / تضمين # جميع التضمين

عدم السماح: / صفحة / # جميع أنواع الصفحات

السماح: * / تحميلات # تحميلات مفتوحة

السماح: /*/*/.js # داخل / WP- (/ * / - للأولوية)

السماح: /*/*/*.css # داخل / WP- (/ * / - للأولوية)

السماح ب: /wp-* png # الصور في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

السماح ب: /wp-*.jpg # الصور في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

السماح ب: /wp-*.jpeg # الصور في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

السماح: / wp-*gif # الصور في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

السماح: / wp-*.svg # الصور في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

السماح بالملفات: /wp-*.pdf # في الإضافات، مجلد ذاكرة التخزين المؤقت، إلخ.

#disallow: / WP / # عندما يتم تثبيت WP في الدليل الفرعي WP

خريطة الموقع: http://site.ru/sitemap2.xml # ملف آخر واحد

#sitemap: http://site.ru/sitemap.xml.gz # الإصدار المضغوط (.gz)

المضيف: www.site.ru # ل Yandex و mail.ru. (تداخل)

# رمز الإصدار: 1.0

# لا تنس تغيير `site.ru` على موقعك.

دعونا تحليل رمز ملفات الروبوتات TXT ل WordPress CMS:

هنا نشير هنا إلى أن جميع القواعد ذات صلة بكل روبوتات البحث (باستثناء القوائم التي تعاني من "قوائم" الشخصية "). إذا تم تجميع القائمة لبعض الروبوتات المعينة، ثم التغييرات على اسم الروبوت:

وكيل المستخدم: ياندكس

وكيل المستخدم: googlebot

السماح: * / تحميلات

هنا نعطي جيدا جيدا لفهرسة المراجع، والتي تحتوي على / تحميلات. في هذه الحالة، هذه القاعدة إلزامية، لأن يحتوي محرك WordPress على محتوى / محتوى دليل / WP (في أي محتوى قد تحتوي الصور عليه، أو محتوى "مفتوح" آخر)، وهو فهرسة محظور من عدم السماح: / WP. لذلك، باستخدام السماح: * / عمليات التحميل، نجعل استثناء من عدم السماح: / WP-.

الباقي يذهب ببساطة الفهرسة:

عدم السماح: / CGI-BIN - حظر على فهرسة البرنامج النصي

عدم السماح: / تغذية - حظر على RSS FIDD Scan

عدم السماح: / TrackBack - مسح إعلام

عدم السماح :؟ s \u003d أو عدم السماح: *؟ S \u003d - حظر فهرسة صفحة البحث الداخلية الصفحة

عدم السماح: / صفحة / - حظر فهرسة جميع أنواع الصفحات

قاعدة خريطة الموقع: http://site.ru/sitemap.xml يحدد مسار الروبوت ياندكس إلى الملف باستخدام بطاقة XML. يجب تسجيل المسار بالكامل. إذا كانت ملفات متعددة العديد من قواعد Sitemap (ملف واحد \u003d 1 قاعدة).

في المضيف: Site.ru صف، وصفنا على وجه التحديد المرآة الرئيسية للموقع. يشار إليه من أجل أن المرايا المتبقية مفهرسة نفس الشيء. سلسلة فارغة أمام المضيف: إلزامي.

أين هي الروبوتات TXT WordPress، وكلما تعرف كل شيء - منذ كل من CMS الأخرى، يجب أن يكون هذا الملف في الدليل الجذر للموقع.

ملف robots.txt ل oomla

جملة - تقريبا المحرك الأكثر شعبية في مشرفي المواقع، ل على الرغم من أوسع الفرص والعديد من الحلول الجاهزة، يتم توفيرها مجانا. ومع ذلك، فإن الروبوتات العادية. من المنطقي دائما تصحيحه للفهرسة، الكثير من "القمامة" المفتوح، ولكن الصور مغلقة (هذا سيء).

هذه هي الطريقة التي يشبه robots.txt ل oomla:

عدم السماح: / المسؤول /

عدم السماح: / ذاكرة التخزين المؤقت /

عدم السماح: / مكونات /

عدم السماح: / صور /

عدم السماح: / يشمل /

عدم السماح: / التثبيت /

عدم السماح: / لغة /

عدم السماح: / تخطيطات /

عدم السماح: / المكتبات /

عدم السماح: / سجلات /

عدم السماح: / وسائل الإعلام /

عدم السماح: / وحدات /

عدم السماح: / الإضافات /

عدم السماح: / قوالب /

wix robots.txt.

تقوم نظام WIX بإنشاء ملفات Robots.txt تلقائيا شخصيا لكل موقع WIX. أولئك. يمكنك إضافة /Robots.txt إلى نطاقك (على سبيل المثال: www.domain.com/robots.txt) ويمكنك استكشاف محتويات ملف robots.txt بأمان بأمان على موقعك.

تحرير robots.txt مستحيل. ومع ذلك، باستخدام NoIndex، يمكنك إغلاق بعض الصفحات المحددة من الفهرسة.

robots.txt for opencart.

ملف Robots.txt القياسي ل OpenCart:

عدم السماح: / * الطريق \u003d الحساب /

عدم السماح: / * الطريق \u003d التابعة /

عدم السماح: / * الطريق \u003d الخروج /

عدم السماح: / المسؤول

عدم السماح: / كتالوج

عدم السماح: / تنزيل

عدم السماح: / تصدير

عدم السماح: / النظام

عدم السماح: / *؟

عدم السماح: / * & فرز \u003d

عدم السماح: / * طلب \u003d

عدم السماح: / * & order \u003d

عدم السماح: / *؟ الحد \u003d

عدم السماح: / * & حد \u003d

عدم السماح: / *؟ Filter_name \u003d

عدم السماح: / * & filter_name \u003d

عدم السماح: / *؟ Filter_sub_category \u003d

عدم السماح: / * & filter_sub_category \u003d

عدم السماح: / *؟ Filter_Description \u003d

عدم السماح: / * & filter_Description \u003d

عدم السماح: / *؟ تتبع \u003d

عدم السماح: / * وتتبع \u003d

عدم السماح: / *؟

عدم السماح: / * & صفحة \u003d

عدم السماح: / قائمة الأمنيات

عدم السماح: / تسجيل الدخول

وكيل المستخدم: ياندكس

عدم السماح: / * الطريق \u003d الحساب /

عدم السماح: / * الطريق \u003d التابعة /

عدم السماح: / * الطريق \u003d الخروج /

عدم السماح: / * الطريق \u003d المنتج / البحث

عدم السماح: /index.php؟route\u003dproduct/product*&manufacturer_id\u003d.

عدم السماح: / المسؤول

عدم السماح: / كتالوج

عدم السماح: / تنزيل

عدم السماح: / تصدير

عدم السماح: / النظام

عدم السماح: / *؟

عدم السماح: / * & فرز \u003d

عدم السماح: / * طلب \u003d

عدم السماح: / * & order \u003d

عدم السماح: / *؟ الحد \u003d

عدم السماح: / * & حد \u003d

عدم السماح: / *؟ تتبع \u003d

عدم السماح: / * وتتبع \u003d

عدم السماح: / * الطريق \u003d المنتج / البحث

عدم السماح: / *؟

عدم السماح: / * & صفحة \u003d

Clean-Param: تتبع

Clean-Param: filter_name

Clean-Param: filter_sub_category

Clean-Param: Filter_Description

عدم السماح: / قائمة الأمنيات

عدم السماح: / تسجيل الدخول

عدم السماح: /index.php؟route\u003dproduct/manufacturer.

عدم السماح: /index.php؟route\u003dproduct/compare.

عدم السماح: /index.php؟route\u003dProduct/Category.

المضيف: vash_domen.

خريطة الموقع: http: // vash_domen / asitemap.xml

robots.txt for Bitrix (Bitrix)

1. يجب إغلاق المجلدات / bitrix و / cgi-bin، لأن هذا هو "سلة مهملات" تقنية بحتة، والتي لا تحتاج إلى تألق نتائج البحث.

عدم السماح: / Bitrix

عدم السماح: / CGI-BIN

2. / مجلد البحث أيضا لا يمثل أي مصلحة أو محركات البحث. نعم، ولا يحتاج أحد إلى تشكيل مزدوج. لذلك، ونحن نغلق ذلك أيضا.

disalow: / البحث

عدم السماح: / Auth /

عدم السماح: / auth.php.

4. المواد للطباعة (على سبيل المثال، فاتورة الدفع) لا يوجد أيضا أي معنى للتألق في نتائج البحث. يغلق.

عدم السماح: / * طباعة \u003d

عدم السماح: / * & طباعة \u003d

5. واحدة من المزايا الفعلية للبيتريكس هي أنه يعمل على إصلاح تاريخ الموقع بأكمله - من هو عند تسجيل الدخول، والذين عند تغيير كلمة المرور، وغيرها من المعلومات السرية، فإن تسربها غير مسموح به. لذلك، إغلاق:

عدم السماح: / * سجل \u003d نعم

عدم السماح: / * نسيت Force_Password \u003d نعم

عدم السماح: / * change_password \u003d نعم

عدم السماح: / * تسجيل الدخول \u003d نعم

عدم السماح: / * تسجيل الخروج \u003d نعم

عدم السماح: / * Auth \u003d نعم

6. العناوين الخلفية إما لا معنى للفهرس. يمكن تشكيل هذه العناوين، على سبيل المثال، عند عرض ألبوم الصور عند ظهوره أولا "إلى الأمام"، ثم "مرة أخرى". خلال هذه اللحظات في شريط العناوين، قد يظهر شيء مثل مسألة الفطر: back_url_ \u003d٪ 2fbitrix٪ 2F٪ 2F. قيمة هذه العناوين صفر، لذلك يغلقونها أيضا من الفهرسة. حسنا، ككافأة - تخلص من "الزوجي" المحتملة في نتائج البحث.

عدم السماح: / * backurl \u003d *

عدم السماح: / * back_url \u003d *

عدم السماح: / * back_url \u003d *

عدم السماح: / * back_url_admin \u003d *

7. يجب إغلاق المجلد / التحميل بدقة بسبب الظروف. إذا كانت هناك صور ومقاطع فيديو موضوعة على الصفحات، فليس من الضروري إخفاءها، حتى لا تخفض حركة المرور الإضافية. حسنا، إذا كان هناك شيء سري مغلق بشكل لا لبس فيه:

عدم السماح: / تحميل

جاهز Robots.txt file for Bitrix:

السماح: /search/map.php.

السماح: / Bitrix / قوالب /

عدم السماح: * / index.php

عدم السماح: / * العمل \u003d

عدم السماح: / * طباعة \u003d

عدم السماح: / * / معرض / * ترتيب \u003d

عدم السماح: / * / البحث /

عدم السماح: / * / slide_show /

عدم السماح: / *؟ utm_source \u003d

عدم السماح: / * add_to_compare_list

عدم السماح: / * Arrfilter \u003d

عدم السماح: / * Auth \u003d

عدم السماح: / * back_url_admin \u003d

عدم السماح: / * back_url \u003d

عدم السماح: / * back_url \u003d

عدم السماح: / * backurl \u003d

عدم السماح: / * Bitrix _ * \u003d

عدم السماح: / * bitrix_include_areas \u003d

عدم السماح: / * building_directory \u003d

عدم السماح: / * bxajaxid \u003d

عدم السماح: / * change_password \u003d

عدم السماح: / * clear_cache_session \u003d

عدم السماح: / * clear_cache \u003d

عدم السماح: / * عدد \u003d

عدم السماح: / * Dourse_id \u003d

عدم السماح: / * نسيت Force_Password \u003d

عدم السماح: /*index.php.

عدم السماح: / * تسجيل الدخول \u003d

عدم السماح: / * تسجيل الخروج \u003d

عدم السماح: / * إصلاح الحديثة / $

عدم السماح: / * mul_mode \u003d

عدم السماح: / * order_by

عدم السماح: / * page_name \u003d

عدم السماح: / * page_name \u003d detail_slide_show

عدم السماح: / * page_name \u003d البحث

عدم السماح: / * page_name \u003d user_post

عدم السماح: / * Pagen_

عدم السماح: / * print_course \u003d

عدم السماح: / * طباعة \u003d

عدم السماح: / * سجل \u003d

عدم السماح: / * سجل \u003d نعم

عدم السماح: / * set_filter \u003d

عدم السماح: / * show_all \u003d

عدم السماح: / * show_include_exec_time \u003d

عدم السماح: / * show_page_exec_time \u003d

عدم السماح: / * show_sql_stat \u003d

عدم السماح: / * Showall_

عدم السماح: / * فرز \u003d

عدم السماح: / * sphrase_id \u003d

عدم السماح: / * العلامات \u003d

عدم السماح: /access.log.

عدم السماح: / المسؤول

عدم السماح: / auth.php.

عدم السماح: / Bitrix

عدم السماح: / bitrix /

عدم السماح: / CGI-BIN

عدم السماح: / النادي / $

عدم السماح: / النادي / المنتدى / البحث /

عدم السماح: / النادي / معرض / العلامات /

عدم السماح: / النادي / المجموعة / البحث /

عدم السماح: / النادي / سجل /

عدم السماح: / النادي / الرسائل /

عدم السماح: / النادي / البحث /

عدم السماح: / \\Communication/blog/search.php.

عدم السماح: / الاتصالات / المنتدى / البحث /

عدم السماح: / الاتصالات / المنتدى / المستخدم /

عدم السماح: / المحتوى / مجلس / بلدي /

عدم السماح: / المحتوى / الروابط / بلدي /

عدم السماح: / خطأ

عدم السماح: / متجر E / الشركات التابعة /

عدم السماح: / e-store/paid/detail.php.

عدم السماح: / أمثلة / تنزيل / download_private /

عدم السماح: / أمثلة / مكوناتي /

عدم السماح: /

عدم السماح: / شخصي

disalow: / البحث

عدم السماح: / تحميل

عدم السماح: / * / * element_code \u003d

عدم السماح: / * / * Section_Code \u003d

عدم السماح: / * / * iblock_code

عدم السماح: / * / * Element_id \u003d

عدم السماح: / * / * Section_id \u003d

عدم السماح: / * / * iblock_id \u003d

عدم السماح: / * / * رمز \u003d

عدم السماح: / * / * معرف \u003d

عدم السماح: / * / * iblock_external_id \u003d

عدم السماح: / * / * Section_code_Path \u003d

عدم السماح: / * / * External_id \u003d

عدم السماح: / * / * iblock_type_id \u003d

عدم السماح: / * / * site_dir \u003d

عدم السماح: / * / * Server_name \u003d

خريطة الموقع: http://site.ru/sitemap_index.xml.

خريطة الموقع: http://site.ru/sitemap.xml.

robots.txt for modx و modx revo

CMS Modx Revo غير محروم أيضا من مشكلة مزدوجة. ومع ذلك، فإنه غير متفاد للغاية كما هو الحال في البيطري. الآن عن قرارها.

  1. قم بتشغيل CNC في إعدادات الموقع.
  2. قريب من الفهرسة:

عدم السماح: /index.php # ل هذا مزدوج من الصفحة الرئيسية للموقع

عدم السماح: / *؟ # مرة واحدة حل المشكلة مع الزوجي لجميع الصفحات

جاهز Robots.txt file for modx و modx revo:

عدم السماح: / * معرف \u003d

عدم السماح: / الأصول

عدم السماح: / الأصول / ذاكرة التخزين المؤقت

عدم السماح: / الأصول / المكونات

عدم السماح: / الأصول / المستندات

عدم السماح: / الأصول / التصدير

عدم السماح: / الأصول / الاستيراد

عدم السماح: / الأصول / الوحدات النمطية

عدم السماح: / الأصول / الإضافات

عدم السماح: / الأصول / القصاصات

عدم السماح: / موصلات

عدم السماح: /index.php.

عدم السماح: / تثبيت

عدم السماح: / مدير

عدم السماح: / الملف الشخصي

disalow: / البحث

خريطة الموقع: http://site.ru/sitemap.xml.

الاستنتاجات

بدون مبالغة، يمكن استدعاء ملف Robots.txt "دليل البحث عن الروبوتات Yandex و Google" (بالطبع، إذا تم تجميعه بشكل صحيح). إذا كان ملف الروبوتات TXT مفقود، فيجب أن يتم إنشاؤه وتنزيله على استضافة موقعك. يتم وصف مساعدة قواعد عدم السماح أعلاه في هذه المقالة ويمكنك استخدامها بأمان لأغراضك الخاصة.

مرة أخرى أننا تلخيص القواعد / التوجيهات / التعليمات ل robots.txt:

  1. وكيل المستخدم - يشير إلى ما يقوم روبوت البحث بالضبط بإنشاء قائمة بالقواعد.
  2. عدم السماح - "أوصي بأن هذا غير مفهرس".
  3. Sitemap - يشير إلى موقع خريطة موقع XML مع جميع عناوين URL التي تحتاج إلى الفهرس. في معظم الحالات، توجد البطاقة على http: // [your_set] /sitemap.xml.
  4. تأخير الزحف - التوجيه، مشيرا إلى الفترة (بالثواني) سيتم من خلالها تنزيل صفحة الموقع.
  5. المضيف - يظهر ياندكس المرآة الرئيسية للموقع.
  6. السماح - "أوصي بهذا المؤشر، على الرغم من حقيقة أنه يتعارض مع أحد اللوائح غير المسموح بها".
  7. Clean-Param - يساعد في الكفاح ضد معلمات Gets، يستخدم لتقليل مخاطر الصفحات المكررة.

علامات عند رسم Robots.txt:

  1. علامة "$" للحصول على "العلامة النجمية" هي "المحدد".
  2. بعد خطوط مائلة "/"، يتم الإشارة إلى اسم الملف / المجلد / الملحق، الذي تريد إخفاءه (في حالة عدم السماح) أو مفتوحا (في حالة السماح) للفهرسة.
  3. يشار إلى علامة "*" عن طريق "أي عدد من أي أحرف".
  4. يتم فصل علامة "#" بأي تعليقات أو ملاحظات تركتها VEB Master لأنفسهم، أو لشخص آخر. البحث الروبوتات لا تقرأ لهم.