ماذا يعني ذلك لأسباب فنية. ماذا تعني "محاولة التسليم الفاشلة" ("البريد الروسي")؟ ما هذه العملية أوضاع المؤسسة الفيدرالية الموحدة للدولة "البريد الروسي". شاهد ما هو "تقني" في القواميس الأخرى

يعد ملف robots.txt أحد أهم الملفات عند تحسين أي موقع ويب. يمكن أن يؤدي غيابه إلى تحميل كبير على الموقع من روبوتات البحث والفهرسة البطيئة وإعادة الفهرسة ، ويمكن أن تؤدي الإعدادات غير الصحيحة إلى حقيقة أن الموقع سيختفي تمامًا من البحث أو ببساطة لن تتم فهرسته. لذلك ، لن يتم البحث عنها في Yandex و Google ومحركات البحث الأخرى. دعنا نلقي نظرة على جميع الفروق الدقيقة لإعداد ملف robots.txt بشكل صحيح.

أولاً ، مقطع فيديو قصير يمنحك فهمًا أساسيًا لما هو ملف robots.txt.

كيف يؤثر ملف robots.txt في فهرسة الموقع

ستقوم روبوتات البحث بفهرسة موقعك بغض النظر عن وجود ملف robots.txt. في حالة وجود مثل هذا الملف ، يمكن إرشاد الروبوتات بالقواعد المكتوبة في هذا الملف. في الوقت نفسه ، قد تتجاهل بعض الروبوتات قواعد معينة ، أو قد تكون بعض القواعد محددة فقط لبعض برامج الروبوت. على وجه الخصوص ، لا يستخدم GoogleBot توجيهات Host and Crawl-Delay ، وقد بدأت YandexNews مؤخرًا في تجاهل توجيهات Crawl-Delay ، وتجاهل YandexDirect و YandexVideoParser المزيد من التوجيهات العامة في الروبوت (ولكن يتم توجيههما بواسطة تلك المحددة خصيصًا لهما).

المزيد حول الاستثناءات:
استثناءات Yandex
معيار استبعاد الروبوت (ويكيبيديا)

يتم إنشاء الحد الأقصى للتحميل على الموقع بواسطة الروبوتات التي تقوم بتنزيل المحتوى من موقعك. لذلك ، عند تحديد ما يجب فهرسته وما يجب تجاهله ، وكذلك مع الفواصل الزمنية للتنزيل ، يمكنك ، من ناحية ، تقليل الحمل بشكل كبير على الموقع من الروبوتات ، ومن ناحية أخرى ، تسريع التنزيل من خلال حظر الزحف إلى صفحات غير ضرورية ...

تتضمن هذه الصفحات غير الضرورية برامج ajax و json النصية المسؤولة عن النماذج المنبثقة واللافتات وعرض captcha وما إلى ذلك ، ونماذج الطلبات وعربة التسوق مع جميع خطوات الخروج ووظائف البحث والحساب الشخصي ولوحة الإدارة.

بالنسبة لمعظم الروبوتات ، يُنصح أيضًا بتعطيل فهرسة جميع JS و CSS. ولكن بالنسبة إلى GoogleBot و Yandex ، يجب ترك هذه الملفات للفهرسة ، حيث يتم استخدامها بواسطة محركات البحث لتحليل قابلية استخدام الموقع وترتيبه (دليل Google ، دليل Yandex).

توجيهات Robots.txt

التوجيهات هي قواعد للروبوتات. هناك مواصفات W3C من 30 يناير 1994 ومعيار موسع من عام 1996. ومع ذلك ، لا تدعم جميع محركات البحث والروبوتات هذه التوجيهات أو تلك. في هذا الصدد ، سيكون من المفيد لنا أن نعرف ليس المعيار ، ولكن كيف تسترشد الروبوتات الرئيسية بتوجيهات معينة.

دعونا ننظر في الأمر بالترتيب.

وكيل المستخدم

هذا هو التوجيه الأكثر أهمية الذي يحدد الروبوتات التي تتبع القواعد.

لجميع الروبوتات:
وكيل المستخدم: *

بالنسبة إلى روبوت محدد:
وكيل المستخدم: GoogleBot

يرجى ملاحظة أن ملف robots.txt ليس حساسًا لحالة الأحرف. هؤلاء. يمكن أيضًا كتابة وكيل مستخدم لـ Google بالطريقة التالية:
وكيل المستخدم: googlebot

يوجد أدناه جدول بوكلاء المستخدم الرئيسيين لمحركات البحث المختلفة.

الروبوت	وظيفة
غوغل
Googlebot	الروبوت الرئيسي للفهرسة في Google
Googlebot-News	أخبار جوجل
Googlebot- صورة	صور جوجل
Googlebot-Video	فيديو
Mediapartners-Google
شركاء الإعلام	جوجل ادسنس ، جوجل ادسنس للجوال
AdsBot-Google	تحقق من جودة الصفحة المقصودة
AdsBot-Google-Mobile-Apps	Google Robot for Apps
ياندكس
YandexBot	الروبوت الرئيسي لفهرسة Yandex
YandexImages	ياندكس. الصور
YandexVideo	فيديو
ياندكس ميديا	بيانات الوسائط المتعددة
YandexBlogs	روبوت البحث في المدونات
YandexAddurl	روبوت يصل إلى الصفحة عند إضافتها من خلال نموذج "إضافة عنوان URL"
YandexFavicons	روبوت يقوم بفهرسة الرموز المفضلة
ياندكس دايركت	Yandex.Direct
YandexMetrika	ياندكس ميتريكا
كتالوج ياندكس	كتالوج ياندكس
ياندكس نيوز	ياندكس
YandexImageResizer	روبوت خدمات المحمول
بنج
بينجبوت	روبوت الفهرسة الرئيسي لـ Bing
ياهو!
تسرع في الشراب	الروبوت الرئيسي للفهرسة Yahoo!
البريد
البريد	الرئيسية روبوت الفهرسة Mail.Ru
متسكع
ستاك رامبلر	كان في السابق روبوت الفهرسة الرئيسي Rambler. ومع ذلك ، اعتبارًا من 23.06.11 ، لن يدعم Rambler محرك البحث الخاص به ويستخدم الآن تقنية Yandex في خدماته. لم يعد ذو صلة.

عدم السماح والسماح

يؤدي عدم السماح إلى إغلاق الصفحات وأقسام الموقع من الفهرسة.
السماح بفتح صفحات وأقسام الموقع بالقوة للفهرسة.

لكن كل شيء ليس بهذه البساطة هنا.

أولاً ، تحتاج إلى معرفة العوامل الإضافية وفهم كيفية استخدامها - وهي * و $ و #.

* هو أي عدد من الشخصيات بما في ذلك غيابهم. في هذه الحالة ، لا تحتاج إلى وضع علامة النجمة في نهاية السطر ، فمن المفهوم أنها موجودة بشكل افتراضي.
$ - يشير إلى أن الحرف الذي يسبقه يجب أن يكون الأخير.
# - تعليق ، كل شيء بعد هذا الحرف في السلسلة لا يأخذ في الاعتبار من قبل الروبوت.

أمثلة على استخدام:

عدم السماح: *؟ S =
Disallow: / category / $

ثانيًا ، تحتاج إلى فهم كيفية تنفيذ القواعد المتداخلة.
تذكر أن ترتيب كتابة التوجيهات ليس مهمًا. يتم تحديد وراثة قواعد ما يجب فتحه أو إغلاقه من الفهرسة من خلال الأدلة التي يتم تحديدها. لنأخذ مثالا.

السماح: * .css
Disallow: / template /

http://site.ru/template/ - مغلق من الفهرسة
http://site.ru/template/style.css - مغلق من الفهرسة
http://site.ru/style.css - مفتوح للفهرسة
http://site.ru/theme/style.css - مفتوح للفهرسة

إذا كنت تريد فتح جميع ملفات .css للفهرسة ، فسيتعين عليك أيضًا تسجيل هذا لكل مجلد من المجلدات المغلقة. في حالتنا هذه:

السماح: * .css
السماح: /template/*.css
Disallow: / template /

مرة أخرى ، ترتيب التوجيهات ليس مهمًا.

خريطة الموقع

توجيه لتحديد المسار إلى ملف خريطة موقع XML. عنوان URL مكتوب بنفس الطريقة كما في شريط العناوين.

فمثلا،

خريطة الموقع: http://site.ru/sitemap.xml

يتم تحديد توجيه ملف Sitemap في أي مكان في ملف robots.txt دون الرجوع إلى وكيل مستخدم معين. يمكن تحديد عدة قواعد لخريطة الموقع.

مضيف

توجيه لتحديد المرآة الرئيسية للموقع (في معظم الحالات: مع www أو بدون www). لاحظ أنه تم تحديد المرآة الرئيسية بدون http: // ، ولكن مع https: //. أيضا ، إذا لزم الأمر ، يشار إلى المنفذ.
التوجيه مدعوم فقط بواسطة روبوتات Yandex و Mail.Ru. لن تحسب الروبوتات الأخرى ، ولا سيما GoogleBot ، الأمر. تم تسجيل المضيف مرة واحدة فقط!

مثال 1:
المضيف: site.ru

المثال 2:
المضيف: https://site.ru

تأخير الزحف

توجيه لتعيين الفاصل الزمني بين تنزيل الروبوت لصفحات الموقع. بدعم من الروبوتات من Yandex و Mail.Ru و Bing و Yahoo. يمكن تعيين القيمة في وحدات كاملة أو كسرية (فاصل - نقطة) ، الوقت بالثواني.

مثال 1:
تأخير الزحف: 3

المثال 2:
تأخير الزحف: 0.5

إذا كان الموقع يحتوي على حمولة خفيفة ، فلا داعي لإنشاء مثل هذه القاعدة. ومع ذلك ، إذا أدت فهرسة الصفحات بواسطة روبوت إلى حقيقة أن الموقع يتجاوز الحدود أو يواجه أحمالًا كبيرة تصل إلى مقاطعة الخادم ، فإن هذا التوجيه سيساعد في تقليل الحمل.

كلما زادت القيمة ، قل عدد الصفحات التي سيقوم الروبوت بتحميلها في جلسة واحدة. يتم تحديد القيمة المثلى بشكل فردي لكل موقع. من الأفضل البدء بقيم ليست كبيرة جدًا - 0.1 ، 0.2 ، 0.5 - وزيادتها تدريجياً. بالنسبة لروبوتات محركات البحث الأقل أهمية لنتائج الترويج ، مثل Mail.Ru و Bing و Yahoo ، يمكنك في البداية تعيين قيم أعلى من Yandex robots.

كلين بارام

تخبر هذه القاعدة الزاحف أن عناوين URL التي تحتوي على معلمات محددة لا تحتاج إلى أن تتم فهرستها. تأخذ القاعدة وسيطتين: معلمة وعنوان URL للقسم. التوجيه مدعوم من قبل Yandex.

نظيفة بارام: author_id http://site.ru/articles/

Clean-param: author_id & sid http://site.ru/articles/

Clean-Param: utm_source & utm_medium & utm_campaign

معلمات أخرى

تحتوي مواصفات ملف robots.txt الموسعة أيضًا على معلمات معدل الطلب ووقت الزيارة. ومع ذلك ، لا يتم دعمها حاليًا بواسطة محركات البحث الرئيسية.

معنى التوجيهات:
معدل الطلب: 1/5 - لا يتم تحميل أكثر من صفحة واحدة في خمس ثوان
وقت الزيارة: 0600-0845 - تنزيل الصفحات فقط من الساعة 6 صباحًا حتى 8:45 صباحًا بتوقيت جرينتش.

إغلاق ملف robots.txt

إذا كنت بحاجة إلى التهيئة بحيث لا تتم فهرسة موقعك بواسطة روبوتات البحث ، فأنت بحاجة إلى تسجيل التوجيهات التالية:

وكيل المستخدم: *
عدم السماح: /

تأكد من كتابة هذه التوجيهات على مواقع الاختبار الخاصة بموقعك.

إعداد ملف robots.txt الصحيح

بالنسبة لروسيا ودول رابطة الدول المستقلة ، حيث تكون حصة Yandex كبيرة ، يجب كتابة التوجيهات لجميع الروبوتات وبشكل منفصل لـ Yandex و Google.

لإعداد ملف robots.txt بشكل صحيح ، استخدم الخوارزمية التالية:

أغلق لوحة إدارة الموقع من الفهرسة
أغلق حسابك الشخصي ، التفويض ، التسجيل من الفهرسة
أغلق سلة التسوق ونموذج الطلب والتسليم ومعلومات الطلب من الفهرسة
إغلاق من فهرسة البرامج النصية ajax، json
أغلق مجلد cgi من الفهرسة
أغلق المكونات الإضافية والسمات و js و css من الفهرسة لجميع الروبوتات باستثناء Yandex و Google
إغلاق وظيفة البحث من الفهرسة
إغلاق أقسام خدمة الفهرسة التي لا تحمل أي قيمة للموقع في البحث (الخطأ 404 ، قائمة المؤلفين)
إغلاق الصفحات التقنية المكررة من الفهرسة ، وكذلك الصفحات التي يتم فيها تكرار كل المحتوى بشكل أو بآخر من الصفحات الأخرى (التقويمات والمحفوظات و RSS)
إغلاق من فهرسة الصفحة بخيارات التصفية والفرز والمقارنة
أغلق الصفحة بمعلمات علامات UTM وجلسات الفهرسة
تحقق مما تمت فهرسته بواسطة Yandex و Google باستخدام معلمة "site:" (في مربع البحث ، اكتب "site: site.ru"). إذا كان البحث يحتوي على صفحات يجب أيضًا إغلاقها من الفهرسة ، فأضفها إلى ملف robots.txt
حدد ملف Sitemap والمضيف
إضافة تأخير الزحف و Clean-Param حسب الحاجة
تحقق من صحة ملف robots.txt باستخدام أدوات Google و Yandex (الموضحة أدناه)
بعد أسبوعين ، تحقق جيدًا مما إذا كانت هناك صفحات جديدة في نتائج البحث لا يجب فهرستها. كرر الخطوات المذكورة أعلاه إذا لزم الأمر.

مثال على ملف robots.txt

# مثال على ملف robots.txt لإعداد موقع افتراضي https://site.ru User-agent: * Disallow: / admin / Disallow: / plugins / Disallow: / search / Disallow: / cart / Disallow: * /؟ S = Disallow: * sort = Disallow: * view = Disallow: * utm = Crawl-Delay: 5 User-agent: GoogleBot Disallow: / admin / Disallow: / plugins / Disallow: / search / Disallow: / cart / Disallow: * / ؟ s = Disallow: * sort = Disallow: * view = Disallow: * utm = Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: / admin / Disallow: / plugins / Disallow: / search / Disallow: / cart / Disallow: * /؟ s = Disallow: * sort = Disallow: * view = Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif Clean-Param: utm_source & utm_medium & utm_campaign Crawl -التأجيل: 0.5 خريطة الموقع: https://site.ru/sitemap.xml المضيف: https://site.ru

كيفية الإضافة وأين يوجد ملف robots.txt

بعد إنشاء ملف robots.txt ، ستحتاج إلى وضعه على موقعك على site.ru/robots.txt - أي في الدليل الجذر. يصل الزاحف دائمًا إلى الملف على عنوان URL /robots.txt

كيفية التحقق من ملف robots.txt

يتم إجراء فحص Robots.txt على الروابط التالية:

في Yandex.Webmaster - في علامة التبويب أدوات> تحليل ملف Robots.txt
في جوجل Search Console- في علامة تبويب الزحف> مدقق ملفات Robots.txt

أخطاء robots.txt النموذجية

في نهاية المقالة ، سأقدم بعض الأخطاء النموذجية في ملف robots.txt.

ملف robots.txt مفقود
في ملف robots.txt ، يتم إغلاق الموقع من الفهرسة (Disallow: /)
يحتوي الملف على التعليمات الأساسية فقط ، ولا توجد دراسة تفصيلية للملف
لا يتم إغلاق الصفحات التي تحتوي على علامات UTM ومعرفات الجلسة من الفهرسة في الملف
يتم تحديد التوجيهات فقط في الملف
السماح: * .css
السماح: * .js
السماح: * .png
السماح: * .jpg
السماح: * .gif
بينما يتم إغلاق ملفات css و js و png و jpg و gif بواسطة توجيهات أخرى في عدد من الدلائل
يتم توضيح توجيه المضيف عدة مرات
لا يحدد المضيف بروتوكول https
تم تحديد المسار إلى ملف Sitemap بشكل غير صحيح ، أو تم تحديد بروتوكول أو نسخة متطابقة للموقع غير صحيحة

ملاحظة.

PS 2

فيديو مفيد من Yandex (انتبه! بعض التوصيات مناسبة فقط لـ Yandex).

يجعل ملف Sitemap فهرسة مدونتك أسهل بكثير. يجب أن تكون خريطة الموقع إلزامية لكل موقع ومدونة. ولكن يجب أيضًا أن يكون لكل موقع ويب أو مدونة ملف الروبوتات.رسالة قصيرة... يحتوي ملف robots.txt على مجموعة من الإرشادات الخاصة ببرامج الزحف. يمكنك أن تقول - قواعد سلوك روبوتات البحث على مدونتك. ويحتوي هذا الملف أيضًا على المسار إلى خريطة موقع مدونتك. وفي الواقع ، باستخدام ملف robots.txt تم تجميعه بشكل صحيح ، لا يضيع روبوت البحث وقتًا ثمينًا في البحث عن خريطة موقع وفهرسة الملفات غير الضرورية.

ما هو ملف robots.txt؟

ملف robots.txtهو ملف نصي يمكن إنشاؤه في "المفكرة" العادية الموجودة في جذر مدونتك ، وتحتوي على إرشادات لروبوتات البحث.

تمنع هذه التعليمات روبوتات البحث من الفهرسة العشوائية لجميع ملفات إلهك ، وتهدف إلى فهرسة تلك الصفحات التي يجب أن تدخل في نتائج البحث بالضبط.

باستخدام هذا الملف ، يمكنك تعطيل فهرسة الملفات بواسطة محرك WordPress. أو ، على سبيل المثال ، القسم السري في مدونتك. يمكنك تحديد المسار إلى خريطة مدونتك والمرآة الرئيسية لمدونتك. هنا أعني اسم المجال الخاص بك مع www وبدون www.

فهرسة الموقع مع وبدون ملف robots.txt

توضح لقطة الشاشة هذه بوضوح كيف أن ملف robots.txt يمنع فهرسة مجلدات معينة على الموقع. بدون ملف ، كل شيء على موقعك متاح للروبوت.

توجيهات robots.txt الأساسية

لفهم التعليمات الواردة في ملف robots.txt ، تحتاج إلى فهم الأوامر الأساسية (التوجيهات).

وكيل المستخدم- يشير هذا الأمر إلى وصول الروبوتات إلى موقعك. باستخدام هذا التوجيه ، يمكنك إنشاء تعليمات بشكل فردي لكل روبوت.

وكيل المستخدم: Yandex - قواعد لروبوت Yandex

وكيل المستخدم: * - قواعد لجميع الروبوتات

عدم السماح والسماح- تعليمات المنع والإذن. الفهرسة محظورة باستخدام التوجيه Disallow ، ويسمح بها مع Allow.

مثال على الحظر:

وكيل المستخدم: *

Disallow: / - حظر على الموقع بالكامل.

وكيل المستخدم: Yandex

Disallow: / admin - يحظر Yandex robot من الوصول إلى الصفحات الموجودة في مجلد المسؤول.

مثال على الإذن:

وكيل المستخدم: *

السماح: / الصورة

Disallow: / - حظر على الموقع بأكمله ، باستثناء الصفحات الموجودة في مجلد الصور.

ملحوظة! الأمر Disallow: بدون معلمة يسمح بكل شيء ، والتوجيه Allow: بدون معلمة يعطل كل شيء. ولا ينبغي أن يكون هناك أمر Allow بدون Disallow.

خريطة الموقع- يشير إلى المسار إلى خريطة الموقع بتنسيق xml.

خريطة الموقع: https: //site/sitemap.xml.gz

خريطة الموقع: https: //site/sitemap.xml

مضيف- يحدد التوجيه المرآة الرئيسية لمدونتك. يُعتقد أن هذا التوجيه مكتوب فقط لروبوتات Yandex. يجب تحديد هذا التوجيه في نهاية ملف robots.txt.

وكيل المستخدم: Yandex

Disallow: / wp-include

المضيف: الموقع

ملحوظة! يتم تحديد عنوان المرآة الرئيسية دون تحديد بروتوكول نقل النص التشعبي (http: //).

كيفية إنشاء ملف robots.txt

الآن بعد أن أصبحنا على دراية بالأوامر الأساسية لملف robots.txt ، يمكننا البدء في إنشاء ملفنا. من أجل إنشاء ملف robots.txt الخاص بك مع إعداداتك الفردية ، تحتاج إلى معرفة بنية مدونتك.

سننظر في إنشاء ملف robots.txt قياسي (عام) لمدونة WordPress. يمكنك دائمًا إضافة الإعدادات الخاصة بك إليه.

لذلك دعونا نبدأ. نحتاج إلى "مفكرة" عادية ، وهي موجودة في كل نظام تشغيل Windows. أو TextEdit على نظام MacOS.

افتح مستندًا جديدًا والصق هذه الأوامر فيه:

وكيل المستخدم: * Disallow: Sitemap: https: //site/sitemap.xml.gz خريطة الموقع: https: //site/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: / wp-register .php Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-include Disallow: /xmlrpc.php Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / theme Disallow: / wp-content / languages Disallow: / category / * / * Disallow: / trackback Disallow: * / trackback Disallow: * / * / trackback Disallow: / tag / Disallow: / feed / Disallow: * / * / feed / * / Disallow: * / feed Disallow: * / * / feed Disallow: /؟ Feed = Disallow: / *؟ * Disallow: /؟ S = Host: site

لا تنس استبدال معلمات ملف Sitemap وتوجيهات المضيف بمعلماتك الخاصة.

مهم! عند كتابة الأوامر ، يُسمح بمسافة واحدة فقط. بين التوجيه والمعلمة. لا تضع مسافات بعد المعلمة بأي حال من الأحوال أو في أي مكان.

مثال: عدم السماح:<пробел>/ يطعم /

يعد ملف robots.txt المثال هذا عالميًا ويناسب أي مدونة WordPress بها عناوين URL باستخدام الحاسب الآلي. اقرأ عن ماهية CNC. إذا لم تقم بتكوين CNC ، فإنني أوصي بحذف Disallow من الملف المقترح: / *؟ * Disallow: /؟ S =

تحميل ملف robots.txt على الخادم

أفضل طريقة للقيام بهذا النوع من التلاعب هي من خلال اتصال FTP. اقرأ كيفية إعداد اتصال FTP لـ TotolCommander. بدلاً من ذلك ، يمكنك استخدام مدير الملفات على استضافتك.

سأستخدم اتصال FTP على TotolCommander.

الشبكة> الاتصال بخادم FTP.

حدد الاتصال المطلوب وانقر فوق الزر "اتصال".

افتح جذر المدونة وانسخ ملف robots.txt بالضغط على F5.

جاري نسخ ملف robots.txt إلى الخادم

الآن سيقوم ملف robots.txt الخاص بك بأداء وظائفه المناسبة. لكني ما زلت أوصي بإجراء تحليل ملف robots.txt للتأكد من عدم وجود أخطاء.

للقيام بذلك ، تحتاج إلى تسجيل الدخول إلى حساب مشرف موقع Yandex أو Google. دعنا نلقي نظرة على Yandex. هنا يمكنك إجراء تحليل دون تأكيد حقوق الموقع. تحتاج فقط إلى صندوق بريد على Yandex.

نفتح حساب Yandex.webmaster.

في الصفحة الرئيسية لمكتب مشرف الموقع ، افتح الرابط "التحقق منالروبوتات.رسالة قصيرة ".

للتحليل ، ستحتاج إلى إدخال عنوان url لمدونتك والضغط على الزر " تحميل الروبوتات.TXT من الموقع". بمجرد تحميل الملف اضغط على الزر "التحقق من".

يشير غياب إدخالات التحذير إلى أن ملف robots.txt قد تم إنشاؤه بشكل صحيح.

سيتم عرض النتيجة أدناه. عندما يكون واضحًا ومفهومًا أي المواد يُسمح بعرضها لروبوتات البحث وأيها محظور.

نتيجة تحليل ملف robots.txt

يمكنك هنا أيضًا إجراء تغييرات على ملف robots.txt والتجربة حتى تحصل على النتيجة التي تريدها. لكن تذكر أن الملف الموجود في مدونتك لا يتغير. للقيام بذلك ، تحتاج إلى نسخ النتيجة التي تم الحصول عليها هنا في المفكرة وحفظها كملف robots.txt ونسخ المدونة إليك.

بالمناسبة ، إذا كنت تتساءل عن شكل ملف robots.txt في مدونة شخص ما ، فيمكنك التحقق منه بسهولة. للقيام بذلك ، تحتاج فقط إلى إضافة /robots.txt إلى عنوان الموقع

https: //site/robots.txt

الآن ملف robots.txt الخاص بك جاهز. وتذكر ، لا تؤجل إنشاء ملف robots.txt ، فستعتمد فهرسة مدونتك عليه.

إذا كنت ترغب في إنشاء ملف robots.txt الصحيح وتأكد في نفس الوقت من تضمين الصفحات الضرورية فقط في فهرس محركات البحث ، فيمكن القيام بذلك تلقائيًا باستخدام المكون الإضافي.

هذا كل شيء بالنسبة لي. وأتمنى لكم كل النجاح والتوفيق. إذا كان لديك أي أسئلة أو إضافات ، فاكتب في التعليقات.

اراك قريبا.

مع أطيب التحيات ، مكسيم زايتسيف.

اشترك في مقالات جديدة!

عند الترويج الذاتي لموقع ما والترويج له ، من المهم ليس فقط إنشاء محتوى فريد أو تحديد استعلامات في إحصاءات Yandex ، ولكن أيضًا إيلاء الاهتمام الواجب لمؤشر مثل فهرسة المورد بواسطة محركات البحث ، لأن النجاح الإضافي الكامل لـ الترويج يعتمد أيضا على هذا.

لدينا أداتان رئيسيتان تحت تصرفنا يمكننا من خلالهما إدارة هذه العملية. أولاً ، إنه ، بالطبع ، ملف robots.txt ، الذي سيساعدنا على منع فهرسة شيء لا يحتوي على المحتوى الرئيسي (ملفات المحرك والمحتوى المكرر) وستتم مناقشة هذه المقالة حول هذا الموضوع ، ولكن إلى جانب ذلك ، هناك أداة أخرى مهمة وهي خريطة الموقع (ملف Sitemap xml).

ما سبب أهمية إدارة فهرسة الموقع

الأدوات المذكورة أعلاه مهمة جدًا للتطوير الناجح لمشروعك وهذا ليس بيانًا لا أساس له على الإطلاق. في المقالة حول ملف Sitemap xml (انظر الرابط أعلاه) ، أشرت كمثال إلى نتائج بحث مهم للغاية حول الأخطاء التقنية الأكثر شيوعًا لمشرفي المواقع المبتدئين ، حيث توجد في المكانين الثاني والثالث (بعد المحتوى غير الفريد) مجرد عدم وجود ملفات الروبوت وملفات Sitemap هذه ، أو تجميعها واستخدامها بشكل غير صحيح.

من الضروري أن نفهم بوضوح أنه ليس كل محتوى مشروع الإنترنت (الملفات والأدلة) الذي تم إنشاؤه على أي محرك يجب أن يكون متاحًا لروبوتات محرك البحث.

إذا لم تحدد قواعد سلوك معينة في الروبوت لهذه الروبوتات ، فسيتضمن فهرس محركات البحث العديد من الصفحات التي لا تتعلق بالمحتوى المهم للمورد ، وقد يحدث أيضًا تكرار متعدد للمحتوى (نفس الشيء أو بقوة سيكون المحتوى المتداخل متاحًا على روابط مختلفة) لا تحبها محركات البحث.

قد يكون الحل الجيد هو حظر كل شيء غير ضروري في ملف robots.txt (يجب أن تكون جميع أحرف الاسم بأحرف صغيرة - بدون أحرف كبيرة).

بمساعدتها ، سنتمكن من التأثير على عملية فهرسة الموقع بواسطة Yandex و Google. إنه ملف نصي بسيط يمكنك إنشاؤه وتعديله في أي محرر نصوص (على سبيل المثال ، Notepad ++). سيبحث روبوت البحث عن هذا الملف في الدليل الجذر لموردك وإذا لم يعثر عليه ، فسوف يدفع كل ما يمكنه الوصول إليه في الفهرس.

لذلك ، بعد كتابة الروبوت المطلوب ، تحتاج إلى حفظه في المجلد الجذر ، على سبيل المثال ، باستخدام عميل Filezilla Ftp بحيث يكون متاحًا ، على سبيل المثال ، في هذا العنوان:

https: //site/robots.txt

بالمناسبة ، إذا كنت تريد أن تعرف كيف يبدو هذا الملف لهذا المشروع أو ذاك على الشبكة ، فسيكون ذلك كافيًا لإضافة النهاية /robots.txt إلى عنوان Url لصفحته الرئيسية. يمكن أن يكون هذا مفيدًا في فهم ما يجب أن يكون فيه.

ومع ذلك ، يجب ألا يغيب عن البال أن هذا الملف سيبدو مختلفًا بالنسبة لمحركات مختلفة (سيتم تسمية مجلدات المحرك التي يجب منعها من الفهرسة بشكل مختلف في CMS المختلفة). لذلك ، إذا كنت ترغب في اتخاذ قرار بشأن أفضل خيار للروبوت ، دعنا نقول لمنتدى حول SMF ، فأنت تحتاج فقط إلى دراسة المنتديات المبنية على هذا المحرك.

التوجيهات والقواعد الخاصة بكتابة ملف robots.txt (عدم السماح ، وكيل المستخدم ، المضيف)

تحتوي الروبوتات على بنية غير معقدة تمامًا ، موصوفة بتفصيل كبير ، على سبيل المثال ، في تعليمات Yandex. عادةً ما تحدد روبوت البحث المخصص للتعليمات الموضحة أدناه: اسم bot ("User-agent") ، والسماح بـ ("Allow") وعدم السماح ("Disallow") ، كما تستخدم أيضًا "Sitemap" بشكل نشط للإشارة إلى البحث المحركات ، حيث يوجد ملف الخريطة بالضبط.

من المفيد أيضًا الإشارة في هذا الملف إلى أي من مرايا مشروع الويب الخاص بك هو المرآة الرئيسية في توجيه "المضيف" الخاص ، والذي يفهمه Yandex فقط. حتى إذا لم يكن المصدر الخاص بك يحتوي على مرايا ، فسيكون من المفيد الإشارة إلى أي من خيارات التدقيق الإملائي هو الخيار الرئيسي - مع www أو بدونها. لان هذا أيضًا نوع من الانعكاس. لقد تحدثت عن هذا بالتفصيل في المقالة حول عمليات إعادة التوجيه 301 للنطاقات التي تحتوي على WWW وبدونها.

الآن دعنا نتحدث قليلاً عن بناء جملة هذا الملف. تبدو توجيهات Robots.txt على النحو التالي:

<поле>:<пробел><значение><пробел>

<поле>:<пробел><значение><пробел>
يجب أن تحتوي الشفرة الصحيحة على توجيه "Disallow" واحد على الأقل بعد كل إدخال "User-agent". يفترض الملف الفارغ الإذن بفهرسة الموقع بالكامل.

يجب أن يحتوي التوجيه "User-agent" على اسم روبوت البحث. باستخدامه ، يمكنك تكوين قواعد السلوك لكل محرك بحث محدد (على سبيل المثال ، إنشاء حظر على فهرسة مجلد معين لـ Yandex فقط). مثال على كتابة "User-agent" موجه إلى جميع الروبوتات التي أدخلت المورد الخاص بك يبدو كالتالي:

وكيل المستخدم: *
إذا كنت ترغب في تعيين شروط معينة في "وكيل المستخدم" لروبوت واحد فقط ، على سبيل المثال ، Yandex ، فأنت بحاجة إلى كتابة ما يلي:

وكيل المستخدم: Yandex
كل روبوت لمحرك البحث له اسمه الخاص (على سبيل المثال ، بالنسبة للمتسكع فهو StackRambler). هنا سأدرج أشهرها:

جوجل http://www.google.com Googlebot Yahoo! http://www.yahoo.com Slurp (أو Yahoo! Slurp) AOL http://www.aol.com Slurp MSN http://www.msn.com MSNBot Live http://www.live.com MSNBot Ask http://www.ask.com Teoma AltaVista http://www.altavista.com Scooter Alexa http://www.alexa.com ia_archiver Lycos http://www.lycos.com Lycos Yandex http: // www. ya.ru Yandex Rambler http://www.rambler.ru StackRambler Mail.ru http://mail.ru Mail.Ru Aport http://www.aport.ru Aport Vebalta http://www.webalta.ru WebAlta (WebAlta Crawler / 2.0)

تمتلك محركات البحث الكبيرة أحيانًا ، بالإضافة إلى برامج الروبوت الرئيسية ، نسخًا منفصلة لفهرسة المدونات والأخبار والصور وما إلى ذلك. يمكنك العثور على الكثير من المعلومات حول أنواع الروبوتات في هذا المورد.

سأقدم بعض الأمثلة البسيطة لاستخدام التوجيهات مع شرح لأفعالها.

1. يسمح الرمز أدناه لجميع برامج الروبوت بفهرسة كل المحتوى دون أي استثناءات. يتم تعيين هذا من خلال توجيه Disallow فارغ.

وكيل المستخدم: * عدم السماح:

2. على العكس من ذلك ، فإن الكود التالي يمنع تمامًا جميع محركات البحث من إضافة صفحات من هذا المورد إلى الفهرس. يعيّنه على Disallow with "/" في حقل القيمة.

وكيل المستخدم: * Disallow: /

3. في هذه الحالة ، سيتم منع جميع برامج الروبوت من عرض محتويات الدليل / image / (http://mysite.ru/image/ - المسار المطلق لهذا الدليل)

وكيل المستخدم: * Disallow: / image /

4. في المثال أدناه ، سيتم حظر دليل "image" ، وكذلك جميع الملفات والأدلة التي تبدأ بأحرف "image" ، أي الملفات: "image.htm" ، "images.htm" ، الدلائل: "image" ، "Images1" ، "image34" ، إلخ.):

وكيل المستخدم: * Disallow: / image

5. عند وصف المسارات لتعليمات Allow-Disallow ، يمكنك استخدام الأحرف "*" و "$" ، وبالتالي تحديد بعض التعبيرات المنطقية. يعني الرمز "*" أي تسلسل أحرف (بما في ذلك الفارغة). يحظر المثال التالي على كافة محركات البحث من فهرسة الملفات ذات الامتداد ".aspx":

وكيل المستخدم: * Disallow: * .aspx

لتجنب المشاكل غير السارة مع مرايا الموقع ، يوصى بإضافة توجيه المضيف إلى ملف robots.txt ، والذي يوجه برنامج Yandex bot إلى المرآة الرئيسية. وفقًا لقواعد الكتابة ، يجب أن يحتوي إدخال وكيل المستخدم على أمر Disallow واحد على الأقل (عادةً ما يكون فارغًا ، ولا يحظر أي شيء):

وكيل المستخدم: Yandex Disallow: Host: www.site.ru

وكيل المستخدم: Yandex Disallow: Host: site.ru

أيهما أفضل بالنسبة لك.

يشير توجيه ملف Sitemap إلى موقع ملف Sitemap (يُسمى عادةً Sitemap.xml ، ولكن ليس دائمًا). يتم تحديد المسار إلى هذا الملف كمعامل ، بما في ذلك http: // (أي عنوان url الخاص به). فمثلا:

خريطة الموقع: http://site.ru/sitemap.xml
علامة Meta Robots - تساعد في إغلاق المحتوى المكرر

هناك طريقة أخرى لتهيئة (تمكين أو تعطيل) فهرسة الصفحات الفردية لموقع الويب ، لكل من Yandex و Google. للقيام بذلك ، داخل علامة "HEAD" لصفحة الويب المطلوبة ، تتم إضافة علامة META Robots مع المعلمات الضرورية ، ويتكرر هذا لجميع المستندات التي يجب تطبيق قاعدة أو أخرى (حظر أو إذن) عليها. قد يبدو هكذا ، على سبيل المثال:

... ...

في هذه الحالة ، سيتعين على برامج الروبوت لجميع محركات البحث أن تنسى فهرسة صفحة الويب هذه (يشار إلى ذلك من خلال وجود علامة noindex في علامة التعريف هذه) وتحليل الروابط الموضوعة عليها (يشار إلى ذلك من خلال وجود nofollow - the bot ممنوع من تتبع الروابط التي يجدها في هذا المستند).

لا يوجد سوى زوجين من المعلمات لهذه العلامة الوصفية: الفهرس والمتابعة:

الفهرس - حدد ما إذا كان الروبوت يمكنه فهرسة هذه الوثيقة
متابعة - هل يمكنه متابعة الروابط الموجودة في هذا المستند
القيمتان الافتراضيتان هما "index" و "follow". هناك أيضًا تهجئة مختصرة باستخدام "الكل" و "لا شيء" ، مما يشير إلى أن كلا المعلمتين نشطتان ، أو العكس بالعكس: all = index ، follow و none = noindex ، nofollow.

بالنسبة إلى مدونة WordPress ، يمكنك تخصيص علامة تعريف Robots ، على سبيل المثال باستخدام مكون إضافي الكل في حزمة واحدة لتحسين محركات البحث... حسنًا ، هذا كل شيء ، لقد انتهت النظرية وحان الوقت للانتقال إلى الممارسة ، أي تجميع ملف robots.txt الأمثل لـ Joomla و SMF و WordPress.

كما تعلم ، فإن المشاريع التي تم إنشاؤها على أساس أي محرك (Joomla و WordPress و SMF وما إلى ذلك) تحتوي على العديد من العناصر المساعدة التي لا تحمل أي عبء إعلامي.

إذا كنت لا تحظر فهرسة كل هذه القمامة ، فسيتم قضاء الوقت الذي تخصصه محركات البحث لفهرسة موقعك في البحث في ملفات المحرك (من أجل البحث عن عنصر المعلومات فيها ، أي المحتوى).

لكن الحيلة هي أنه في معظم محتوى CMS لا يتم تخزينه في ملفات ، ولكن في قاعدة بيانات لا يمكن لروبوتات البحث الوصول إليها. بعد أن صعد فوق أشياء قمامة المحرك ، سينفد الروبوت من الوقت المخصص له ويترك غير مالح.

بالإضافة إلى ذلك ، يجب أن تسعى جاهدة من أجل تفرد المحتوى في مشروعك ويجب ألا تسمح بالنسخ الكامل أو الجزئي للمحتوى (محتوى المعلومات). يمكن أن يحدث الازدواج في حالة توفر نفس المادة في عناوين مختلفة (عناوين URL).

سيجد كل من Yandex و Google ، أثناء إجراء الفهرسة ، نسخًا مكررة ، وربما يتخذان إجراءات لتقليل مواردك إلى حد ما إذا كان هناك عدد كبير منها (كما أنهما لا يريدان البحث عن الحبوب في كومة من السماد الطبيعي).

إذا تم إنشاء مشروعك على أساس أي محرك ، فسيتم تكرار المحتوى باحتمالية عالية ، مما يعني أنك بحاجة إلى محاربته ، بما في ذلك استخدام حظر في ملف robots.txt، وخاصة في العلامة الوصفية ، لأنه في الحالة الأولى ، يمكن لـ Google تجاهل الحظر ، لكنه لا يستطيع أن يهتم بالعلامة الوصفية (هذه هي الطريقة التي نشأ بها).

على سبيل المثال ، في ووردبريسيمكن فهرسة الصفحات ذات المحتوى المتشابه جدًا عن طريق البحث إذا تم تمكين فهرسة محتوى الفئة ومحتوى أرشيف العلامة ومحتوى الأرشيف المؤقت.

ولكن إذا قمت ، باستخدام العلامة الوصفية الموضحة أعلاه ، بإنشاء حظر لأرشيف العلامات والأرشيف المؤقت (يمكنك ترك العلامات ، ولكن تحظر فهرسة محتوى الفئات) ، فلن يكون هناك تكرار للمحتوى. لهذا الغرض ، في WordPress ، سيكون من الأفضل استخدام إمكانيات المكون الإضافي All in One SEO Pack ، للحصول على رابط لوصف الذي يبدو أعلى قليلاً في النص.

يعد الموقف مع المحتوى المكرر أكثر صعوبة في محرك منتدى SMF. إذا لم تقم بإجراء ضبط دقيق (حظر) من خلال الروبوتات ، فسيتم العثور على نسخ مكررة متعددة من نفس المنشورات في البحث. بالمناسبة ، في جملة أيضًا ، توجد أحيانًا مشكلة في نسخ المستندات العادية ونسخها المعدة للطباعة.

للتلخيص ، سأقول أن ملف الروبوتات مصمم لوضع قواعد عالمية لرفض الوصول إلى أدلة الموقع بالكامل ، أو الملفات والمجلدات التي يوجد باسمها أحرف محددة (بواسطة القناع). يمكنك أن ترى أمثلة على وضع مثل هذه المحظورات أعلاه.

لحظر فهرسة صفحة واحدة ، من الملائم استخدام العلامة الوصفية التي تحمل الاسم نفسه ، والتي تتم كتابتها في العنوان (بين علامات HEAD) للمستند المطلوب. للحصول على تفاصيل حول بنية العلامة الوصفية ، انظر أعلى قليلاً في النص.

قم بتصحيح ملف robots.txt لـ Joomla و WordPress و SMF

الآن دعونا نلقي نظرة على أمثلة محددة من الروبوت المصمم لمحركات مختلفة - Joomla و WordPress و SMF. بطبيعة الحال ، ستختلف الخيارات الثلاثة التي تم إنشاؤها لأنظمة إدارة المحتوى المختلفة اختلافًا كبيرًا (إن لم يكن جذريًا) عن بعضها البعض. صحيح ، سيشتركون جميعًا في شيء واحد ، وهذه اللحظة مرتبطة بمحرك بحث Yandex.

لان في Runet Yandex له وزن كبير إلى حد ما ، فأنت بحاجة إلى مراعاة جميع الفروق الدقيقة في عمله ، وهنا سيساعدنا توجيه المضيف. سيوجه محرك البحث هذا صراحة إلى المرآة الرئيسية لموقعك.

بالنسبة لها ، يُنصح باستخدام مدونة User-agent منفصلة ، مخصصة فقط لـ Yandex (User-agent: Yandex). ويرجع ذلك إلى حقيقة أن محركات البحث الأخرى قد لا تفهم المضيف ، وبالتالي فإن تضمينه في سجل وكيل المستخدم المخصص لجميع محركات البحث (User-agent: *) يمكن أن يؤدي إلى عواقب سلبية وفهرسة غير صحيحة.

من الصعب تحديد كيف تسير الأمور حقًا ، لأن خوارزميات البحث هي شيء بحد ذاتها ، لذلك من الأفضل أن تفعل ما يُنصح به. ولكن في هذه الحالة ، سيتعين عليك تكرار جميع القواعد التي حددناها User-agent: * في User-agent: Yandex Directive. إذا تركت User-agent: Yandex مع Disallow فارغ: ، فبهذه الطريقة ستسمح لـ Yandex بالذهاب إلى أي مكان وسحب كل شيء إلى الفهرس.

قبل الشروع في التفكير في خيارات معينة ، أود أن أذكرك أنه يمكنك التحقق من عمل ملف robots.txt الخاص بك في Yandex Webmaster و Google Webmaster. هناك يمكنك تحديد عناوين URL محددة لموردك ومعرفة (تحقق) ما إذا كان محرك البحث هذا سيضيفها إلى فهرسها أو ما إذا كان هذا الإجراء قد تم حظره بنجاح من جانبك في ملف المعجزة.

إعداد ملف robots.txt بشكل صحيح لمنتدى SMF

بالنسبة إلى منتدى حول محرك SMF ، سيكون الملف الصحيح هو التالي (مأخوذ من منتدى الدعم الفني من هذا الموضوع):

وكيل المستخدم: * Allow: / forum / * sitemap Allow: / forum / * arcade Allow: / forum / * rss Disallow: / forum / attachments / Disallow: / forum / avatars / Disallow: / forum / Packages / Disallow: / المنتدى / الوجوه الضاحكة / عدم السماح: / forum / Sources / Disallow: / forum / Themes / Disallow: / forum / Games / Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: / forum / * sort Disallow: / forum / * topicseen Disallow: / forum / * wap Disallow: / forum / * imode Disallow: / forum / * action User-agent: Slurp Crawl-delay: 100

يرجى ملاحظة أن هذا الخيار يتم توفيره عند تثبيت منتدى SMF الخاص بك في دليل المنتدى الخاص بالموقع الرئيسي. إذا لم يكن المنتدى موجودًا في الدليل ، فما عليك سوى إزالة / forum من جميع القواعد.

يمكن تنشيط أو إلغاء تنشيط عناوين URL الودية في SMF في لوحة إدارة المنتدى باتباع المسار التالي: في العمود الأيسر من لوحة الإدارة ، حدد العنصر "الخصائص والإعدادات" ، أسفل النافذة التي تفتح ، ابحث عن العنصر "السماح بعناوين URL المألوفة" ، حيث يمكنك تحديد المربع أو إلغاء تحديده.

هناك إصدار آخر من ملف robots.txt لـ SMF (ولكن ربما لم يتم اختباره بالكامل بعد):

User-agent: * Allow: / forum / * sitemap Allow: / forum / * arcade # إذا لم يكن هناك تعديل للعبة ، احذف دون تخطي السطر Allow: / forum / * rss Allow: / forum / * type = rss Disallow: / forum / attachments / Disallow: / forum / avatars / Disallow: / forum / Packages / Disallow: / forum / Smileys / Disallow: / forum / Sources / Disallow: / forum / Themes / Disallow: / forum / Games / Disallow: / forum / * .msg Disallow: /forum/*.new Disallow: / forum / * sort Disallow: / forum / * topicseen Disallow: / forum / * wap Disallow: / forum / * imode Disallow: / forum / * action Disallow: / forum / * prev_next Disallow: / forum / * all Disallow: /forum/*go.php # أو إعادة التوجيه التي تمتلكها المضيف: www.my site.ru # حدد وكيل المستخدم المرئي الرئيسي: Slurp Crawl-delay: 100

كما ترى في هذا الملف ، تم تضمين توجيه Yandex-only Host في User-agent لجميع محركات البحث. ربما ما زلت سأضيف توجيهًا منفصلاً لـ User-agent فقط لـ Yandex ، مكررًا جميع القواعد. لكن تقرر بنفسك.

وكيل المستخدم: Slurp craw-delay: 100

نظرًا لحقيقة أن محرك بحث Yahoo (Slurp هو اسم روبوت البحث الخاص به) يقوم بمسح الخادم في العديد من سلاسل الرسائل ، مما قد يؤثر سلبًا على أدائه.

في هذه القاعدة ، يسمح لك التوجيه الخاص بتأخير الزحف بإخبار برنامج Yahoo bot بالحد الأدنى للفترة الزمنية (بالثواني) بين نهاية تنزيل أحد المستندات وبدء تنزيل المستند التالي. سيؤدي هذا إلى رفع الحمل عن الخادم.

في ملف Sources / Printpage.php ، ابحث عن السطر (على سبيل المثال ، باستخدام البحث المدمج في Notepad ++):

fatal_lang_error (472 ، خطأ) ؛
أدخل مباشرة تحته:

سياق $ ["robot_no_index"] = صحيح ؛
في الملف Themes / name_your_theme_type / Printpage.template.php ، ابحث عن السطر:

أدخل السطر التالي أدناه:

إذا كنت تريد أيضًا أن يكون للنسخة المطبوعة رابطًا للانتقال إلى النسخة الكاملة للمنتدى (في حالة فهرسة بعض الصفحات المطبوعة بالفعل في Yandex و Google) ، فعندئذٍ في نفس الصفحة Printpage.template.php ستفعل ذلك. ابحث عن سطر بعلامة الفتح HEAD:

والصق السطر أدناه:

الى المنتدى

يمكنك الحصول على مزيد من المعلومات حول هذا البديل لملف robots.txt من خلال قراءة هذا الموضوع الخاص بمنتدى دعم اللغة الروسية.

قم بتصحيح ملف robots.txt لجملة

وكيل المستخدم: * Disallow: / administrator / Disallow: / cache / Disallow: / component / Disallow: / images / Disallow: / include / Disallow: / Installation / Disallow: / language / Disallow: / libraries / Disallow: / media / Disallow: / modules / Disallow: / plugins / Disallow: / قوالب / Disallow: / tmp / Disallow: / xmlrpc /

من حيث المبدأ ، يتم أخذ كل شيء تقريبًا في الاعتبار هنا ويعمل بشكل جيد. الشيء الوحيد هو إضافة User-agent منفصل: قاعدة Yandex إليه لإدراج توجيه المضيف الذي يحدد النسخة المتطابقة الرئيسية لـ Yandex ، وكذلك تحديد المسار إلى ملف Sitemap.

لذلك ، في الشكل النهائي ، يجب أن تبدو الروبوتات الصحيحة لـ Joomla ، في رأيي ، كما يلي:

وكيل المستخدم: * Disallow: / administrator / Disallow: / cache / Disallow: / include / Disallow: / Installation / Disallow: / language / Disallow: / libraries / Disallow: / media / Disallow: / modules / Disallow: / plugins / Disallow: / قوالب / Disallow: / tmp / Disallow: / xmlrpc / User-agent: Yandex Disallow: / Administrator / Disallow: / cache / Disallow: / include / Disallow: / Installation / Disallow: / language / Disallow: / libraries / Disallow: / media / Disallow: / modules / Disallow: / plugins / Disallow: / قوالب / Disallow: / tmp / Disallow: / xmlrpc / Host: vash_sait.ru خريطة الموقع: http://vash_sait.ru/index.php؟option = com_xmap & sitemap = 1 & view = xml & no_html = 1

نعم ، لاحظ أيضًا أن الخيار الثاني لا يحتوي على Disallow: / images / Directive ، والذي يحظر فهرسة صور موقعك. لقد نسيت أن ألفت انتباهك إلى هذا في البداية ، لكن عزيزي أليكس ذكرني بذلك.

أتفق معه تمامًا في أنه إذا كانت الصور فريدة وتريد أن يجد الزوار مصدرك أيضًا من البحث عن صور من Yandex و Google ، فتأكد من إزالة هذه القاعدة من ملفك ، ولكن لا تنس أيضًا وصف سمات لـ كل ما تبذلونه من الصور Alt و Title to Img tag.

عند إنشاء متجر على الإنترنت لـ Joomla استنادًا إلى مكون VirtueMart ، صادفت حقيقة أن فهارس محرك البحث بدأت في الحصول على إصدارات لطباعة صفحات هذا المتجر بالذات. كان الزر المؤدي إلى الصفحة للطباعة ضروريًا (أراد العميل ذلك) ، لذلك لم يكن هناك سوى خيار واحد مع حظره في ملف robots.txt.

لكن تبين أن كل شيء لم يكن صعبًا على الإطلاق. الحقيقة هي أنه لإنشاء نسخة للطباعة في جملة ، يتم استخدام نفس عنوان URL لصفحة الويب ، باستثناء واحد: لا يذهب الاستدعاء إلى index.php ، ولكن إلى index2.php. هذا لا يتم تحميل القالب ، أي يتم عرض المحتوى فقط في وضع ملء الشاشة.

لذلك ، لحظر النسخ للطباعة في VirtueMart ، أضفت القاعدة التالية:

Disallow: /index2.php؟page=shop

ملف Robots.txt لبرنامج WordPress

لن أعطي مثالاً لملف أوصى به المطورون. يمكنك مشاهدته بنفسك. لا يقيد العديد من المدونين روبوتات Yandex و Google على الإطلاق في جولاتهم من خلال محتوى محرك WordPress. غالبًا ما تجد في المدونات روبوتات يتم ملؤها تلقائيًا بواسطة المكون الإضافي Google XML Sitemaps.

لكن ، في رأيي ، على الرغم من ذلك ، من الضروري المساعدة في البحث في المهمة الصعبة المتمثلة في غربلة الحبوب من القشر. أولاً ، سيستغرق الأمر من Yandex و Google bots الكثير من الوقت لفهرسة هذه القمامة ، وقد لا يكون هناك وقت على الإطلاق لإضافة صفحات ويب بمقالاتك الجديدة إلى الفهرس. ثانيًا ، ستؤدي برامج الروبوت التي تزحف عبر الملفات غير المرغوب فيها إلى إنشاء حمل إضافي على خادم مضيفك ، وهو أمر غير جيد.

لذلك ، سأقدم هنا نسختي ، والأمر متروك لك لتقرر ما إذا كنت ستستخدمها في هذا النموذج ، أو تصححها لتناسب احتياجاتك:

وكيل المستخدم: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: / webstat / Disallow: / feed / Disallow: / tag / Disallow: / trackback Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / *؟ * Disallow: / *؟ Disallow: / wp-content / plugins Disallow: / wp-content / theme Disallow: / wp-admin / Disallow: / wp-include / Disallow: / comments User-agent: Yandex Disallow: /wp-login.php Disallow: / wp-register.php Disallow: / webstat / Disallow: / feed / Disallow: / tag / Disallow: / trackback Disallow: * / trackback Disallow: * / feed Disallow: * / comments Disallow: / *؟ * Disallow: / *؟ .com / sitemap.xml ( 4 تصويت ، مما أدى إلى: 5,00 من 5)

إرشادات مفصلة حول كيفية إنشاء ملف robots.txt لأحد المواقع. يعد ملف robots.txt أحد أهم الجوانب الأساسية في موقع ويب تحسين محرك البحث الكامل. مع مراعاة شروط الاستخدام الصحيح لهذا الملف ، يمكنك تحقيق تأثير إيجابي معين على الموقع. يمكن تحديد مجموعة متنوعة من التعليمات لمعظم PS. والتي تشير لروبوت البحث إلى القيود أو الأذونات اللازمة للزحف إلى صفحات أو كتالوجات أو أقسام من الموقع.

محتوى المقال:

ملف Robots.txt - التعريف الأساسي

يحتوي ملف robots.txt على معايير معينة لاستثناءات وكلاء البحث (برامج الروبوت) ، والتي تم اعتمادها في يناير 1944. يتم اتباع قواعد هذا الملف طوعًا بواسطة PS الأكثر شيوعًا. يمكن أن يتكون الملف من قاعدة واحدة أو عدة قواعد ، كل منها تحظر أو تسمح لروبوت البحث بالوصول إلى مسارات معينة على الموقع.

بشكل افتراضي ، هذا الملف غير موجود على الموقع - مما يمنح كل PS الإذن الكامل لفهرسة محتوى الموقع بالكامل. يمكن أن يؤدي هذا الإذن إلى الدخول في فهرس محركات البحث للصفحات الفنية المهمة للموقع ، والتي لا ينبغي أن تكون موجودة.

ما المقصود بملف robots.txt على الموقع - تأثيره على الترويج لمحرك البحث

يعتبر ملف robots.txt هو العامل الأكثر أهمية في تحسين محرك بحث الموقع. بفضل مجموعة القواعد المكتوبة جيدًا لروبوتات البحث ، يمكنك تحقيق زيادة معينة في ترتيب الموقع في البحث. ماذا تقدم هذه التعليمات:

مغلق لفهرسة صفحات وأقسام وأدلة موقع معينة.
استبعاد الصفحات التي لا تحتوي على محتوى مفيد.
استبعاد الصفحات المكررة ، إلخ.

بالنسبة لمعظم المواقع ، فإن قيود الفهرسة هذه ضرورية ببساطة ؛ أما بالنسبة للمواقع الصغيرة ذات الصفحة الكاملة ، فهي اختيارية. ومع ذلك ، يجب إضافة بعض التوجيهات إلى كل موقع. على سبيل المثال ، حظر الفهرسة:

صفحات التسجيل ، تسجيل الدخول إلى لوحة الإدارة ، استعادة كلمة المرور.
كتالوجات فنية.
آر إس إس - يغذي الموقع.
Replytocom وأكثر.

كيفية إنشاء ملف Robors.txt الصحيح بنفسك

حتى المبتدئين لن يواجهوا صعوبة في إنشاء ملف Robots.txt. يكفي اتباع تسلسل معين من الإجراءات:

Robots.txt هو مستند نصي ويتم إنشاؤه باستخدام أي محرر نصوص متاح.
يجب أن يكون امتداد الملف مطلوبًا .txt.
الاسم مطلوب الروبوتات.
في موقع واحد ، يُسمح فقط بملف واحد من هذا القبيل.
توضع فقط في الدليل الجذر للموقع.

تحتاج إلى استخدام محرر نصوص عادي (المفكرة كبديل). قم بإنشاء مستند .txt باسم الروبوتات. ثم نقوم بحفظ ونقل هذا المستند باستخدام عميل FTP إلى الدليل الجذر للموقع. هذه هي الخطوات الأساسية التي يجب اتخاذها.

إنشاء ملف robots.txt باستخدام الخدمات عبر الإنترنت

هذه الطريقة هي الأسهل والأسرع ، وهي مناسبة لأولئك الذين يخشون إنشاء ملف Robots.txt بمفردهم أو هم كسالى فقط. هناك الكثير من الخدمات التي تقدم إنشاء هذا الملف. لكن الأمر يستحق النظر في بعض الفروق الدقيقة المتعلقة بهذه الطريقة. على سبيل المثال:

من الضروري أن تأخذ في الاعتبار مسبقًا ما تريد حظره أو السماح للوكيل.
من الضروري التحقق من الملف النهائي قبل تحميله على الموقع.
كن حذرًا ، لأن ملف Robots.txt على الإنترنت الذي تم إنشاؤه بشكل غير صحيح سيؤدي إلى موقف مؤسف. وبالتالي ، يمكن للصفحات الفنية وغيرها من صفحات الموقع ، والتي لا ينبغي أن تكون موجودة مسبقًا ، الدخول في البحث.

ومع ذلك ، من الأفضل قضاء الوقت والجهد لإنشاء روبوت مخصص صحيح. وبالتالي ، يمكنك إعادة إنشاء هيكل قائم على أسس جيدة من المحظورات والأذونات المناسبة لموقعك.

تحرير وتصحيح بناء الجملة لملف Robots.txt

بعد إنشاء ملف robots.txt بنجاح ، يمكنك بسهولة تعديله وتعديله كما يحلو لك. في هذه الحالة ، يجب أن تأخذ في الاعتبار بعض القواعد والصياغة المختصة. بعد مرور بعض الوقت ، ستقوم بتغيير هذا الملف بشكل متكرر. لكن لا تنسى ، بعد عمل التحرير ، سوف تحتاج إلى تحميل هذا الملف على الموقع. وبالتالي ، يتم تحديث محتواه لروبوتات البحث.

من السهل جدًا كتابة ملف robots.txt ، والسبب في ذلك هو بنية هذا الملف البسيطة نوعًا ما. الشيء الرئيسي عند كتابة القواعد هو استخدام بناء جملة محدد بدقة. يتم اتباع هذه القواعد طواعية من قبل جميع قواعد السلوك الرئيسية تقريبًا. فيما يلي قائمة ببعض القواعد لتجنب معظم الأخطاء في ملف Robots.txt:

يجب ألا يحتوي سطر واحد على أكثر من توجيه واحد محدد.
تبدأ كل قاعدة بسطر جديد.
المساحة الموجودة في بداية السطر مستبعدة.
التعليقات مسموح بها بعد الرمز #.
سيتم اعتبار الروبوتات الفارغة بمثابة إذن فهرسة كامل.
اسم هذا الملف ممكن فقط في تنسيق "robots" صالح.
يجب ألا يتجاوز حجم الملف 32 كيلو بايت.
يُسمح بقاعدة واحدة فقط في التوجيهين Allow و Disallow. قيمة فارغة بعد Allow: أو Disallow: تساوي الدقة الكاملة.
يجب كتابة جميع القواعد بأحرف صغيرة.
يجب أن يكون الملف متاحًا دائمًا.
يشير السطر الفارغ بعد القواعد المحددة إلى النهاية الكاملة لقواعد توجيه وكيل المستخدم.
يُنصح بتحديد القواعد لكل PS على حدة.
إذا كانت القاعدة عبارة عن دليل موقع ، فتأكد من وضع شرطة مائلة (/) قبل بدايتها.
يجب ألا تكون هناك علامات اقتباس في سطر أو في قاعدة.
من الضروري ألا تأخذ في الاعتبار الهيكل الصارم للقواعد المطابقة لموقعك بعد الآن.
يجب أن يكون ملف robots.txt في أضيق الحدود وأن يعرض بوضوح المعنى المنقول.

تكوين مختص لملف Robots.txt - كتابة الأمر بشكل صحيح

للحصول على نتيجة إيجابية عند استخدام الروبوتات ، تحتاج إلى إعدادها بشكل صحيح. جميع الأوامر الرئيسية لهذا الملف مع الإرشادات يتبعها أكبر محركات البحث Google و Yandex. قد تتجاهل PSs الأخرى بعض التعليمات. كيف تجعل ملف robots.txt الأكثر استجابة لمعظم محركات البحث؟ هنا تحتاج إلى فهم القواعد الأساسية للعمل مع هذا الملف والتي تم ذكرها أعلاه.
لنفكر في الأوامر الرئيسية:

وكيل المستخدم: *- ستنطبق التعليمات على جميع برامج الروبوت على الإطلاق. من الممكن أيضًا تحديد محركات بحث معينة بشكل منفصل ، على سبيل المثال: User-Agent: GoogleBot و User-Agent: YandexBot. وبالتالي ، تم تحديد قواعد PS المهمة بشكل صحيح.

عدم السماح:- يحظر تمامًا الزحف والفهرسة (صفحة أو دليل أو ملفات).

السماح:- يسمح بالكامل بالزحف والفهرسة (صفحة أو دليل أو ملفات).

كلين بارام:- مطلوب لاستبعاد صفحات موقع ذات محتوى ديناميكي. بفضل هذه القاعدة ، يمكنك التخلص من المحتوى المكرر على الموقع.

تأخير الزحف:- تحدد القاعدة الفاصل الزمني لـ p-bots لتنزيل المستندات من الموقع. يسمح بتقليل الحمل على الخادم بشكل كبير. على سبيل المثال: "Crawl-delay: 5" - سيخبر p-robot أن تنزيل المستندات من الموقع ليس ممكنًا أكثر من مرة واحدة كل 5 ثوانٍ.

المضيف: your_site.ru- مسئول عن المرآة الرئيسية للموقع. في هذا التوجيه ، من الضروري تسجيل إصدار الأولوية للموقع.

خريطة الموقع: http: //your_site.ru/sitemap.xml- كما قد تكون خمنت ، يخبر هذا التوجيه p-bot عن وجود ملف Sitemap على الموقع.

# - يسمح لك بترك التعليقات. يمكنك التعليق فقط بعد علامة التجزئة. يمكن وضعه إما على سطر جديد أو كاستمرار للتوجيه. سيتم تجاهل كل هذه الخيارات من قبل الروبوتات عند المرور عبر التعليمات.

أمثلة على ملف Robots.txs لجميع أنظمة إدارة المحتوى الرئيسية (CMS)

لنسخ التعليمات ، تحتاج إلى النقر فوق الزر مع تلميح.

ووردبريس (WP)

وكيل المستخدم: *

السماح: / wp-content / uploads /

عدم السماح: /wp-login.php

عدم السماح: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: / wp-admin

Disallow: / wp-include

Disallow: / wp-content

Disallow: / category

Disallow: / أرشيف

Disallow: * / تعقيب /

عدم السماح: * / تغذية /

Disallow: * / comments /

عدم السماح: /؟ تغذية =

المضيف: site.ru
»

HostCMS

وكيل المستخدم: *

عدم السماح: captcha.php

Disallow: download_file.php

المضيف: site.ru
خريطة الموقع: http://site.ru/sitemap.xml

جملة

وكيل المستخدم: *

Disallow: / المسؤول /

Disallow: / cache /

Disallow: / المكونات /

Disallow: / images /

عدم السماح: / يشمل /

Disallow: / التثبيت /

Disallow: / language /

Disallow: / مكتبات /

Disallow: / media /

Disallow: / وحدات /

Disallow: / المكونات الإضافية /

Disallow: / قوالب /

Disallow: / xmlrpc /

المضيف: site.ru
خريطة الموقع: http://site.ru/sitemap.xml

جملة 3

وكيل المستخدم: *

Disallow: / المسؤول /

Disallow: / cache /

عدم السماح: / يشمل /

Disallow: / التثبيت /

Disallow: / language /

Disallow: / مكتبات /

Disallow: / media /

Disallow: / وحدات /

Disallow: / المكونات الإضافية /

Disallow: / قوالب /

Disallow: / xmlrpc /

مودكس ايفو

وكيل المستخدم: *

Disallow: / الأصول / ذاكرة التخزين المؤقت /

Disallow: / الأصول / المستندات /

Disallow: / الأصول / التصدير /

Disallow: / الأصول / الاستيراد /

Disallow: / الأصول / الوحدات /

Disallow: / الأصول / المكونات الإضافية /

Disallow: / الأصول / المقتطفات /

Disallow: / تثبيت /

Disallow: / manager /

Disallow: /index.php

المضيف: vash_sait.ru (أو www.vash_sait.ru)
خريطة الموقع: http: // المسار إلى خريطة XML الخاصة بك

نت كات

وكيل المستخدم: *

Disallow: / تثبيت /

Disallow: / links /

Disallow: / netcat /

Disallow: / netcat_files /

عدم السماح: /*.swf

المضيف: vash_sait.ru (أو www.vash_sait.ru)
خريطة الموقع: http: // المسار إلى خريطة XML الخاصة بك

مودكس

وكيل المستخدم: *

Disallow: / الأصول / ذاكرة التخزين المؤقت /

Disallow: / الأصول / المستندات /

Disallow: / الأصول / التصدير /

Disallow: / الأصول / الاستيراد /

Disallow: / الأصول / الوحدات /

Disallow: / الأصول / المكونات الإضافية /

Disallow: / الأصول / المقتطفات /

Disallow: / تثبيت /

Disallow: / manager /

المضيف: site.ru
خريطة الموقع: http://site.ru/sitemap.xml

OpenCart

وكيل المستخدم: *

عدم السماح: / * المسار = الحساب /

عدم السماح: / * المسار = شركة تابعة /

عدم السماح: / * المسار = الخروج /

عدم السماح: / * المسار = المنتج / البحث

Disallow: /index.php؟route=product/product*&manufacturer_id=

Disallow: / admin

Disallow: / الكتالوج

Disallow: / download

Disallow: / export

Disallow: / النظام

Disallow: / *؟ Sort =

عدم السماح: / * & فرز =

Disallow: / *؟ Order =

عدم السماح: / * الطلب =

Disallow: / *؟ Limit =

عدم السماح: / * & Limit =

Disallow: / *؟ Filter_name =

Disallow: / * & filter_name =

Disallow: / *؟ Filter_sub_category =

Disallow: / * & filter_sub_category =

Disallow: / *؟ Filter_description =

عدم السماح: / * & filter_description =

Disallow: / *؟ Tracking =

Disallow: / * & tracking =

Disallow: / *؟ Page =

Disallow: / * & page =

Disallow: / wishlist

Disallow: / تسجيل الدخول

Disallow: /index.php؟route=product/manufacturer

Disallow: /index.php؟route=product/compare

Disallow: /index.php؟route=product/category

المضيف: vash_sait.ru (أو www.vash_sait.ru)

UMI

وكيل المستخدم: *

Disallow: / emarket / addToCompare

Disallow: / emarket / سلة

عدم السماح: /go_out.php

Disallow: / الصور

عدم السماح: / images / lizing

عدم السماح: / images / ntc

Disallow: / files

Disallow: / المستخدمين

Disallow: / admin

Disallow: / بحث

Disallow: / install-temp

Disallow: / install-static

Disallow: / install-libs

المضيف: vash_sait.ru (أو www.vash_sait.ru)
خريطة الموقع: http: // المسار إلى خريطة XML الخاصة بك

أميرو

وكيل المستخدم: *

Disallow: / admin

عدم السماح: / _admin /

Disallow: / members

Disallow: / بحث

Disallow: / الاشتراك

Disallow: / المستخدمين

عدم السماح: / * الإزاحة = 0

عدم السماح: / * forum_ext =

عدم السماح: / * _ print_version =

عدم السماح: / * الإجراء = export_rss

عدم السماح: / * الإجراء = البحث

Disallow: / * action = view_posts

عدم السماح: / * display_form =

المضيف: site.ru
خريطة الموقع: http://site.ru/sitemap.xm

بيتريكس

وكيل المستخدم: *

Disallow: /*index.php$

Disallow: / bitrix /

Disallow: / auth /

Disallow: / شخصي /

Disallow: / تحميل /

Disallow: / بحث /

عدم السماح: / * / بحث /

Disallow: / * / slide_show /

عدم السماح: / * / معرض / * الطلب = *

Disallow: / *؟ Print =

عدم السماح: / * & print =

عدم السماح: / * تسجيل =

عدم السماح: / * نسيت كلمة المرور =

عدم السماح: / * change_password =

عدم السماح: / * تسجيل الدخول =

عدم السماح: / * تسجيل الخروج =

عدم السماح: / * المصادقة =

Disallow: / *؟ Action =

عدم السماح: / * الإجراء = ADD_TO_COMPARE_LIST

عدم السماح: / * الإجراء = DELETE_FROM_COMPARE_LIST

عدم السماح: / * الإجراء = ADD2BASKET

عدم السماح: / * الإجراء = الشراء

عدم السماح: / * bitrix _ * =

عدم السماح: / * backurl = *

عدم السماح: / * BACKURL = *

عدم السماح: / * back_url = *

عدم السماح: / * BACK_URL = *

عدم السماح: / * back_url_admin = *

عدم السماح: / * print_course = Y

عدم السماح: / * COURSE_ID =

عدم السماح: / *؟ COURSE_ID =

Disallow: / *؟ PAGEN

عدم السماح: / * PAGEN_1 =

عدم السماح: / * PAGEN_2 =

عدم السماح: / * PAGEN_3 =

عدم السماح: / * PAGEN_4 =

عدم السماح: / * PAGEN_5 =

عدم السماح: / * PAGEN_6 =

عدم السماح: / * PAGEN_7 =

عدم السماح: / * PAGE_NAME = بحث

عدم السماح: / * PAGE_NAME = user_post

عدم السماح: / * PAGE_NAME = عرض التفاصيل

عدم السماح: / * إظهار

عدم السماح: / * show_all =

المضيف: vash_sait.ru (أو www.vash_sait.ru)
خريطة الموقع: http: // المسار إلى خريطة XML الخاصة بك

دروبال

وكيل المستخدم: *

Disallow: / قاعدة البيانات /

عدم السماح: / يشمل /

Disallow: / متفرقات /

Disallow: / وحدات /

Disallow: / sites /

Disallow: / الموضوعات /

Disallow: / scripts /

Disallow: / التحديثات /

عدم السماح: / ملفات التعريف /

عدم السماح: / الملف الشخصي

عدم السماح: / الملف الشخصي / *

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

عدم السماح: / admin /

Disallow: / تعليق / رد /

Disallow: / contact /

عدم السماح: / تسجيل الخروج /

Disallow: / بحث /

عدم السماح: / مستخدم / تسجيل /

Disallow: / المستخدم / كلمة المرور /

عدم السماح: * تسجيل *

عدم السماح: * تسجيل الدخول *

Disallow: / أعلى تصنيف-

Disallow: / messages / عدم السماح

Disallow: / book / export /

Disallow: / user2userpoints /

Disallow: / myuserpoints /

Disallow: / tagadelic /

Disallow: / إحالة /

Disallow: / مجمِّع /

عدم السماح: / files / pin /

Disallow: / your-votes

Disallow: / comments / recent

عدم السماح: / * / تحرير /

عدم السماح: / * / delete /

عدم السماح: / * / export / html /

Disallow: / التصنيف / term / * / 0 $

Disallow: / * / تحرير $

Disallow: / * / outline $

Disallow: / * / revisions $

Disallow: / * / contact $

عدم السماح: / * downloadpipe

Disallow: / عقدة $

Disallow: / node / * / track $

Disallow: / *؟ Page = 0

عدم السماح: / * القسم

عدم السماح: / * الطلب

Disallow: / *؟ Sort *

عدم السماح: / * & رتب *

Disallow: / * votesupdown

عدم السماح: / * التقويم

Disallow: /*index.php

المضيف: vash_sait.ru (أو www.vash_sait.ru)
خريطة الموقع: http: // المسار إلى خريطة XML الخاصة بك

كيفية التحقق من ملف Robots.txt باستخدام Google أو Yandex

من الغريب أن لوحات مشرفي المواقع Google أو Yandex مطلوبة فقط للتحقق من هذا الملف. وهذا بدوره يسهل البحث عن الأخطاء بشكل كبير.

مشرف موقع جوجل- حدد "Scanning" في القائمة اليسرى ثم حدد علامة التبويب "أداة التحقق من ملف Robots.txt". بعد ذلك ، في السطر السفلي من النافذة التي تظهر ، أضف اسم الملف. ثم انقر فوق "تحقق" وشاهد كيف يرى روبوت Google الروبوت الخاص بك.

مسؤول موقع Yandex- في القائمة اليمنى ، حدد "أدوات" و "تحليل Robots.txt". بعد ذلك ، في النافذة التي تظهر ، ما عليك سوى النقر فوق الزر "تحقق".

وتجدر الإشارة إلى أن هناك الكثير من أدوات التحقق عبر الإنترنت للتحقق من هذا الملف. لقد تحدثت عن أكثرها بأسعار معقولة والتي تكون دائمًا في متناول اليد.

استنتاج

من المستحيل كتابة روبوتات واحدة مثالية لجميع المواقع. والسبب في ذلك هو المواقع نفسها ، وبعضها مصنوع يدويًا ، بينما يقع البعض الآخر في CMS مختلفة. بالتأكيد جميع المواقع لها بنية دليل مختلفة وما إلى ذلك. لذلك ، فإن كل مشرف موقع ملزم ببساطة بإنشاء مجموعة فريدة خاصة به من القواعد لـ p-bots. مثل هذا الملف سيلبي أولوياتك ولن يسمح لك بالدخول في عملية البحث عن معلومات سرية. بفضل هذا ، سيحتوي الفهرس على محتوى عالي الجودة بدون مخلفات غير ضرورية.

مرحبًا ، سنتحدث اليوم عن كيفية إنشاء نص Robots الصحيح ولماذا تحتاجه على الإطلاق.

المحتوى:

ما هو ملف robots.txt

في إحدى مقالاتنا السابقة ، تحدثنا أيضًا عن كيفية عمل روبوتات البحث. يوفر ملف robots txt تعليمات لبرامج الزحف حول كيفية فهرسة موقعك بشكل صحيح. باستخدام التوجيهات ، يمكنك ، على سبيل المثال ، إخبار الروبوت بالصفحات أو الدلائل التي يجب فهرستها وأيها لا يجب أن تشكل مجموعة من المرايا لموقعك (إذا كان لديك أي منها) ، وتحديد المسار إلى ملف خريطة الموقع ، وما إلى ذلك. . في الأساس ، يتم استخدامه بدقة لمنع فهرسة صفحات معينة على الموقع.

كيفية إنشاء ملف robots.txt

في أي محرر نصوص ، قم بإنشاء ملف يسمى robots txt. بعد ذلك ، وباستخدام التوجيهات الموضحة أدناه ، قم بتوجيه الروبوت إلى صفحات الموقع التي يجب إضافتها أو ، على العكس من ذلك ، إزالتها من نتائج البحث. بعد إنشاء الملف ، تحقق من وجود أخطاء فيه باستخدام مشرف موقع Yandex أو Google Search Console.

ضع الملف النهائي في الدليل الجذر لموقعك (حيث يوجد ملف index.html).

توجيه وكيل المستخدم

هذا نوع من التحية لروبوتات البحث.

سيشير السطر "User-agent: *" إلى أنه يمكن لجميع برامج الزحف استخدام الإرشادات الواردة في هذا الملف. وعلى سبيل المثال ، فإن السلسلة "User-agent: Yandex" ستقدم تعليمات فقط لروبوت بحث Yandex. أمثلة على الاستخدام موضحة أدناه. أيضًا ، تحتوي محركات البحث على روبوتات مساعدة لفئات مختلفة. على سبيل المثال ، تعد YandexNews و Googlebot-News روبوتات إخبارية.

توجيهات Allow و Disallow

باستخدام التوجيه Disallow ، يمكنك تحديد الصفحات أو دلائل المواقع التي يحظر فهرستها. وبمساعدة توجيه Allow ، على التوالي ، يمكنك ذلك.

أمثلة:
وكيل المستخدم: *
عدم السماح: /
السماح: / كتالوج /

سيُعلم هذا الإدخال جميع روبوتات البحث أنه يمكنهم فقط فهرسة دليل الكتالوج من الموقع بأكمله.

بالمناسبة ، يتم استخدام رمز # لوصف التعليقات. يتم تجاهل كل شيء بعد هذه الشخصية وحتى نهاية السطر.

هنا مثال الروبوتات txtمع التعليمات الفردية لمحركات البحث المختلفة:

# يسمح للروبوت بفهرسة الموقع بالكامل ، باستثناء القسم الذي يحتوي على دراجات
وكيل المستخدم: *
Disallow: / دراجات /

# يمنع الروبوت من فهرسة الموقع ، باستثناء القسم الذي يحتوي على القوارب
وكيل المستخدم: Googlebot
السماح: / القوارب /
عدم السماح: /

# سيمنع جميع محركات البحث الأخرى من فهرسة الموقع
وكيل المستخدم: *
عدم السماح: /

ملاحظة أنه لا يمكن أن يكون هناك أسطر فارغة بين توجيهات User-agent و Allow و Disallow!

الأحرف الخاصة * و $

يمكن للتعليمات allow و Disallow استخدام الأحرف الخاصة * و $ لتحديد التعبيرات العادية. * - يختار التسلسل المحدد

على سبيل المثال: # يمنع برامج الروبوت من فهرسة جميع الصفحات التي يحتوي عنوان url الخاص بها على خاص
وكيل المستخدم: *
عدم السماح: / * خاص

بشكل افتراضي ، يجب إضافة حرف خاص * في نهاية كل قاعدة. ولإلغاء * في نهاية القاعدة ، استخدم الرمز $.

على سبيل المثال: # disallows "/ lock"
# لكن لا يعطل "/lock.html"
وكيل المستخدم: *
Disallow: / lock $# disallows و "/ lock"
# و "/lock.html"
وكيل المستخدم: *
Disallow: / lock

الحرف الخاص $ لا يمنع * المحدد في النهاية ، وهذا هو:

وكيل المستخدم: *
Disallow: / lock $# يحظر فقط "/ lock"
Disallow: / lock * $# مثل "Disallow: / lock"
# disallows كل من /lock.html و / lock

توجيه خريطة الموقع

إذا كنت تستخدم ملف sitemap ، فاستخدم توجيه خريطة الموقع وحدد المسار لملف واحد (أو عدة ملفات) فيه.

وكيل المستخدم: *
خريطة الموقع: https: //site.com/sitemap.xml

توجيه المضيف

إذا كان موقعك يحتوي على مرايا ، فعند استخدام هذا التوجيه ، سيشكل روبوت خاص مجموعة من المرايا لموقعك ، وستتم إضافة المرآة الرئيسية فقط إلى البحث. لا يضمن هذا التوجيه اختيار الموقع المحدد فيه باعتباره المرآة الرئيسية ، ولكنه يعطيها أولوية عالية عند اتخاذ القرار.

مثال:

# تحديد مرآة الموقع الرئيسي

وكيل المستخدم: Yandex
عدم السماح: / mg-admin
المضيف: https://www.zerkalo.ru

ملحوظة... يتم استخدام هذا التوجيه حصريًا لـ Yandex! + تتم معالجة توجيه مضيف واحد فقط لكل ملف robots.txt.إذا تم تحديد عدة توجيهات في الملف ، فسيستخدم الروبوت التوجيه الأول.

يجب أن يحتوي توجيه المضيف على:

بروتوكول HTTPS ، إذا كان يمكن الوصول إلى المرآة عبر قناة آمنة فقط. إذا كنت تستخدم بروتوكول HTTP ، فهو اختياري.
اسم مجال واحد صالح متوافق مع RFC 952 وليس عنوان IP.
رقم المنفذ ، إذا لزم الأمر (المضيف: myhost.ru:8080).

هل يمكنني استخدام السيريلية في ملف robots.txt؟

لا ، لا يمكنك استخدام الأبجدية السيريلية. لتحديد أسماء المجال باللغة السيريلية ، استخدم ، على سبيل المثال ، هذه الخدمة.

إعداد الروبوتات txt MogutaCMS

في MogutaCMS ، لا تحتاج إلى ملء ملف robots.txt ، لأن يتم ملؤه تلقائيًا عند تثبيت المحرك.

الآن أنت تعرف كيفية تعيين robots txt الصحيح ، وتعرف أيضًا كيفية استخدام التوجيهات المختلفة للتحكم في فهرسة موقعك ، وإذا كان لديك أي أسئلة ، فنحن مستعدون للإجابة عليها في مناقشة خاصة على VK أو في التعليقات أدناه. حتى المرة القادمة!