إغلاق فهرسة بحث الموقع عبر Kubernetes HAProxy Ingress

في كوبرنتس، يتم استخدام الموارد الخارجية كمرشدات للمرور، مما يوفر دخول خارجي للخدمات داخل المجموعة. الموارد الخارجية ضرورية لتوجيه المرور المصادف إلى خدمتك؛ 然而، قد يوجد مواقف تتطلب منك أن تمنع المحركات البحثية من تسجيل محتويات خدمتك: قد تكون بيئة تطوير أو شيء آخر.

سوف يقوم هذا المدونة بتعرف عن عملية حجب تسجيل موقعك في مرشد Kubernetes Ingress باستخدام ملف robots.txt، مما يمنع الروبوتات البحثية من تنقل وتسجيل محتوياتك.

الأحداث السابقة

للمتقدم بدرس الدراسة، يجب أن يكون لديك فهم أساسي للأجسام البسيطة في Kubernetes وموارد المرشدات والمرشد الشبكية HAProxy الرسمي. سوف يحتاج أيضًا إلى توافر الوصول إلى المجموعة الشبكية Kubernetes وال permissions المطلوبة للقيام بتغييرات التكوين.

تذكر أنه في غير هذا المقال، أفترضت أن مرشد الشبكية HAProxy معين كمرشد باستطاعته التأكيد. إلا إذا لم يتم تعيين HAProxy كمرشد باستطاعته التأكيد، يجب أن تضيف خيار ingressClassName لجميع أمثلة الموارد الخارجية.

خطوة 1: إنشاء موارد خارجية Kubernetes.

في الجزء الأول من رحلتنا سنقوم بإنشاء مورد صغير للIngress لتعريف خدمتنا خارج المجموعة الكويبرنية. توجه: لحظة الوقت الرئيسية، سيكون لكل مسح الشبكية الوصول إلى الخدمة. لتطبيق البريد المسبق أستخدم أوامر الكمان kubectl apply -f ingress.yaml.

YAML

 

الخطوة 2: تعديل إعدادات الIngress

تستخدم ملف robots.txt للتحكم في كيفية تسجيل المواقع من قوام المحركات التصفحية. تحدد في هذا الملف الأعدادات التي يمكن للمسحات التصفحية فيها الوصول إلى ما يتم تصفحه على موقعك. الملف الأبسط الذي يحدد الوصول إلى خدمة الشبكية التصفحية يبدو كهذا:

Plain Text

 

HAProxy لا يتوجب عليك إضافة هذا الملف إلى 服务器 أو الموقع. هذا يمكن أن يتم بواسطة تكوين ما يلي الأعدادات ، ويجب أن يأخذ هذه التكوينات الى قسم الخلفية للسيرفرات الخاصة:

Plain Text

 

تنظيمات K8S Annotations تحكم في جميع الممارسات لتعديل تكوين HAProxy للشرفيد/الخلفي لمورد وصل واحد فقط. يمكن العثور على قائمة كاملة للتعديلات HAProxy في التوثيق الرسمي على GitHub.

في حالتنا ، يتوجب علينا استخدام haproxy.org/backend-config-snippet مع القطعة الصغيرة للHAProxy التي تحدد حجب التسجيل بأي طريقة. لذلك ، قم بتحرير وافتح ملف مورد موارد Ingress يامل وأضف تعديل تلك التعليمات إلى قسم المعلومات:

YAML

 

خطوة 3: تطبيق تغييرات التكوين

بعد تغيير الملف YAML للإنترجرس، حفظه وتطبيقه في المجموعة الكubernetic المعين باستخدام أمر kubectl: kubectl apply -f ingress.yaml.

سيكون مراقب الإنترجرس يكتشف التغييرات وي更新 ال配置 بالتوافق.

خطوة 4: تحقيق التكوين

inspect الملف المنتج الخاص بـ .robots.txt للتأكد من أن منع التسجيل يعمل بشكل صحيح. ينتج مراقب الإنترجرس هذا الملف بناءاً على التعليمات التي توفرها.

حصل على ال IP الخارجي أو النطاق التي ترتبط بموردك الإنترجرس وأضف /robots.txt إلى ال URL. مثال:

Plain Text

 

كما نراه، يحتوي الإجابة على ملف robots.txt يمنع أي تسجيل بواسطة المحركات البحثية.

خطوة 5: اختبار منع التسجيل

لتأكد من أن المحركات البحثية لا تسجل لموقعك، يمكنك أن تقوم بالبحث عن موقعك في المحركات البحثية المشهورة. تذكر أن توافر النتائج البحثية قد تستغرق بعض الوقت لتتبادل مع التغييرات، لذا قد لا يتم تحديث حالة التسجيل بالكامل فوراً.

ختام

تجعيل التعليمات بسهولة تجنب تسجيل الموقعات في قاعدة البحث باستخدام HAProxy Kubernetes Ingress. عندما تضيف التعليمات المناسبة لموردك الخارجي، يمكنك منع روبوتات الموقعات الخارجية من التسجيل وتسجيل محتويات موقعك. ويمكن استخدام مقاربة مماثلة مع محركات الوصول الأخرى، مثل Nginx و Traefic وغيرها. يمكن استخدام تعليمة مماثلة أيضًا لموردي K8S Gateway API التي تحل محل الIngresses.

وكما يمكن أن نلمس أخيرًا أن تعليمات robots.txt هي طريقة موثوقة للمبتدعين في المواقع لتحديد ما إذا كان يتوجب تسجيل موقعهم من قبل روبوتات مختلفة. ومع ذلك، يبين أن روبوتات الموقعات الخارجية المولدة من نموذج كبير لللغة المتقدم تتجاوز محتويات robots.txt وتسجل موقعك بغض النظر. لتجنب هذه الحالات، تستخدم الأمان بواسطة الكلمات السرية، noindex، أو ميزات موازن الأعمال الحكومية مثل ميزات موازن الأعمال التي يمكن أيضًا تكوينها كتعليمة K8S.

Source:
https://dzone.com/articles/close-site-search-indexing-via-kubernetes-haproxy