סגור אינדקסציה של חיפוש באתר דרך Kubernetes HAProxy Ingress

בקוברנטס, משאבים Ingress נעשים בדרך כל למנהגים של בקרים תנועה, מספקים גישה חיצונית לשירותים בתוך הקבוצה. Ingress הוא מהותי לניווט בתנועה הקומונס לשירותך; אך יכול להיות סיטוקים בהם תרצו למנוע את העיתונאות של תוכן השירות שלך: זה עלול להיות סביבה הפיתוח או משהו אחר.

המאמר הזה ידועך דרך העסקה של בודקת דיסקינג של האתר שלך על ידי השתמש בקובץ robots.txt ב Ingress Kubernetes, מנעים מבודבדים של מנעדים מגיעים ומדודבדים את התוכן שלך.

תנאי קדם

כדי להמשיך עם המדריך, צריך להיות לך הבנה בסיסית של הרעיונות הבסיסיים של קוברנטס, משאבים Ingress ואת בודק הכניסה HAProxy הרשמי. תצטרך גם לקבל גישה לקבוצת הקוברנטס ולהקרין הרשאות הנחוצות לבצע שינויי הגדרות.

שימו לב שבשביל המאמר הזה, אני מניחה שבודק הכניסה HAProxy נבנה כבודק מוביל. אחרת, אם לא בחרת את HAProxy כבודק מוביל, עליך להוסיף את אפשרות ingressClassName לכל דוגמאות הקוד של Ingress.

שלב 1: יצירת משאב Ingress Kubernetes

בחלק הראשון של המסע שלנו, נוציא משאב קטן של Ingress כדי לחשוף את השירות שלנו מחוץ לקבוצת קובעים Kubernetes. שימו לב: לרגע זה, כל סירני אינטרנט יהיו מקבלים גישה לשירות. כדי ליישם את הקוד הנמצא למטה, השתמשו בפקודה kubectl apply -f ingress.yaml.

YAML

 

שלב 2: שינוי ההגדרות של הIngress

הקובץ robots.txt משמש כדי לשלוט איך מנעדים מספרים מתעדים מסמך. הקובץ מציין אילו כתוביות סירני אינטרנט יכולים לגשת לכדי את האתר שלך. הקובץ הבסיסי המגביל את הגישה לשירות האינטרנט נראה כך:

Plain Text

 

HAProxy לא דורש לך להוסיף את הקובץ הזה לשרת האינטרנט שלך או לאתר שלך. זה יישמה עם ההגדרה הבאה, שצריך להוסיף לחלק האחורי עבור הקבוצה הספציפית של השרתים:

Plain Text

 

תוויות K8S מארגנות את כל העיבודים בקונFIGורציית HAProxy עבור משאב הIngress הספציפי. רשימת התוויות HAProxy המלאה ניתן למציאה במדריך המקורי על GitHub.

במקרה שלנו, אנחנו צריכים להשתמש ב haproxy.org/backend-config-snippet עם הסיכום HAProxy לחסום כל סירני המנעדים. כדי לעשות את זה, עריכו, פתחו את קובץ הYAML של משאב הIngress שלכם, והוסיף את התווית הבאה לחלק המידע העל:

YAML

 

שלב 3: יישום שינויי ההגדרה

אחרי שינוי הYAML של הIngress, שמו את הקובץ ויישם אותו על הקluster Kubernetes בעזרת הצו המותקן kubectl: kubectl apply -f ingress.yaml.

הבקר הIngress יזהה את השינויים ויעדכן את ההגדרות בהתאם.

שלב 4: בדיקת ההגדרות

בדק את הקובץ robots.txt המיוצר בכדי לאשר שהמניעה מסומנת בהצלחה. הבקר הIngress יוצר את הקובץ הזה על פי הערך של הערות שלך.

הביט בIP החיצוני או האתר הקשור למשאב הIngress שלך והוסף /robots.txt לכתובת. דוגמה:

Plain Text

 

כפי שאנחנו יכולים לראות, התשובה מכילה קובץ robots.txt שמנע את כל סיומן המידע.

שלב 5: בדיקת מניעת המידע

כדי לאשר שסיומנים אינם מידבקים באתר שלך, ניתן לבצע חיפוש על האתר שלך במאגרי החיפוש הפופולריים. שימו לב שלעולם התוצאות של החיפוש עלולות לדחוף קצת זמן כדי לשקף שינויים, אז מצב המידע על המידע עלול להיות לא מועדכן באופן מלא מיד השינוי.

תוצאה

ערימות מאפשרות לך להימנע מאינדקסיית מנעדים בזמן שאתה משתמש ב HAProxy Kubernetes Ingress. על ידי הוספת הערימות המתאימות למשאב ה Ingress שלך, אתה יכול לאסור את הבוטים של המנעדים מלצרף ולאינדקס את תוכן האתר שלך. גישה דומה ניתנת לשימוש בבקרני הקבלה האחרים, כמו Nginx, Traefic ואחרים. ערימה דומה יכולה גם להשתמש עבור משאבים K8S Gateway API, שמחליפים בפעם הזו את ה Ingresses.

לציין סוף, robots.txt הוא דרך מוכרת של יוצרי אתרים לספק אם הם רוצים את האתר שלהם להיצמד על ידי בוטים מוגדרים. אך מסתבר שבוטים המעבדה החדשים מחסום החברות הגדולות למול模型 (LLM) לרוב מתעלמים מתוכן של robots.txt ומצרפים את האתר שלך בכל מקרה. בכדי להימנע מהמצבים האלה, השתמש בסיסמה בטיחה, noindex, או תכונות של מנוע העלייה העיסקי כמו load balancer של HAProxy, שגם יכול להיות הגדרת ערימות K8S.

Source:
https://dzone.com/articles/close-site-search-indexing-via-kubernetes-haproxy