Back to Question Center
0

Semalt: วิธีบล็อก Darodar Robots.txt

1 answers:

ไฟล์ Robots.txt เป็นไฟล์ข้อความทั่วไปที่มีคำแนะนำว่าโปรแกรมรวบรวมข้อมูลเว็บหรือบอทควรรวบรวมข้อมูลไซต์ แอ็พพลิเคชันของพวกเขาเห็นได้ชัดใน เครื่องมือค้นหา บอทซึ่งเป็นที่นิยมในเว็บไซต์ที่มีการเพิ่มประสิทธิภาพมากมาย ในฐานะส่วนหนึ่งของ Robots Exclusion Protocol (REP) ไฟล์ robots.txt เป็นส่วนสำคัญในการจัดทำดัชนีเนื้อหาเว็บไซต์และทำให้เซิร์ฟเวอร์สามารถตรวจสอบความถูกต้องของคำขอของผู้ใช้ได้

ผู้จัดการอาวุโสฝ่ายลูกค้าสัมพันธ์ Semalt อธิบายว่าการเชื่อมโยงเป็นส่วนหนึ่งของ Search Engine Optimization (SEO) ซึ่งเกี่ยวข้องกับการดึงดูดการเข้าชมจากโดเมนอื่นภายในโพรงของคุณ สำหรับลิงก์ "ตาม" เพื่อถ่ายโอนน้ำเชื่อมโยงคุณจำเป็นต้องรวมไฟล์ robots.txt บนพื้นที่จัดทำเว็บไซต์ของคุณเพื่อทำหน้าที่เป็นผู้สอนเกี่ยวกับวิธีที่เซิร์ฟเวอร์โต้ตอบกับไซต์ของคุณ จากที่เก็บนี้คำแนะนำมีอยู่โดยการอนุญาตหรือไม่อนุญาตให้ผู้ใช้บางรายใช้งาน

รูปแบบพื้นฐานของไฟล์ robots.txt

ไฟล์ robots.txt มีสองบรรทัดสำคัญ:

User-agent: [user-agent name]

Disallow: [ไม่ต้องรวบรวมข้อมูล URL]

ไฟล์ robots.txt ฉบับสมบูรณ์ควรมีทั้งสองบรรทัด อย่างไรก็ตามบางส่วนอาจมีหลายสายของ user-agent และ directives คำสั่งเหล่านี้อาจมีลักษณะต่าง ๆ เช่น disallows หรือ crawl-delay โดยปกติจะมีการแบ่งบรรทัดซึ่งแยกคำสั่งแต่ละชุดออก คำแนะนำอนุญาตหรือไม่อนุญาตแต่ละรายการจะถูกคั่นด้วยเครื่องหมายบรรทัดนี้โดยเฉพาะ robots.txt ที่มีหลายบรรทัด

ตัวอย่าง

ตัวอย่างเช่นไฟล์ robots.txt อาจมีรหัสเช่น

User-agent: darodar

ไม่อนุญาต: / ปลั๊กอิน

Disallow: / API

Disallow: / _comments

ในกรณีนี้นี่เป็นไฟล์ robots.txt ที่ป้องกันไม่ให้โปรแกรมรวบรวมข้อมูลเว็บ Darodar จำกัด การเข้าถึงเว็บไซต์ของคุณ ในรูปแบบข้างต้นโค้ดจะบล็อกส่วนต่างๆของเว็บไซต์เช่นปลั๊กอิน API และส่วนความคิดเห็น จากความรู้นี้เป็นไปได้ที่จะได้รับประโยชน์มากมายจากการใช้งานไฟล์ข้อความของหุ่นยนต์ได้อย่างมีประสิทธิภาพ หุ่นยนต์.ไฟล์ txt สามารถทำงานได้หลายอย่าง ตัวอย่างเช่นพวกเขาสามารถพร้อมที่จะ:

1 อนุญาตเนื้อหาเว็บรวบรวมข้อมูลทั้งหมดลงในหน้าเว็บไซต์ ตัวอย่างเช่น

User-agent: *

ไม่อนุญาตให้ใช้:

ในกรณีนี้ผู้รวบรวมข้อมูลเว็บทุกคนสามารถเข้าถึงเนื้อหาทั้งหมดของผู้ใช้โดยขอให้ไปที่เว็บไซต์

2 บล็อกเนื้อหาเว็บเฉพาะจากโฟลเดอร์เฉพาะ ตัวอย่างเช่น

User-agent: Googlebot

Disallow: / example-subfolder /

ไวยากรณ์ที่มีชื่อผู้ใช้ Googlebot เป็นของ Google จำกัด การเข้าถึงเว็บเพจใด ๆ ในสตริง www.ourexample.com/example-subfolder/.

3 บล็อกโปรแกรมรวบรวมข้อมูลเว็บเฉพาะจากหน้าเว็บหนึ่ง ๆ ตัวอย่างเช่น

User-agent: Bingbot

ไม่อนุญาต: /example-subfolder/blocked-page.html

Bing bot ของ user-agent เป็นของ Bing web crawlers ไฟล์ robots.txt ประเภทนี้ จำกัด โปรแกรมรวบรวมข้อมูลเว็บ Bing ไม่ให้เข้าถึงหน้าเว็บเฉพาะที่มีสตริง www.ourexample.com/example-subfolder/blocked-page.

ข้อมูลสำคัญ

  • ไม่ใช่ผู้ใช้ทุกคนที่ใช้ไฟล์ robts.txt ของคุณ ผู้ใช้บางรายอาจเลือกที่จะไม่สนใจ ซอฟต์แวร์รวบรวมข้อมูลเว็บส่วนใหญ่เช่นโทรจันและมัลแวร์
  • ต้องการดูไฟล์ Robots.txt ควรอยู่ในไดเรกทอรีเว็บไซต์ระดับบนสุด
  • ตัวอักษร "robots.txt" เป็นตัวพิมพ์เล็กและใหญ่ ดังนั้นคุณจึงไม่ควรเปลี่ยนแปลงสิ่งเหล่านี้ด้วยวิธีการใด ๆ รวมทั้งการใช้อักษรตัวพิมพ์ใหญ่ในบางแง่มุม
  • "/robots.txt" เป็นโดเมนสาธารณะ ทุกคนสามารถค้นหาข้อมูลนี้ได้เมื่อเพิ่มเนื้อหาลงในเนื้อหาของ URL ใด ๆ คุณไม่ควรจัดทำดัชนีรายละเอียดที่สำคัญหรือหน้าที่คุณต้องการให้เป็นแบบส่วนตัว
November 29, 2017
Semalt: วิธีบล็อก Darodar Robots.txt
Reply