Robots.txt Nedir

Robots.txt Nedir – robots.txt dosyasının düzgün şekilde hazırlanması ve anlamını bilerek yapılandırılması çok önemlidir. Bu yüzden sizlere robots.txt dosyası nedir ne işe yarar hakkında bilgiler vereceğim..

Reklamlar

Robot engelleme standardı, (aynı zamanda Robot engelleme protokolü veya robots.txt olarak da bilinir) web böceği (ing web spawler) veya web örümceği (ing. web spider) gibi yazılımların web sunucularının kamuya açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltişmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.

Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini ( göz ardı etmesini) talep eder. Örneğin, web sitenizde arama motorunda çıkmasını istemediğiniz mahrem bilgiler olabiliceği gibi ya da sitenizdeki belirli bir içeriğin arama motorlarında çıkmasının sitenin bütününü yanlış tanıtacağı ya da yanlış anlaşılmalara yol açabiliceği durumlarda olabilmektedir. Bu gibi durumlar dosyanın kullanım amaçlarından bazı örneklerdir.

Birçok alt-domain’i bulunan web siteleri için , her bir alt-domain kendine ait bir robots.txt dosyasına sahip olmalıdır. Örneğin ;

example.com domain’i kendine ait bir robots.txt dosyasına sahipse, fakat a.example.com altında bu dosya yok ise, arama motoru robotları olmayan siteyi arama sayfalarında tarama yaptıysa, listeleyecektir.

robots.txt Kullanmanın Avantajları
Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olması rağmen, web robotlarının bu protokolü uygulamasına ihtiyaç duymaktadır. Yani sitenize bir robots.txt dosyası koymanız, mahremiyetinizi garanti altına almamaktadır. Bazı web site idarecileri robots dosyalarını web sitelerinin özel bölümlerini tüm dünyaya görünmez yapmak için kullanmayı denediler fakat dosyanın kamuya açık olması gerekmekteydi ve dosyanın içeriği bir web tarayıcısı olan herkese açıktı.

Robots.txt dosyası için herhangi bir resmi standart kurum ya da RFC (İng. Reguest For Comments – internet ve internetin çalışması ile ilgili metodlar araştırmalar ve bilgilerin bulunduğu dökümanlar arşivi) yoktur. Sadece bir robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden ibarettir. Robotlar tarafından erişilmesinin istenmediği bölümlerin bulunduğu robots.txt dosyası, siteinin kök dizininde bulunmalıdır. Dosya içeriğinde kullanılabilecek metinler aşağıda ayrıca açıklanmıştır.

Sponsorlu Bağlantılar

Yorum yapın