Robots.txt Oluşturma

Acaba hazırladığımız robots.txt dosyası uygunmu oluşturulmuş yoksa yanlışmı yapmışız. Buyrun hep beraber düzgün robots.txt dosyası oluşturalım..

Reklamlar

Öncelikle Google Webmaster Araçları Kısmında robots.txt oluşturma aracını kullanarak bir robots.txt dosyası oluşturma
1.Web Yöneticisi Araçları Ana Sayfası’nda, istediğiniz siteyi tıklayın.
2.Site yapılandırması altında Tarayıcı erişimi’ni tıklayın.
3.robots.txt dosyası oluşturun sekmesini tıklayın.
4.Varsayılan robot erişiminizi seçin. Tüm robotlara izin vermenizi ve sitenize erişmesini istemediğiniz belirli botları hariç tutmak için sonraki adımı kullanmanızı öneririz. Böylece önemli tarayıcıların sitenizi taramasını yanlışlıkla engellemenizin neden olabileceği sorunları önlemiş olursunuz.
5.Varsa, diğer kuralları belirtin. Örneğin, Googlebot’un sitenizdeki tüm dosyaları ve dizinleri taramasını engellemek için:
1.Eylem listesinden İzin Verme seçeneğini belirtin.
2.Robot listesinden Googlebot’u tıklayın.
3.Dosyalar veya Dizinler kutusuna / yazın.
4.Ekle’yi tıklayın. robots.txt dosyanızın kodu otomatik olarak oluşturulur.
6.Dosyayı indirerek veya içeriği bir metin dosyasına kopyalayıp robots.txt olarak kaydederek robots.txt dosyanızı kaydedin. Bu dosyayı sitenizin en üst düzey dizinine kaydedin. robots.txt dosyası, etki alanının kök dizinine yerleştirilmeli ve “robots.txt” olarak adlandırılmalıdır. Botlar bu dosyayı yalnızca etki alanının kök düzeyinde kontrol ettiği için, alt dizinde bulunan bir robots.txt dosyası geçerli değildir. Örneğin, http://www.example.com/robots.txt geçerli bir yerdir ancak http://www.example.com/sitem/robots.txt geçerli bir yer değildir.

robots.txt dosyanızın gerektiği gibi çalışıp çalışmadığını kontrol etmek için, Web Yöneticisi Araçları’ndaki robots.txt testi aracını kullanabilirsiniz.

Webmaster Araçları kısmından değilde biz kendimiz robots.txt dosyasını el ile oluşturalım
En basit robots.txt dosyası iki kural kullanır:

•User-agent: aşağıdaki kuralın geçerli olduğu robot
•Disallow: engellemek istediğiniz URL
Bu iki satır, dosyada tek bir giriş sayılır. İstediğiniz kadar çok giriş ekleyebilirsiniz. Tek girişe birden çok Disallow satırı ve birden çok user-agent ekleyebilirsiniz.

robots.txt dosyasındaki her bölüm ayrıdır ve önceki bölümleri esas almaz. Örneğin:

User-agent: *
Disallow: /klasor1/

User-Agent: Googlebot
Disallow: /klasor2/
Bu örnekte yalnızca /klasor2/ ile eşleşen URL’lere Googlebot için izin verilmemektedir.

User-agent’lar ve botlar
User-agent, belirli bir arama motoru robotudur. Web Robotları Veritabanı’nda, sık kullanılan pek çok bot listelenir. Bir girişi belirli bir bota (adını listeleyerek) veya tüm botlara (yıldız işareti koyarak) uygulanacak şekilde ayarlayabilirsiniz. Tüm botlara uygulanan bir giriş şöyle görünür:

User-agent: *
Google, birbirinden farklı çeşitli botlar (user-agent’lar) kullanır. Bizim web aramamız için kullandığımız bot, Googlebot’tur. Googlebot-Mobile ve Googlebot-Image gibi diğer botlarımız, Googlebot için belirlediğiniz kurallara uyar, ancak bu botlar için de belirli kurallar ayarlayabilirsiniz.

User agent’ları engelleme
Disallow satırında engellemek istediğiniz sayfalar listelenir. Belirli bir URL’yi veya dize kalıbını listeleyebilirsiniz. Girişin düz eğik çizgiyle (/) başlaması gerekir.

•Sitenin tamamını engellemek için düz eğik çizgi kullanın.
Disallow: /•Bir dizini ve o dizinin içinde bulunan tüm öğeleri engellemek için dizin adının sonuna bir düz eğik çizgi koyun.
Disallow: /onemsiz-dizin/ •Bir sayfayı engellemek için o sayfayı listeleyin.
Disallow: /ozel_dosya.html•Belirli bir görseli Google Görseller’den kaldırmak için şunları ekleyin:
User-agent: Googlebot-Image
Disallow: /gorseller/kopekler.jpg •Sitenizdeki görsellerin tümünü Google Görseller’den kaldırmak için:
User-agent: Googlebot-Image
Disallow: / •Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın:
User-agent: Googlebot
Disallow: /*.gif$•Sitenizdeki sayfalarda AdSense reklamları görüntülemeye devam ederken bu sayfaların taranmasını engellemek için Mediapartners-Google dışındaki tüm botları engelleyin. Bu, sayfaların arama sonuçlarında görünmesini engellemekle birlikte Mediapartners-Google robotunun gösterilecek reklamları belirlemek üzere sayfaları analiz etmesine olanak sağlar. Mediapartners-Google robotu, sayfaları diğer Google user-agent’ları ile paylaşmaz. Örneğin:
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /Yönergelerin büyük/küçük harfe duyarlı olduğunu unutmayın. Örneğin, Disallow: /onemsiz_dosya.asp, http://www.example.com/onemsiz_dosya.asp sayfasını engeller ancak http://www.example.com/Onemsiz_dosya.asp sayfasına izin verir. Googlebot robots.txt dosyasındaki boşluk karakterlerini (özellikle boş satırları) ve bilinmeyen yönergeleri dikkate almaz.

Dize kalıbı eşlemesi
Googlebot (ama tüm arama motorları değil) bazı dize kalıbı eşlemelerini dikkate alır.

•Karakterlerden oluşan bir diziyle eşlemek için yıldız (*) kullanabilirsiniz. Örneğin, özel ile başlayan tüm alt dizinlere erişimi engellemek için:
User-agent: Googlebot
Disallow: /ozel*/•Soru işareti (?) içeren tüm URL’lere erişimi engellemek için (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL’leri taramasını engellemek için):
User-agent: Googlebot
Disallow: /*?•URL sonu eşlemesini belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL’leri engellemek için:
User-agent: Googlebot
Disallow: /*.xls$Bu dize kalıbı eşlemesini, Allow yönergesi ile birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL’leri dışlayarak Googlebot’un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL’ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:

User-agent: *
Allow: /*?$
Disallow: /*?Disallow: / *? yönergesi, ? içeren URL’lerin tümünü engeller (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL’lerin tümünü engeller).

Allow: /*?$ yönergesi, ? ile biten tüm URL’lere izin verir (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından bir dize ve bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL’lerin tümüne izin verir).

Sponsorlu Bağlantılar

Yorum yapın