Robots.txt Nedir?
Robots.txt dosyası, site sahiplerinin,
genellikle arama motorlarına ait robotların (örümcekler), sitelerini nasıl
tarayacaklarını bilgilendirmek için oluşturdukları bir metin dosyasıdır.
Google dahil birçok websitesinde,
robots.txt dosyası ile, çeşitli kullanıcı aracılarına (user agent) özel,
direktifler belirtilmektedir. Bu direktifler ile, bu kullanıcı aracılarının
websitelerinin hangi kısımlarını tarayabilecekleri veya tarayamayacakları ile,
hangi kısımları indeksleyip, hangi kısımları indekslememeleri gerektiği gibi
şeyler belirtilir.
En basit hali ile, robots.txt dosyası
alttaki gibidir. Alttaki örnek robots.txt ile belirtilen, tüm kullanıcı
aracıları için (User-agent) için hiçbir şey yasaklanmamıştır şeklinde
algılanabilir.
User-agent: *
Disallow:
Robots.txt Dosyası Nasıl Çalışır?
Arama motorlarının temel olarak iki ana
işlevi vardır. Bu işlevler, tüm interneti gezerek internet sitelerini ve
içerikleri keşfetmek ile bu siteleri ve içerikleri dizinlerine eklemektir.
Arama motorları, internet sitelerindeki bağlantıları takip ederek, bir siteden
diğer siteye ulaşır ve bu şekilde sonsuza yakın bir gezintiye çıkarak,
internette yer alan tüm içeriği dizinine eklemeye çalışırlar.
Arama motorlarına ait örümcekler ise her
bir yeni siteye ulaştığında, genellikle, öncelikli olarak robots.txt dosyasını
arar ve eğer bu dosya mevcut ise, örümcekler, bu dosyayı ve bu dosyadaki
direktifler incelerler. Robotlar, veya örümcekler, bu dosyadaki Allow ve
Disallow komutlarına uyarak, bu sitedeki gezinme eylemlerini tamamlar ve bu
sitedeki işlerini genellikle bu direktiflere uyarak bitirirler.
Robots.txt Dosyası Nasıl Olmalıdır?
Robots.txt dosyası, internet sitelerinin en
üst dizininde (root) bulunması gerekmektedir, ve tamamı küçük harflerden
oluşan, robots.txt adı ile kaydedilmelidir. Ayrıca bu dosyanın herkes
tarafından okunabilir olduğuna da dikkat edilmelidir. Her bir subdomain için de
farklı bir robots.txt olması gerektiği gibi, robots.txt dosyasında, genellikle
sitemap dosyasının konumu da belirtilmelidir.
Robots.txt Dosyasına Ait Terimler
Robots.txt dosyasındaki terimler alttaki
gibi listelenebilir. Genellikle, birçok robots.txt dosyasında gözlemlenen 5
farklı terim mevcuttur.
User-agent:
Robots.txt dosyasında verilecek olan direktiflerin hedeflediği özel kullanıcı
aracılarının belirtildiği terimdir. * ile belirtilmesi durumunda, tüm kullanıcı
aracılarının kapsandığı anlamına gelmektedir.
Disallow:
Kullanıcı aracılarına özellikle incelememesi için belirtilen kısımları belirten
terimdir. Bir adres olabileceği gibi, bir klasör de olabilir.
Allow: Bu
terimi sadece Googlebot’u algılayabilmektedir. Googlebot’un hangi sayfalara ya
da hangi klasörlere erişebileceğini belirtir.
Crawl-delay:
Bu terim ile robotların sayfayı yüklemeden önce kaç milisaniye beklemesi
gerektiğini belirtmeye yarar.
Örnek Robots.txt Dosyaları
Sitenizin, ana (root) dizininde bulunması
gereken robots.txt dosyasının birçok farklı kullanımı vardır. Genellikle,
birçok websitesi, kimi klasörlerin, arama motorlarına ait robotlar tarafından
dizinlerine eklenmesini istemezler.
Örneğin sitenizin hiçbir kısmının robotlar
tarafından ziyaret edilmesini istiyorsanız, alttaki gibi bir robots.txt
dosyasını kullanabilirsiniz.
User-agent: *
Disallow: /
Sitenizi robotlara açmak, ancak belirli
klasörleri kapatmak isterseniz, üstteki direktifi değiştirmeniz gerekmektedir.
Örneğin sitenize ait wp-admin klasörünün olduğunu düşünün, bu kısmın robotlar
tarafından ziyaret edilmesini istemiyorsanız alttaki gibi bir robots.txt
dosyası oluşturabilirsiniz.
User-agent: *
Disallow: /wp-admin
Sitenizin tamamını robotlara açmak ve
sitemap konumunu da robotlara belirtmek isterseniz, alttaki gibi robots.txt
dosyası oluşturabilirsiniz.
User-agent: *
Disallow:
Sitemap: https://alanadim.com/sitemap.xml
Eğer sitenizi YandexNews haricindeki tüm
robotlara açmak isterseniz alttaki gibi bir robots.txt dosyası
oluşturabilirsiniz.
User-agent: YandexNews
Disallow: /
Üstteki formatlardaki gibi tüm kullanıcı
aracılarına özel direktiflerin belirtilebileceği robots.txt dosyasında aynı zamanda
birçok kullanıcı aracısına özel, farklı direktifler de belirtilebilir. Bu
direktifler, birer boşluk ile alttaki örnekteki gibi belirtilebilir.
Alttaki robots.txt dosyasında, Twitterbot
ile facebookexternalhit kullanıcı aracılarına Allow direktifi ile imgres
klasörüne erişim izni verilmektedir, ancak bu kullanıcı aracıları
haricindekilere bu klasöre erişim izni Disallow direktifi ile verilmemektedir.
User-agent: *
Disallow: /imgres
User-agent: Twitterbot
Allow: /imgres
User-agent: facebookexternalhit
Allow: /imgres
Misafir Yazar: Burak Özdemir uzun yıllardır web geliştiriciliği ile uğraşmaktadır. Genellikle tarih ve PHP üzerine yazılar yazdığı internet sitesini incelemek için https://ozdemirburak.com adresini ziyaret edebilirsiniz.
Not: Sizde misafir yazar olarak sesinizi duyurmak isterseniz https://dogushakanyilmaz.blogspot.com/p/yazar-ol_30.html bağlantısına tıklayarak başlayabilirsiniz.
Bu yazı Burak Özdemir tarafından yazılmıştır.
✔ Bu içeriği beğendiyseniz lütfen paylaşın ⤵
Çok bilgilendirici bir yazı olmuş. Tebrikler
YanıtlaSilÇok teşekkürler yorumunuz için.
SilGüzel bilgiler paylaşmışsınız. Emeğinize sağlık.
YanıtlaSilTeşekkürler güzel yorumunuz için.
SilBlogger'da bu konuda bir özelleştirme yapabilmek mümkün değil sanırım değil mi? Ne sunulduysa onu alıyoruz sanki...
YanıtlaSilYorumlarınız için teşekkür ederim, Recep Bey sizin sorunuzu ayrıca cevaplayacak olursam, Ayarların altında yer alan Arama tercihleri kısmından, Özel robots.txt'nin yanında düzenleye tıklayıp Evet'e bastıktan sonra dilediğiniz düzenlemeleri yapabiliyor olmalısınız.
Sil