Tüm Detaylarıyla Robots.txt Nedir Nasıl Oluşturulur?
Robots.txt |
Bir web sitemizin olduğunu düşünelim ve sıradan internet kullanıcıları gibi değilde daha profesyonel bir yaklaşım içine girdiğinizde, dijital dünayada bir çok terimlerle karşı karşıya geleceksiniz. İşte bu konumuzda da Robots.txt kavramı karşımıza çıktığı gibi. Arama motorlarının sitelerinizdeki hangi dizin veya linklerin taranmasına hususu, siz değerli web site sahipleri Robots.txt araclığıyla karar verme yetkisi tamamen sizin elinizde olacaktır. Ancak bu Robots.txt hazır (CMS) script kullanıyorsanız zaten sizler adına otomatik olarak oluşturuluyor ve burada dikkat edilmesi gereken önemli nokta profesyonel bir Robots.txt hazırlamanız gerekir. (Örnek Robots.txt linki: https://www.akblog.net/robots.txt)
Robots.txt kısaca şöyle izah edebiliriz. Sitenizin kök dizinine yerleştirilen ve txt formatında oluşması gereken bir dosyadır. Arama motorları Robots.txt dosyanıza göre sitenizin kayıtlarını veritabanlarına kayıt edecektir. Bu dosya sayesinde arama motorlarına talimatı web site sahipleri verebilir. Örneğin Google botlarına baktığımızda Googlebot, GoogleNews, Googleimage veya GoogleAd vs.. gibi diğer arama motorlarına talimatı Robots.txt aracılığıyla verebilirsiniz.
Robots.txt Dosyası Nasıl Oluşturulur?
Robots.txt dosyasının içerisinde yer alan ibareler iki bölümden oluşur. Aşağıda yer alan örnekleri gözden geçirerek iki satırın birbirini takip ettiğini görebilirsiniz. Ancak burada çeşitli satırlar oluşturulabilmektedir. Talimat verilmek istenen kullanıcı aracına göre çeşitliğin artış göstermesi söz konusu olacaktır.
Bilgi: Ayhan Karaman
Size örnek bir Robots.txt komut dosyasını verelim. Googlebot’a “/SEO/” dizininin tarama dışı tutulması gerektiğini belirtebilirsiniz.
User-agent: Googlebot
Disallow: /SEO/
Diyelim ki yukarıdaki durumdan farklı olarak SEO dizinin tüm tarayıcılar için geçerli olmasını istiyorsak ne yapmalıyız?
User-agent: *
Disallow: /SEO/
Diyelim ki sadece tek bir alanını değil de tüm alanlarının dizin dışı kalmasını istiyoruz. Peki ne yapmalıyız.
User-agent: *
Disallow: /
Sadece tek bir görselin veya alt sayfanın taranmasını engellemek istiyorsanız aşağıdaki şekilde bir talimat girebilirsiniz.
User-agent: Googlebot
Disallow: /ornekklasor.html
Disallow: /resimler/ornekresim.jpg
Diyelim ki sitemizde yer alan tüm fotoğraf resim gibi gizli kalmasını istediğimiz görsellerin bu durumda dolar işaretini bir yer tutucu olarak kullanıp bir filtre oluşturabiliriz. Tarayıcılar bu durumda belirlemiş olduğunuz dosya türlerini taramadan diğer dosyalara geçeceklerdir.
User-agent: *
Disallow: /*.jpg$
Belirli bir dizinin engellenmesini ama bu dizine ait alt dizinin taranmasını istiyorsanız bunu yine talimatlar aracılığıyla arama motorlarına bildirebilirsiniz.
User-agent: *
Disallow: /shop/
Allow: /shop/magazine/
robots.txt dosyası içerisinde aynı zamanda site haritasına yer vererek bir site ile tarayıcılar arasındaki bağlantıyı sağlamlaştırmayı başarabilirsiniz.
UserAgent: *
Disallow:
Sitemap: http://[siteadiniz.com]/sitemap.xml
Sitenize ait dizin yapısını bir başkası oluşturmuşsa ve robots.txt dosyasına sahip olup olmadığını bilmiyorsanız URL’yi Google Search Console’a yazarak bunu kontrol edebilirsiniz. “robots.txt dosyası bulunamadı” hatasını alıyorsanız ilk olarak bu dosyayı oluşturmanız gerekmektedir.
1. robots.txt Dosyasını Google’a Gönderin
Google Search Console’da robots.txt editörünün sağ alt kısmında yer alan “gönder” butonuna bastığınız zaman karşınıza bir diyalog penceresi çıkacaktır. Düzenlenmiş robots.txt kodunu indirmek istiyorsanız bu diyalog penceresinde yer alan “İndir” butonuna basmanız yeterli olacaktır.
Sitenizin kök dizininde yer alan robots.txt dosyasının taranıp taranmadığını öğrenmek istiyorsanız “güncel versiyonu görüntüle” şeklinde bir ibare yer alan butona tıklamanız gerekmektedir. Bu sayede Google’a gerekli düzenlemelerin yapıldığını basit bir biçimde bildirebilirsiniz.
2. robots.txt Hatalarını Düzeltin
Sitenizde bir robots.txt dosyası yer alıyorsa test aracını çalıştırdıktan sonra burada hata yer alıp almadığını inceleyebilirsiniz. Search Console’da yer alan test aracını kullanmak istiyorsanız robots.txt dosyasının yer aldığı URL adresini girmeniz yeterli olacaktır.
Google kullanıcı araçlarına yönelik talimatların neler olduğunu öğrenmek istiyorsanız burada yer alan “onaylandı” ve “engellendi” ibarelerine göz atabilirsiniz. Onaylandı ibaresi varsa söz konusu kullanıcı araçları sitenizde bulunan alanları dizine ekleyecek demektir. Engellendi ibaresi varsa söz konusu kullanıcı araçları sitenizde belirlemiş olduğunuz alanları dizine eklemeyecek demektir.
robots.txt dosyanızda çeşitli hatalar varsa bu durumda dosyanızı gözden geçirip hataları düzeltmelisiniz. Hataları düzelttikten sonra test aracını tekrar çalıştırarak hatanın veya hataların giderilip giderilmediğini öğrenmelisiniz.
Not: Konumuzu yazarken Ayhan Karaman 'ın sitesinden yararlandık.
--
---
Akblog.NET
Konumuzun linki: https://www.akblog.net/2019/04/robotstxt-nedir-tum-detaylaryla.html
YanıtlaSilhttps://plus.google.com/+BorsaIstanbul34