Paling dicari, Cara setting robot txt yang benar

Bagaimana agar mengoptimalkan pencarian di google yaitu dengan masang kode robot.txt.
Mengenal apa itu robot txt , sekilas robot.txt adalah Ketika situs anda berdomain situsanda.com didaftarkan pada mesin pencari (misal google), maka secara otomatis anda memperbolehkan atau menyuruh robot perayap mesin pencari tersebut untuk mengunjungi
dan merayapi situs namadomain.com. Lalu, Pada saat
robot perayap (bot crawler) mesin pencari itu mengunjungi situs anda, file yang pertama kali mereka
rayapi adalah robots.txt yang terletak pada . Jadi, file robots.txt harus diletakkan pada direktori utama atau di folder public_html. File robots.txt itu berisi perintah-
perintah pada bot crawler mengenai halaman mana saja yang boleh diindex atau ditampilkan di mesin
pencari. Hal ini tentu saja untuk melindungi halaman sistem anda untuk diketahui oleh orang-orang. Misalnya halaman Administrator website yang merupakan halaman yang pantang untuk diketahui oleh umum atau diindeks oleh mesin pencari. Disitulah robots.txt
melakukan tugasnya. Sama halnya dengan website, Blog juga memiliki file robots.txt. Hanya saja, robots.txt di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog blogspot, default robots.txt diatur seperti ini:
User-agent: Mediapartners-Google
disallow:
User-agent: *
disallow: /search
allow: /
sitemap: http://blogURL/feed/posts/default?
orderby=UPDATED

Arti dari kode di atas adalah :
1. “User-agent: Mediapartners-Google” : itu berarti bahwa kode yang ditempatkan di bawahnya hanya berlaku untuk Bot Crawler/robot perayap Mediapartners-Google . Mediapartners-Google adalah bot crawler untuk google adsense.
2. “Disallow: ” : Ini berarti bahwa tidak ada batasan halaman merangkak oleh crawler. Dengan kata lain, memungkinkan crawler merangkak semua halaman di
situs.
3. “User-agent: *” : ini berarti bahwa kode/perintah yang
ditempatkan di bawahnya berlaku padasemua robot crawler (diwakili dengan kode ‘*’).
4. “disallow: /search” : melarang crawler untuk menjelajah url yang memiliki awalan urlbloganda.com/
search.
5. “allow: /” : Membiarkan crawler merayapi semua halaman kecuali yang dicantumkan pada perintah
disallow.
6. “Sitemap: ” : Ini adalah sitemap dari situs Anda yang diberitahukan kepada crawler agar mudah ketika
menjelajahinya lagi. Sitemap berisi semua link yang ada disitus untuk dirayapi crawler.
Kesimpulan :
– File robots.txt memperbolehkan crawler google
adsense (User-agent:Mediapartner-Google) untuk
menjelajah semua halaman situs anda
– Mengijinkan semua crawler dari mesin pencari
manapun (User-agent:* ) merangkak semua halaman
blog Anda kecuali halaman dengan url yang memiliki
awalan urlblog.com/search . Karena halaman dengan
url awalan itu merupakan halaman-halaman arsip dan
label.
Cara Mengatur Robots.txt
Jika Anda ingin memodifikasi atau mengatur robots.txt Anda, terlebih dahulu Anda harus berhati-hati dan
paham betul karena kesalahan pengaturan bisa membuat website anda tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.
A. Memblokir Url
Tidak hanya kode yang saya jelaskan di atas yang
dapat digunakan dalam robots.txt. Contoh kasus, misalnya anda ingin memblokir posting tertentu agar
tidak diindeks oleh semua mesin pencari, anda dapat
melakukannya dengan menempatkan kode dibawah ini.
user-agent: *
disalllow: /2012/11/url-permalink-posting.html
Kode yang saya blok diatas merupakan contoh
struktur url permalink posting blogspot yang di blokir
tanpa menuliskan nama domain web di depannya.
B. Memblokir Folder/direktori
Untuk memblokir folder atau direktori (termasuk isinya)
pada situs anda, Anda dapat melakukannya seperti
pada contoh dibawah. Saya menggunakan direktori
pada web dengan wordpress self hosted agar lebih
familiar.
user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
Kode diatas berarti melarang bot crawler untuk
merayapi semua file web yang ada di dalam folder
cgbin, wp-admin, wp-includes serta folder plugins,
cache, dan themes yang merupakan sub-directory dari
folder wp-content.
C. Memblokir URL Yang Mengandung Karakter/kata
Tertentu
Dengan robots.txt kita juga dapat memblokir url yang
memiliki karakter/kata tertentu agar tidak diindeks di
mesin pencari. Misalnya saya menggunakan karakter
tanda tanya (?) yang biasanya dipakai pada url untuk
query string atau pencarian pada web tertentu yang
menyebabkan duplikat. user-agent: * disallow: /*?* #
untuk memblok semua url yang mengandung “?”.
allow: /*?$ #untuk membolehkan akses pada semua url
yang memiliki akhiran “?”
C. Memblokir Akses Pada Ekstensi/format File Tertentu
Kita juga dapat mengatur robots.txt untuk memblokir
file dalam situs anda dengan format tertentu. Misalnya,
kita akan memblokir file dengan format php (php), css
(css) dan javascript (js).
user-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$
User Agent
Saat mengatur robots.txt, Anda dapat mengatur mana
saja bot crawler yang diperbolehkan atau dilarang
untuk mengakses atau merayapi web anda secara
spesifik. Oleh karena itu, Anda harus mengetahui nama
beberapa bot crawler dari mesin pencari paling
terkenal.
Google Adsense : Mediapartners-google
Google Search Engine : Googlebot
Altavista : Scooter
Lycos : Lycos_Spider_ (T-Rex)
Alltheweb : FAST-WebCrawler /
Inktomi : Slurp
Yahoo : Yahoo Slurp
MSN : msnbot

Itulah postingan tentang mengenal dan memasang kode robot txt pada blog atau situs web. Artikel saya copy paste dari pencarian google dengan keyword memasang robot txt yang benar agar dirayapi secara sempurna.

Tag : SEO

Related Post:

0 Comments for "Paling dicari, Cara setting robot txt yang benar"

Back To Top