Login
Membuat Web Crawl Sederhana

Membuat Web Crawl Sederhana

apa itu Web Crawler?

Web Crawler merupakan sebuah Bot Internet yang digunakan untuk menelusuri World Wide Web dan melakukan indexing kepada tiap tiap website agar nantinya bisa kita pakai sebagai sumber referensi tanpa harus menelusuri lagi Website tersebut. Adapun nama lain dari web crawler adalah Web Spider


Beberapa mesin pencarian terkemuka seperti Google, Yahoo, & Bing sudah lama memakai metoda ini untuk meng-index semua website yang ada diseluruh dunia. Dan mungkin yang paling populer adalah Web Crawler dari Google yaitu Googlebot (sedikit referensi dari wikipedia http://en.wikipedia.org/wiki/Googlebot)


bagaimana mengimplementasikan Web Crawler itu sendiri?

Pertama kita harus mempersiapkan plug-in/library yang mumpuni untuk meng-handle semua kebutuhan kita dalam meng-implementasi-kan Web Crawler

Beberapa referensi plug-in/library yang bisa sobat coba di beberapa bahasa pemrograman yaitu sebagai berikut :

Selanjutnya agan harus mulai membuat code code dasar untuk mengambil data dari website tujuan, kebetulan saya masih newbie & hanya memahami 1 bahasa pemrograman server side yaitu PHP maka dari itu saya akan berikan contoh sederhana meggunakan PHP seperti contoh dibawah ini:

<?php

// menambahkan library simple html dom
include("simple_html_dom.php");

// URL target
$target = 'http://site.com';

// fungsi untuk mengambil semua link lalu disimpan dalam bentuk array
function getlink($url){

   $html = file_get_html($url);

   $links = $html->find('a');

   return $links;

}

// memanggil fungsi getlink(array) lalu memecahnya
foreach (getlink($target) as $link) 
{

   if(isset($link->href))
   {

     // hanya menampilkan link yang mempunyai domain yang sama dengan target
     $domain = parse_url($target, PHP_URL_HOST);

     if (preg_match("/$domain/", $link->href)) 
     {

       echo $link->href.'<br>';

     }

   }

}

contoh di atas hanyalah contoh sederhananya yang hanya mengambil link2 yang ada di 1 page saja, sobat bisa mengembangkan dan bereksperimen misalnya link yang dihasilkan akan di crawl kembali sehingga kita bisa mengambil semua link yang ada dalam 1 website bukan hanya 1 page saja :)


Setelah data yang diinginkan telah berada ditangan selanjutnya terserah agan dan aganwati, entah itu hanya akan dibuang atau akan disimpan atau diproses kembali itu saya kembalikan kepada yang membuat. DEMO

Tags: #PHP