Aplikasi Web Crawler Untuk Web Content Pada Mobile
Aplikasi Web Crawler Untuk Web Content Pada Mobile
net/publication/274719247
CITATION READS
1 1,622
3 authors, including:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Ahmad Hoirul Basori on 13 May 2016.
ABSTRACT
Crawling is the process behind a search engine, which served through the World Wide Web in a structured and with certain
ethics. Applications that run the crawling process is called Web Crawler, also called web spider or web robot. The growth
of mobile search services provider, followed by growth of a web crawler that can browse web pages in mobile content type.
Crawler Web applications can be accessed by mobile devices and only web pages that type Mobile Content to be explored
is the Web Crawler.
Web Crawler duty is to collect a number of Mobile Content. A mobile application functions as a search application that
will use the results from the Web Crawler. Crawler Web server consists of the Servlet, Mobile Content Filter and datastore.
Servlet is a gateway connection between the client with the server. Datastore is the storage media crawling results. Mobile
Content Filter selects a web page, only the appropriate web pages for mobile devices or with mobile content that will be
forwarded.
Keywords: search engine, web crawler, mobile device, mobile content, servlet
ABSTRAK
Crawling adalah proses di belakang sebuah search engine, yang bertugas menelusuri World Wide Web secara terstruktur
dengan etika-etika tertentu. Aplikasi yang menjalankan proses crawling disebut Web Crawler, atau disebut web spider
atau web robot. Tumbuhnya penyedia jasa pencarian mobile, menyebabkan tumbuhnya kebutuhan akan web crawler yang
dapat menelusuri halaman-halaman web yang bertipe mobile content. Aplikasi Web Crawler dapat diakses oleh peralatan
mobile dan hanya halaman-halaman web yang bertipe Mobile Content yang akan ditelusuri Web Crawler ini.
Web Crawler bertugas untuk mengumpulkan sejumlah Mobile Content. Sebuah aplikasi mobile berfungsi sebagai aplikasi
pencarian yang akan memanfaatkan hasil dari Web Crawler. Server Web Crawler terdiri dari Servlet, Mobile Content
Filter dan Datastore. Servlet merupakan portal koneksi antara client dengan server. Datastore merupakan media-media
penyimpanan hasil crawling. Mobile Content Filter menyeleksi suatu web page, hanya web page yang sesuai untuk
peralatan mobile atau berisi mobile content yang akan diteruskan.
Kata Kunci: search engine, web crawler, mobile device, mobile content, servlet
Tren yang muncul saat ini, pengguna internet lebih se- nya penyedia jasa pencarian mobile, menyebabkan tum-
ring mengakses internet dari search engine daripada lang- buhnya kebutuhan akan web crawler yang dapat menelusuri
sung ke portal tertentu. Tren ini bukan hanya terjadi pada halaman-halaman web yang bertipe mobile content. Mo-
pengguna internet dari PC tetapi juga terjadi pada peng- bile Content adalah halaman-halaman web yang dapat di-
guna Mobile internet [1]. Jika sebelumnya pengguna lebih tampilkan oleh peralatan Mobile.
banyak mengakses ke suatu portal, seperti Yahoo, sekarang
pengguna lebih memilih menggunakan search engine un- WEB CRAWLER
tuk mengakses web secara lebih luas. Hal tersebut menye-
babkan pencarian secara Mobile mendominasi akses infor- Definisi Web Crawler
masi bagi penggunanya, seperti halnya pada World Wide Web Crawler adalah sebuah program yang melintasi
Web. Dan tentu saja terjadi perkembangan signifikan ak- struktur hypertext dari web, dimulai dari sebuah alamat
tifitas industri search engine untuk peralatan Mobile dari awal (yang disebut seed) dan secara sekursif mengunjungi
penyedia jasa search engine yang sudah terkenal. Google alamat web di dalam halaman web. Web Crawler juga
dan Yahoo telah merilis sejumlah solusi pencarian Mobile dikenal sebagai web robot, spider, worm, walker dan wan-
termasuk pencarian secara lokal dan pencarian melalui SMS. derer. Semua search engine besar menggunakan crawler
Selain mereka, mulai bermunculan penyedia jasa baru yang yang mampu melintasi internet secara terus-menerus, un-
menyediakan jasa pencarian secara Mobile, seperti Mooobl, tuk menemukan dan mengambil halaman web sebanyak
4info, UpSnap, dan Technorati Mobile. mungkin. Selain untuk search engine, web crawler juga
Crawling adalah proses di belakang sebuah search en- digunakan untuk beberapa penelusuran khusus, seperti im-
gine, yang bertugas menelusuri World Wide Web secara ter- plementasi penelusuran alamat email. Hal tersebut meng-
struktur dengan etika-etika tertentu. Aplikasi yang men- akibatkan jumlah dan variasi dari web crawler juga se-
jalankan proses crawling disebut Web Crawler, atau dise- makin banyak.
but juga web spider atau web robot. Web crawler bertugas Usia teknologi Web Crawler bisa dikatakan hampir se-
menelusuri setiap link pada halaman Web di internet dan umur dengan web [3]. Aplikasi crawler pertama adalah
menyimpannya untuk digunakan lebih lanjut [2]. Tumbuh- World Wide Web Wanderer. Crawler tersebut merupakan
127
Volume 7, Nomor 3, Januari 2009 : 127–134
128
Sarwosri, Aplikasi Web Crawler untuk Web Content pada Mobile Phone
Analisa Sistem
Tabel 1: Perbandingan CLDC dan CDC
Sistem Client
CLDC CDC Berikut adalah fitur-fitur fungsi yang disediakan oleh sis-
Mengimplementasikan Mengimplementasikan tem di sisi client.
subset dari J2SE seluruh fitur dari J2SE 1) melakukan crawling ke server dari file XML.
2) mengubah alamat server yang digunakan.
JVM yang digunakan JVM yang digunakan 3) melihat daftar crawling yang telah dilakukan.
lebih dikenal lebih dikenal 4) melihat halaman web hasil crawling dalam browser.
dengan KVM dengan CVM 5) mendaftarkan client dengan unique id.
Digunakan pada perangkat Digunakan pada perangkat
6) meminta server untuk memulai proses crawling.
handled dengan handled dengan 7) mengecek status proses crawling.
ukuran memori ukuran memori 8) meminta hasil proses crawing.
terbatas (160-512 Kbytes) minimal 2 Mbytes 9) meminta halaman web dari suatu URL hasil crawling.
Sistem Server
Prosesor: 16 Bit Prosesor: 32 Bit Berikut adalah fitur-fitur fungsi yang disediakan oleh sis-
atau 32 Bit tem di sisi server. Server dapat melakukan crawling dari
file XML, jika timestamp file XML kurang dari 6 jam.
Server juga dapat melakukan crawling dari database, jika
timestamp file XML lebih atau sama dengan 6 jam. Selain
Ada dua macam kategori J2ME saat ini diantaranya itu server masih tetap dapat melakukan crawling secara on-
adalah CLDC (Connected Limited Device Configuration) line jika tidak ditemukan data crawling di file XML dan
dan CDC (Connected Device Configuration). CLDC umum- di database. Terkait dengan hasil crawling, server dapat
nya digunakan untuk aplikasi Java pada ponsel semacam menyimpan hasil tersebut ke file XML maupun ke database.
Nokia, Siemens, PDA, Palm, PocketPC dan two way pagers Pada Gambar 9 ditunjukkan diagram use case untuk
dengan memori standar 160-512 Kbytes. Sedangkan CDC client, sedangkan pada Gambar 10 diberikan diagram use
umumnya digunakan untuk aplikasi Java pada perangkat case untuk server.
Handled Device dengan ukuran memori paling tidak 2 MB.
Perbandingan keduanya bisa dilihat pada Tabel 1.
Perancangan
Pada bagian perancangan data diberikan dua gambaran
METODOLOGI pemodelan. Rancangan pertama adalah rancangan model
Pada penelitian ini dibangun suatu server Web Crawler data konseptual (Conceptual Data Model, CDM). Sedan-
yang mengumpulkan sejumlah mobile content web. Selain gkan rancangan yang kedua adalah rancangan model data
itu implementasi aplikasi mobile sebagai aplikasi pencari- fisik (Physical Data Model, PDM). Pada Gambar 11 ditun-
an yang akan memanfaatkan indeks hasil dari Web Crawler jukkan rancangan data fisik PDM yang akan menjadi tabel
juga dilakukan. Tahapan yang dikerjakan pada penelitian di database.
ini meliputi analisa sistem, perancangan dan implementasi. Perangkat lunak untuk integrasi kebutuhan non fung-
Sistem dibedakan menjadi sistem pada client dan server. sional pada diagram use case dan skenario ini menggu-
129
Volume 7, Nomor 3, Januari 2009 : 127–134
130
Sarwosri, Aplikasi Web Crawler untuk Web Content pada Mobile Phone
tarmuka ini terbagi menjadi beberapa halaman, yaitu menu Pada Gambar 16 pertama-tama pengguna memilih me-
utama, inputform, process, hasil crawling, history, setting- nu [New Crawling]. Kemudian pengguna akan memasuk-
form, dan about. Implementasi antarmuka ditunjukkan pada kan seed_url dan maksimum crawling seperti pada Gam-
Gambar 14. bar 16. Lalu pengguna mengirim request tersebut dengan
memilih [Menu > Send] seperti pada Gambar 17. Setelah
UJI COBA itu akan tampil pilihan untuk melakukan online crawling
atau offline crawling seperti pada Gambar 18. Pengguna
Parameter keberhasilan uji coba adalah semua fungsi memilih [Ok]. Kemudian proses crawling akan berjalan
use case pada sisi client dan sisi server bisa dilakukan. dan akan muncul tampilan progress dari proses seperti pada
Gambar 19. Angka di samping progress itu adalah jumlah
Uji Coba Online Crawling URL yang sudah diproses. Setelah proses crawling sele-
Pada uji coba ini dilakukan dengan cara pengguna hand- sai akan muncul daftar URL hasil crawling seperti pada
phone memasukkan seed_url dan maksimum crawling lalu Gambar 20. Setelah itu pengguna dapat memilih salah satu
memilih online crawling. Adapun langkah-langkah terlihat URL untuk ditampilkan pada browser.
pada Gambar 15 - Gambar 20.
131
Volume 7, Nomor 3, Januari 2009 : 127–134
Gambar 14: Halaman Menu Utama Gambar 16: Input Seed URL dan Max Crawl
Uji Coba Offline Crawling Lalu proses crawling akan berjalan, dan akan muncul
Pada uji coba ini dilakukan dengan cara pengguna hand- tampilan progress dari proses seperti pada Gambar 18. Pro-
phone memasukkan seed_url dan maksimum crawling lalu ses tersebut akan berjalan lebih cepat karena proses berlang-
memilih offline crawling. Adapun langkah-langkah terli- sung secara offline. Angka di samping progress itu adalah
hat pada Gambar 21 - Gambar 23. jumlah url yang sudah diproses. Setelah proses crawling
Pertama-tama pengguna memilih menu New Crawling selesai, akan muncul daftar url hasil crawling seperti Gam-
seperti pada Gambar 15. Kemudian pengguna akan mema- bar 19.
sukkan seed_url dan maksimum crawling seperti pada Gam- Setelah itu pengguna dapat memilih salah satu url un-
bar 16. Lalu mengirim request tersebut dengan memilih tuk ditampilkan pada browser.
menu Menu > Send, seperti pada Gambar 16. Setelah itu,
akan tampil pilihan untuk melakukan online crawling atau Uji Coba View History
offline crawling seperti pada Gambar 17. Pengguna bisa Pada uji coba ini dilakukan dengan cara pengguna hand-
memilih Cancel. phone memilih menu history, seperti pada Gambar 20 dan
132
Sarwosri, Aplikasi Web Crawler untuk Web Content pada Mobile Phone
Gambar 19: Crawling Sedang Diproses Gambar 23: Tampilan Halaman Web Pada Browser
SIMPULAN
Setelah dilakukan serangkaian uji coba dan analisa ter-
hadap perangkat lunak yang dibuat, maka dapat diambil
kesimpulan sebagai berikut. Proses pendahuluan dari crawl-
ing yaitu proses koneksi antara client dan server sudah
berhasil dilaksanakan. Setelah dilakukan crawling maka
proses pengiriman file XML hasil crawling juga sudah ber-
hasil. Untuk kemudahan pengguna melihat hasil crawling,
fitur proses filtering Mobile Content dengan menggunakan
beberapa identifikator sudah berhasil. Kemudian tampi-
lan akhir pada browser juga sudah berhasil terintegrasi ke
aplikasi meskipun tampilan tersebut belum bisa dikatakan
sempurna
Gambar 21: Daftar History Crawling
133
Volume 7, Nomor 3, Januari 2009 : 127–134
DAFTAR PUSTAKA [4] Koster, M.: A Standard for Robot Exclusion. (2008)
[1] LeClaire, J.: Mobile Browsing Heads Toward the [5] Schildt Herbert, H.J.: Crawling The Web With Java.
Mainstream. (2008) McGraw-Hill (2005)
[2] Takeno, H.: Developing Web Crawler for Massive Mo- [6] Paul J. Timmins, Sean McCormick, E.A.C.E.W.:
bile Search Service. IEEE (2006) Characteristics of Mobile Web Content. Worcester
Polytechnic Institute (2006)
[3] Salahuddin, M.: Pemrograman J2ME: Belajar Cepat
Pemrograman Perangkat Lunak Mobile. Informatika
(2006)
134