hadoop cluster mohamad dani-libre

9
  Analisis Performansi Hadoop Cluster Multi Node pada Komputasi Dokumen Delis Permatasari 1) [email protected] Mohammad Dani, M.T. 2)  [email protected] Mia Rosmiati, S.Si., M.T. 3) [email protected] 1) 3) Program Studi Teknik Komputer Peminatan Teknik Jaringan Politeknik Telkom Bandung 2) Teknik Elektro Universitas Kebangsaan Bandung ABSTRAK Pengimplementasian sebuah aplikasi cluster  merupakan salah satu cara dalam proses pendistribusian data, karena akan berdampak positif dalam peningkatan pros es kinerja dan pengembangan sistem untuk pe ngolahan data tersebut. Semakin berkembangny a dunia teknologi , diman a pertumbuha n da ta yang sangat cepat dan semakin lama semakin besar. Hal ini memungkinkan suatu strategi khusus untuk menyiasati cara pengolahan data yang besar dengan cepat, akurat dan efisien. Untuk mengatasi permasalahan diatas, Apache Hadoop menerapkan komputasi p aralel dengan menggunakan aplikasi terdistribusi, yang dirancang secara efisien mendisitribusikan sejumlah pekerjaan besar dalam mesin cluster. Apache Hadoop menggembangkan beberapa  project  diantaranya  Hadoop Distribution File System (HDFS) dan  MapReduce framework  untuk menyelesaikan pengolahan data.yang besar berbasis java dan open  source. Aplikasi Hadoop juga dapat digunakan untuk menghitung pembobotan dokumen dan menganalisis proses yang sedang berjalan di sistem tersebut. Tujuan proyek akhir ini diharapkan dengan bertambahnya jumlah node dan perubahan  parameter dapat meningkatkan kinerja cluster dal am menyelesaikan suatu proses.  Kata Kunci  : Hadoop, Cluster, MapReduce, HDFS, Komputasi Paralel 1. Pendahuluan 1.1 Latar Belakang Semakin berkembangnya dunia teknologi, dimana  pertumbuhan data yang sangat cepat dan semakin lama semakin besar. Hal ini memungkinkan suatu strategi khusus untuk menyiasati cara pengolahan data yang besar dengan cepat, akurat dan efisien. Pada kenyataanya data yang berkembang di dalam digital-universe.  Estimate data elektronik mencapai 0,18 zettabyte pada tahun 2006 dan akan diramalkan  pada tahun 2006 dan akan diramalkan tumbuh sepuluh kali lipat mencapai 1,8 zettabyte pada tahun 2011 (White,2009). Tetapi infrastuktur dari sebuah media penyimpanan memiliki kendala terutama dalam kecepatan transfer, sehingga membutuhkan waktu yang cukup lama untuk membaca keseluruhan data. Adakalanya aplikasi yang dibuat membutuhkan ko mputer dengan sumber daya yang tinggi sebagai lingkungan yang tinggi seb aga i lingkun gan implementasi dan biasanya harga untuk komputer dengan sumber daya yang tinggu tidaklah murah, sedangkan untuk komputer dengan spesisfikasi yang tidak terlalu tinggi akan kurang reliable dalam menangani data yang begitu besar (Venner,2009). Dengan demikian, teknologi dalam skala besar yang  berhubungan dengan peningkatan kinerja sistem  benar-benar di butuhkan. Terinsipirasi oleh Google File System (GFS) dan  MapReduce yang dikembangkan oleh Google, Maka Apache Hadoop menerapkan komputasi  paralel dengan menggunakan aplikasi terdistribusi, yang dirancang secara efisien mendisitribusikan sejumlah pekerjaan besar dalam mesin cluster. Apache Hadoop mengembangkan beberapa project diantaranya Hadoop Distributed File System (HDFS) dan MapReduce Framework untuk menyelesaikan  pe rma sa lah an dengan melibatkan data yang besar yang  be rba sis ka n  java dan open source. Hadoop Cluster mempunyai kelebihan dari segi ekonomi karena tidak  berbay ar dan dapat diimplementasikan pada perangkat keras dengan spesifikasi yang tidak terlalu tinggi. Berdasarkan pemaparan diatas, proyek akhir ini akan di rancang sistem hadoop cluster untuk melakukan  perhitungan pembobotan dokumen sistem dan analasis proses yang sedang berjalan di sistem tersebut. Diharapkan dengan bertambahnya jumlah

Upload: aditya-wijayanto

Post on 05-Feb-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 1/9

 

Analisis Performansi Hadoop Cluster Multi Node pada Komputasi Dokumen

Delis Permatasari1)

[email protected]

Mohammad Dani, M.T.2) 

[email protected]

Mia Rosmiati, S.Si., M.T.3)

[email protected]

1) 3)Program Studi Teknik Komputer Peminatan Teknik Jaringan Politeknik Telkom Bandung 

2)Teknik Elektro Universitas Kebangsaan Bandung 

ABSTRAK

Pengimplementasian sebuah aplikasi cluster  merupakan salah satu cara dalam proses pendistribusian data,

karena akan berdampak positif dalam peningkatan proses kinerja dan pengembangan sistem untuk pengolahan datatersebut. Semakin berkembangnya dunia teknologi , dimana pertumbuhan data yang sangat cepat dan semakin lama

semakin besar. Hal ini memungkinkan suatu strategi khusus untuk menyiasati cara pengolahan data yang besar dengan

cepat, akurat dan efisien.

Untuk mengatasi permasalahan diatas, Apache Hadoop menerapkan komputasi paralel dengan

menggunakan aplikasi terdistribusi, yang dirancang secara efisien mendisitribusikan sejumlah pekerjaan besar dalam

mesin cluster. Apache Hadoop menggembangkan beberapa  project   diantaranya  Hadoop Distribution File System 

(HDFS) dan  MapReduce framework   untuk menyelesaikan pengolahan data.yang besar berbasis java dan open

 source.

Aplikasi Hadoop juga dapat digunakan untuk menghitung pembobotan dokumen dan menganalisis proses yang

sedang berjalan di sistem tersebut. Tujuan proyek akhir ini diharapkan dengan bertambahnya jumlah node dan perubahan

 parameter dapat meningkatkan kinerja cluster dalam menyelesaikan suatu proses.

 Kata Kunci  : Hadoop, Cluster, MapReduce, HDFS, Komputasi Paralel

1. 

Pendahuluan

1.1 Latar Belakang

Semakin berkembangnya dunia teknologi, dimana

 pertumbuhan data yang sangat cepat dan semakin

lama semakin besar. Hal ini memungkinkan suatu

strategi khusus untuk menyiasati cara pengolahan

data yang besar dengan cepat, akurat dan efisien.

Pada kenyataanya data yang berkembang di dalam

digital-universe.  Estimate data elektronik mencapai

0,18 zettabyte pada tahun 2006 dan akan diramalkan

 pada tahun 2006 dan akan diramalkan tumbuh

sepuluh kali lipat mencapai 1,8 zettabyte pada tahun

2011 (White,2009). Tetapi infrastuktur dari sebuahmedia penyimpanan memiliki kendala terutama

dalam kecepatan transfer, sehingga membutuhkan

waktu yang cukup lama untuk membaca keseluruhan

data.

Adakalanya aplikasi yang dibuat membutuhkan ko

mputer dengan sumber daya yang tinggi sebagai

lingkungan yang tinggi sebagai lingkungan

implementasi dan biasanya harga untuk komputer

dengan sumber daya yang tinggu tidaklah murah,

sedangkan untuk komputer dengan spesisfikasi yang

tidak terlalu tinggi akan kurang reliable dalam

menangani data yang begitu besar (Venner,2009).

Dengan demikian, teknologi dalam skala besar yang

 berhubungan dengan peningkatan kinerja sistem

 benar-benar di butuhkan.

Terinsipirasi oleh Google File System (GFS) dan

 MapReduce yang dikembangkan oleh Google,

Maka Apache Hadoop menerapkan komputasi

 paralel dengan menggunakan aplikasi terdistribusi,

yang dirancang secara efisien mendisitribusikan

sejumlah pekerjaan besar dalam mesin cluster.

Apache Hadoop mengembangkan beberapa project

diantaranya Hadoop Distributed File System (HDFS)

dan MapReduce Framework untuk menyelesaikan permasalahan dengan melibatkan data yang besar yang

 berbasiskan  java  dan  open source.  Hadoop Cluster

mempunyai kelebihan dari segi ekonomi karena tidak

 berbayar dan dapat diimplementasikan pada perangkat

keras dengan spesifikasi yang tidak terlalu tinggi.

Berdasarkan pemaparan diatas, proyek akhir ini akan

di rancang sistem hadoop cluster untuk melakukan

 perhitungan pembobotan dokumen sistem dan

analasis proses yang sedang berjalan di sistem

tersebut. Diharapkan dengan bertambahnya jumlah

Page 2: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 2/9

 

node  dapat meningkatkan kinerja cluster   dalam

menyelesaikan suatu proses. 

1.2 Perumusan MasalahBerdasarkan latar belakang diatas maka

rumusan masalah, yaitu:

1. 

Bagaimana merancang hadoop cluster

dengan sistem operasi ubuntu 10.04.

2. 

Bagaimana implementasi hadoop cluster

 pada komputasi dokumen untuk

meningkatkan meningkatkan kinerja

cluster ?

3. 

Bagaimana implementasi mesin cluster agar

dapat dimanfaatkan dan digabungkan satu

sama lain sehingga dapat bekerja sama?

4.  Apakah penggunaan jumlah node  dan

 perubahan parameter yang bekerja pada

sebuah cluster dapat berpengaruh terhadap

kinerja sistem.

1.3 Tujuan

Tujuan dari Proyek Akhir ini adalah Sebagai

 berikut :

1. 

Membangun hadoop cluster dengan sistem

operasi ubuntu 10.04

2. 

Menerapkan Mapreduce dan HDFS sebagai

aplikasi terdistribusi untuk meningkatkan

kinerja cluster. 

3.  Menganalis performansi hadoop clusterterhadap pengaruh jumlah node di dalam

cluster tersebut.4.

 

Menguji performansi dari sistem cluster

dengan menganalisis pengaruh parameter

replikasi, ukuran blok, dan kapasitas task

map terhadap pengujian HDFS dan waktu

eksekusi mapreduce pada sistem cluster.

1.4 Batasan MasalahUntuk memfokuskan bahasan maka penulis

memberikan batasan masalah dalam Proyek Akhir ini

seperti berikut:

1.  Menggunakan sistem operasi 10.04.

2. 

Dalam implementasi menggunakan 3 buah

 server  dan 1 buah client .3. 

Dalam implementasi menggunakan suatu

file berbentuk dokumen.

4. 

Bagian dari Hadoop  Framework   yang digu

nakan dalam penelitian hanya MapReduce

dan HDFS.

5.  Parameter konfigurasi yang diuji yaitu

 jumlah node, nilai replikasi, ukuran blok,

dan kapasitas taskmap.

6. 

Parameter yang diukur pada pengujian

 performansi yaitu waktu eksekusi untuk

melihat kinerja mapreduce dan nilai

throughput untuk pengujian HDFS.

7. 

Tidak membahas membahas web service 

dan database.

8. 

Tidak membahas sistem Security. 

9. 

Tidak membahas Single point of Failure.

2. Dasar Teori

2.1 Cluster Computing

Cluster computing adalah suatu system

 perangkat keras dan perangkat lunak yang

menggabungkan dan beberapa komputer dalam suatu

 jaringan sehingga komputer-komputer tersebut dapat

 bekerja sama dalam pemrosesan masalah (Rizvi et

al., 2010).

Cluster computing menawarkan sejumlah

manfaat lebih dari kpmputer mainframe, termasuk

(Rizvi et al., 2010):

1. 

Mengurangi biaya yaitu menghemat sumber

daya perangkat yang ada

2. 

Pengolahan  power   yaitu kekuatan

 pemrosesan paralel dari cluster

3. 

Peningkatan jaringan teknologi yaitu

 pengembangan cluster komputer telah

kemajuan besar dalam teknologi yang

 berhubungan dengan jaringan.

4. 

Skalabilitas yaitu cluster cluster komputer

dapat dengan mudah diperluas sebagai

 perubahan persyaratan dengan

menambahkan node tambahan ke jaringan.

5. 

Ketersediaan yaitu ketika komputer

mainframe gagal, seluruh sistem gagal,operasinya bisa dengan sederhana ditransfer

ke node lain dalam cluster ini.

2.2 Apache Hadoop

Hadoop adalah framework software berbasis java

dan open source yang berfungsi untuk mengolah data

yang sangat besar secara terdistribusi dan berjalan di

atas cluster yang terdiri atas beberapa komputer yang

saling terhubung (White, 2008). Hadoop dapat

mengolah data dalam jumlah yang sangat besar

hingga petabyte dan dijalankan diatas ribuan

komputer. Hadoop framework mengatur segalamacam proses detail sedangkan pengembang aplikasi

hanya perlu fokus pada aplikasi logiknya. (White,

2009). Hadoop bersifat open source dan berada

dibawah bendera Apache Software Foundation. Inti

dari hadoop terdiri atas :

1.  HDFS ( Hadoop Distributed File System)

yaitu Data yang terdistribusi.

2.  MapReduce yaitu  Framework   dari aplikasi

yang terdistribusi.

Page 3: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 3/9

 

2.2.1 Hadoop Single NodeHadoop single node untuk sistem ini menggunakan 1mesin. Mesin tersebut didesain menjadi master   tapi

tidak bekerja juga sebagai  slave. Pada mesin singlenode semua proses dilakukan dalam 1 mesin. Hadoopterbagi dua layer yaitu layer HDFS yang menjalankannamenode dan datanode sedangkan layer MapReduceyang menjalankan  Jobtracker   dan Tasktracker. Padakedua layer ini sangat penting aktif yaitu  Namenode dan  Jobtracker, karena apabila dua bagian ada yangtidak jalan maka kerja HDFS dan  MapReduce  tidak bisa dijalankan.

Gambar 2.1

Hadoop Single Node 

2.2.1 Hadoop Multi Node  Haddop multi node menggunakan 2 mesin, 1 untuk

mesin cluster den 1 untuk mesin slave. Kedua mesintersebut dikonfigurasi berupa mesin 2 single. Nodeyang akan digabung menjadi satu mesin multi node

dimana satu mesin akan didesain menjadi master tapidapat bekerja juga menjadi slave, sednagkan mesinyang lain akan menjadi slave.

Gambar 2.2

Hadoop Multi Node

2.2 MapReduceMapReduce pertama kali dikenalkan

oleh Jeffrey Dean dan Sanjay Ghemawat dariGoogle,Inc.  MapReduce adalah model pemogramanterdistribusi yang digunakan untuk melakukan pengolaha data digunakan pengolahan data besar(Ghemawat, 2004).

Model pemrograman  MapReduce membagi proses menjadi dua tahapan, yaitu tahapan  Map  dantahapan Reduce. Map merupakan proses yang berjalan

secara parallel, sedangkan Reduce merupakan proses penggabungan hasil dari proses map.

Gambar 2.4

Proses Mapreduce pada banyak komputer

1. Proses “ Map” yaitu masternode menerima input ,kemudian input tersebut dipecah menjadi beberapasubproblem yang kemudian didistribusikan ke worker

nodes. Worker nodes  ini akan memprosessubproblem yang diterimanya untuk kemudianapabila problem tersebut diselesaikan, maka akandikembalikan ke masternode.2. Proses “ Reduce” yaitu masternode menerima jawaban dari semua subproblem dari banyak datanodes, menggabungkan jawaban-jawaban tersebutmenjadi satu jawaban besar untuk mendapatkan

 penyelesaian dari permasalahan utama, keuntungandari  Mapreduce  ini adalah proses map  dan reducedapa dijalankan secara terdistribusi.

2.4 Hadoop Distributed File System (HDFS)HDFS adalah filesystem yang berbasis java,

yang menyimpan file dalam jumlah besar dan disimpansecara terdistribusi didalam banyak komputer yangsaling berhubungan (White, 2008). Pada umumnyadata replikasi kedalam 3 node yaitu dua rack   yangsama dan satu di  rack   yang berbeda, hal ini bertujuan untuk menjaga realibility dari HDFS. Sistem

 file  membutuhkan  server induk yang dinamakannamenode, berfungsi untuk menyimpan metadata daridalam yang ada didalam. Data tersebut disimpan didalam  server-server   yang dinamakan datanode yangdapat diakses dengan menggunakan protokol HTTP.

 Datanode ini  bisa saling berkomunikasi satusama lain untuk menjaga  konsistensi  data danmemastikan proses replikasi data berjalan dengan baik.

Page 4: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 4/9

 

Gambar 2.5

Arsitektur HDFS

2.5 TestDFSIO

TestDFSIO adalah Aplikasi benchmarkhadoop yang berfungsi untuk menguji kinerja I / Odari HDFS. Hal ini dilakukan dengan menggunakan

 pekerjaan  MapReduce  sebagai cara yang nyamanuntuk membaca atau menulis file secara paralel.Setiap file yang dibaca atau ditulis dalam tugas yangterpisah. TestDFSIO output dari map yang digunakanuntuk mengumpulkan statistik yang berkaitan denganfile hanya diproses.

2.6 WordCount` Wordcount adalah aplikasi benhcmark hadoop yang berfungsi untuk menghitung tingkat kemiripan darisetiap kata dalam sebuah large documents.Wordcount   merupakan aplikasi penting  MapReduce karena di butuhkan dalam pemetaaan file.

Gambar 2.6

Proses WordCount  dokumen

Operasi wordcount   berlangsung dalalm dua tahap Map dan Reduce 

Pada fase pertama mapper tes ini tokenized dengankata-kata maka kita membentuk pasangan nilai kuncidengan kata-kata di mana kunci menjadi kata itusendiri dan nilai '1 '

Pada tahap reduce phase dikelompokkan bersama dannilai-nilai untuk kunci yang sama ditambahkan.

 Reduce menghasilkan output  pasangan intermediate<key, value>. Sebelum memasuki tahap reduce,

 pasangan intermediate <key, value> dikelompokkan berdasarkan key, tahap ini dinamakan tahap shuffle. 

2.7 CactiCacti adalah salah satu software yang digunakanuntuk keperluan monitoring Cacti menyimpan semuadata/informasi yang diperlukan untuk membuatgrafik dan mengumpulkannya dengan databaseMySQL. Untuk menjalankan Cacti, diperlukansoftware pendukung seperti MySQL, PHP,RRDTool, net-snmp, dan sebuah webserver yangsupport PHP seperti Apache atau IIS.

2.8 UbuntuUbuntu adalah sistem operasi turunan dari distro

Linux jenis Debian unstable (sid), Ubuntu merupakan project untuk komunitas, yang bertujuan untuk

menciptakan sebuah sistem operasi beserta dengan paket aplikasinya yang bersifat free dan open source,karena Ubuntu mempunyai prinsip untuk selamanya bersifat gratis ( free of charge) dan tidak adatambahan untuk versi enterprise edition.

3 Analisis Kebutuhan Dan Perancangan

3.1 Identifikasi Kebutuhan

Adapun alur perngerjaan sebagai berikut:

Start

PerancangandanImpelementasi

Pengambilan

data

 Analisis

Kesimpulan   End

InstalasiServer 

PengumpulanDokumentasi

PerumusanMasalah

KonfigurasiSistem

 

Gambar 3.1

Alur Pengerjaan

Page 5: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 5/9

 

3.2 Perancangan Sistem

3.2.1 Arsitektur Sistem

Adapun arsitektur sistem yang direncanakan

dalam proyek akhir ini adalah sebagai berikut:

Gambar 3.2

Arsitektur Sistem

3.2.2 Skenario Pengujian MapReduceBerikut adalah skema dari arsitektur sistem

yang telah dirancang dalam Proyek Akhir ini:

Gambar 3.3

Proses kinerja MapReduce 

3.2.2 Skenario Pengujian HDFS

Skenario Pengujian HDFS ini bertujuan untuk meli

hat  performansi nilai throughput  pada  Hadoop

 Distrubuted File System (HDFS) dari sistem cluster .

Gambar 3.4

Proses kinerja Write pada HDFS

Gambar 3.5

Proses kinerja Read  pada HDFS

3.2.2 Skenario Pengujian Multi node Cluster  

Gambar 3.6

Proses Pengujian Multi Node 

Page 6: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 6/9

 

4 Implementasi dan Pengujian

4.1 Implementasi1.  Pertama melakukan instalasi java pada tiap

server dengan perintah:#apt-get install sun-java6-jdk sun-java6- plugin

2.  Melakukan instalasi ssh dan rsync sebaagaiaplikasi remote server.$apt-get openssh-server$apt-get rsync

3. 

Menambah alamat ip pada konfigurasi jaringan pada tiap host dengan perintah$nano /etc/hosts

4.  Sebelum melakukan instalasi, downloadhadoop terlebih dahulu kemudain dapatmelakukan Instalasi Hadoop-02.02 perintahdengan perintah :$ cd /usr/local/$sudo tar –xvf hadoop-0.20.2 tar.gz$sudo chown -R padlis:hadoop hadoop-0.20.2

5. 

Karena hadoop berplatform aplikasi java maka penulis menambahkan konfigurasi padaaplikasi hadoop :$cd /usr/local/hadoop-0.20.2/conf$nano /hadoop-env.sh# The java implementation to use. Required.export JAVA_HOME=/usr/lib/jvm/java-6-sun

6.  Kemudian penulis melakukan konfigurasihadoop untuk merubah parameter dalam

memproses dokumen.$ cd /usr/local/hadoop-0.20.2/conf$ nano /core-site.xml$ nano /mapred-site.xml$ nano /hdfs-site.xml

7. 

Kemudian format node dari file system$cd /usr/local/hadoop-0.20.2$bin/hadoop namenode -format

8.  Menjalankan java proses server hadoop$ cd /usr/local/hadoop-0.20.2$ bin/start-dfs.sh$ bin/mapred-dfs.sh

9.  Menjalankan aplikasi Mapreduce

$ bin/hadoop dfs –ls$ bin/hadoop dfs –copyFromLocal/home/padlis/wt/256Mb /usr/padlis/128 MB/

10. Kemudian penulis menjalankan wordcount$ bin/hadoop jar hadoop-*-examples.jarwordcount/usr/padlis/256mb/usr/test/wtcount/256r3-output

11. 

Menjalankan aplikasi TestDFSIO$ hadoop jar $HADOOP_INSTALL/hadoop-

*-test.jar TestDFSIO -write -nrFiles 1 -

 fileSize 128 

$ hadoop jar $HADOOP_INSTALL/hadoop-

*-test.jar TestDFSIO -read -nrFiles 1 -

 fileSize 128 

12. 

Melakukan instalasi apache2 untukmenggunakan aplikasi monitoring cacti.$apt-get install apache2$apt-get install cacti

13. Tampilan web interface hadoop14.  t

15. 

Gambar 4.1

Web Interface  Namenode 

Gambar 4.2

Web Interface JobTracker

Gambar 4.3Web Interface Tasktracker  

4.2 Hasil Pengujian

4.2.1 Pengujian pada Aplikasi WordCount  Berikut ini hasil pengujian pada aplikasi wordcountdengan mengukur waktu per  second  pada proseshadoop tersebut. Berdasarkan skenario pengujian:

Page 7: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 7/9

 

Tabel 4.1

Hasil Pengujian Wordcount  

Ukuran data 128 Mb 256 MbPengujian 1 676 1431

Pengujian 2 673 1428

Pengujian 3 679 2155

Pengujian 4 1043 2161

Gambar 4.4

Grafik hasil Pengujian Wordcount

Dari hasil pengujian secara keseluruhan,

 bahwa ada perbedaan waktu komputasi pada

 pengujian 1 sampai pengujian 4. Selisih waktu antara

 jumlah file 128 MB dan 256 MB menggunakan

MapReduce mencapai 3865 detik sehingga kecepatan

komputasi dengan jumlah file yang sangat kecil yang

dibutuhkan semakin cepat.

4.2.2 Pengujian Aplikasi TestDFSIO

Tujuan Pengujian untuk menguji perfomansi dari

sistem cluster   dengan mengubah parameter

 berdasarkan skenario pengujian. Pengujian

mengambil sampel data nilai throughput  pada output

TestDFSIO.

Tabel 4.2

Tabel Pengujian TestDFSIO Write 

Ukuran data 128 MB 256 MB

Pengujian 1 9.537 8.490

Pengujian 2 5.855 5.293

Pengujian 3 10.089 9.380

Pengujian 4 10.309 10.069

Tabel 4.3

Tabel Pengujian TestDFSIO Read  

Ukuran data 128 Mb 256 MB

Pengujian 1 113.565 108.253

Pengujian 2 118.177 109.720

Pengujian 3 88.377 37.537

Pengujian 4 86.196 38.838

Write Evaluation

Gambar 4.5

Grafik hasil Pengujian proses write pada HDFS

Secara keseluruhan Performansi write  pada

pengujian 1 sampai dengan pengujian 4 dengan

ukuran file 128 MB dan 256 MB terlihat mirip satu

sama lain. Semakin kecil ukuran file di proses pada

skala fisik mendekati kecenderungan yang sama.

Semakin kecil data yang akan diproses,semakin

besar nilai  throughput   yang diberikan. Proses write 

dengan file direplikasi secara logis menghasilkan

kinerja lebih lambat. Hal itu disebabkan kenaikan

 jumlah nilai throughput ketika melakukan proses

write dipengaruhi nilai replikasi yang diperkecil.

0

1000

2000

3000

128 MB

256 MB

0

2.000

4.000

6.000

8.000

10.000

12.000128 MB,

nrFiles 1

256 MB,

nrFiles 1

128 MB,

nrFiles 2

256 MB,

nrFiles 2

Page 8: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 8/9

 

 Read evaluation

Gambar 4.6

Grafik hasil pengujian proses read  pada HDFS

Pada pengujian 1 sampai pengujian 4 dengan kedua

ukuran file 128 MB dan 256 MB terlihat mirip satu

sama lain dan proses read  lebih cepat daripada proses

write. Performansi  read   file kecil (128 MB) lebih

cepat dibandingkan dengan kumpulan data besar (256

MB). Semakin kecil data yang akan diproses,

semakin besar nilai throughput yang diberikan.

Proses  Read dengan file direplikasi menghasilkan

kinerja yang lebih cepat. Pada proses read walaupun

nilai replikasi 3 membuat jumlah blok lebih banyak

namun tidak terjadi perubahan. Hal ini dikarenakan Namenode tidak membutuhkan waktu ekstra untuk

memberikan waktiu pada Datanode.

4.2.3 Perbandingan Single node dan Multi node

Berikut adalah hasil perbandingan antara Single

node dengan multi node dalam proses eksekusi data.Table ini menunjukan bahwa ada perbandinganantara single node dengan multi node.

:Tabel 4.4

Perbandingan Single node dan Multi node 

Ukuran

data

Blok 64 MB Blok 128 mb

128 MB 256MB

128MB

256MB

Single Node

1969detik

4178detik

1355detik

4192detik

Multinode

676detik

1431detik

673detik

1428detik

Gambar 4.7

Grafik hasil Perbandingan single node dan multi

node

Secara Keseluruhan perbedaan waktu komputasi

wordcount   pada mode  single node  dan mode

distribusi multi node  menggunakan  MapReduce 

sangat terlihat karena jumlah inputan yang sangat

 besar. Performansi multi node lebih cepat di

 bandingkan dengan single node. Selisih waktu antara

mode single node dan mode multi node 

menggunakan MapReduce mencapai 1.521 detik

sehingga kecepatan komputasi pada mode multi node

yang dibutuhkan semakin cepat.

4.2.4 Pengujian Monitoring menggunakan Cacti

Gambar 4.8Monitoring dengan cacti

Gambar 4.9

Monitoring dengan cacti

0

20.000

40.000

60.000

80.000100.000

120.000

128 MB,nrFiles 1

256 MB,

nrFiles 1

128 MB,

nrFiles 2

256 MB,

nrFiles 2

010002000

300040005000

Single node

Multi node

Page 9: Hadoop Cluster Mohamad Dani-libre

7/21/2019 Hadoop Cluster Mohamad Dani-libre

http://slidepdf.com/reader/full/hadoop-cluster-mohamad-dani-libre 9/9

 

Kenaikan jumlah node  membuat rata2  utilitas 

CPU meningkat. Peningkatan konsumsi CPU

disebabkan oleh beban proses yang dikerjakan CPU.

Hal tersebut dikarenakan ketika proses  MapReduce  belangsung ada CPU mengalokasikan waktu untuk

menunggu blok data yang di proses. Karena semakin

 banyaknya jumlah blok yang saling bertukar antar

node sampainya data menjadi lebih lama,

BAB 5 KESIMPULAN DAN SARAN

5.1 KesimpulanBerikut adalah kesimpulan dari hasil pengujian

sistem yang dibuat pada proyek akhir ini dapat :

1.  Dari hasil pengujian  single node  dan multinode  disimpulkan adanya perubahan yang

cukup signifikan antara single node dan multi

node  menggunakan  MapReduce mencapai1.521 detik sehingga kecepatan komputasi

multi node  lebih cepat dibandingkan dengan

komputasi single node.

2.  Faktor yang berpengaruh terhadap

kinerja i/o hdfs adalah  file size  dan

block size. 

5.2 Saran

Berikut adalah saran yang dapat dilakukan dalam

 pengembangan selanjutnya yaitu melakukan query

 pencarian dokumen dengan jumlah data yang sangat besar dan Klusterisasi dokumen yang biasanya

memerlukan jumlah sampel data yang sangat banyak

Referensi[1] Abdurachman, Zaky. (2011). Single Node Cluster

dengan Hadoop.  Jakarta Pusat: InfoLinux Media

Utama.

[2] Apache Hadoop. (2011). Retrieved Februari 10,

2012, from Apache Software Foundation.:

http://hadoop.apache.org/

[2] Fisher, M. (2003).  JDBC(TM), API Tutorial and

 Reference.  California: Sun Microsystem. Inc.

Addison Weys.

[3] Ghemawat., J. D. (2004). MapReduce: Simplified

 Data. California: Google, Inc.

[4] Komputer., W. (2011). Administrasi Jaringan

dengan Linux Ubuntu 11.4. Yogyakarta: Andi.

[5] Rizvi et al. (2010). Distributed Media Player.

 New Delhi.

[5] S.Tanenbaum, A. &. (1995).  Distributed Systems

 Principles and Paradigms.  New Jersey: Prentice

Hall.

[7] Venner, Jason. (2012). Pro Hadoop. United States

of America: Apress.

[8] White, Tom. (2009). Hadoop: The Definitive

Guide. California: 0'Reilly Media, Inc.

[9] White, Tom. (2008). HDFS Reability. California:

Cloudera Inc.