7611040039 - buku ta
TRANSCRIPT
-
7/24/2019 7611040039 - Buku TA
1/135
PROYEK AKHIR
APLIKASI PENDETEKSI KEMIRIPAN LAPORAN
MENGGUNAKAN TEXT M INING DAN CLUSTERING
Fitria Dwi Indah Kusuma
NRP 7611040039
Dosen Pembimbing 1:
Tri Harsono, S.Si., M.Kom., Ph.D.
NIP 196901071994031001
Dosen Pembimbing 2:
Ir. Sigit Wasista, M.Kom.NIP 196608121993031005
Dosen Pembimbing 3:
Aliridho Barakbah, S.Kom,. Ph.D.
NIP 197308162001121001
PROGRAM STUDI TEKNIK KOMPUTER
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2015
-
7/24/2019 7611040039 - Buku TA
2/135
PROYEK AKHIR
APLIKASI PENDETEKSI KEMIRIPAN LAPORAN
MENGGUNAKAN TEXT MI NING DAN CLUSTERING
Fitria Dwi Indah Kusuma
NRP 7611040039
Dosen Pembimbing 1:
Tri Harsono, S.Si., M.Kom., Ph.D.
NIP 196901071994031001
Dosen Pembimbing 2:
Ir. Sigit Wasista, M.Kom.NIP 196608121993031005
Dosen Pembimbing 3:
Aliridho Barakbah, S.Kom., Ph.D.
NIP 197308162001121001
PROGRAM STUDI TEKNIK KOMPUTER
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
20155
-
7/24/2019 7611040039 - Buku TA
3/135
-
7/24/2019 7611040039 - Buku TA
4/135
-
7/24/2019 7611040039 - Buku TA
5/135
iii
-
7/24/2019 7611040039 - Buku TA
6/135
iv
-
7/24/2019 7611040039 - Buku TA
7/135
v
ABSTRAK
Dalam dunia pendidikan, khususnya di lingkungan perkuliahan
yang identik dengan banyaknya jumlah mata kuliah teori maupunpraktikum di setiap semesternya, selalu disertai pula dengan banyaknya
tugas berupa laporan yang harus dikerjakan oleh setiap mahasiswa.
Sebagian besar tugas maupun laporan tersebut berupa soft file. Tidak
jarang seorang mahasiswa melakukan proses copy-paste-modify terhadap
tugas maupun laporan milik mahasiswa lain, bahkan tidak jarang pula
mahasiswa yang melakukan copy-paste hanya mengganti jenisfont yang
digunakan tanpa melakukan perubahan apapun terhadap isi tugas dan
laporan tersebut. Pada penelitian ini dideteksi kemiripan antar laporan
resmi dengan cara membandingkan isi analisa dan kesimpulan darilaporan tersebut yang telah disimpan dalam bentuk teks berupa file .txt
untuk mengetahui tingkat kemiripan antar laporan dimana hasil
pembandingan tersebut dinyatakan dalam bentuk persentase atau nilai
tingkat kemiripan isi antar laporan. Proses pembandingannya dilakukan
dengan memanfaatkan adanya text mining dan clustering. Text mining itusendiri terdiri dari beberapa tahap, yaitu tokenizing, filtering, stemming,
tagging dan analyzing. Proses deteksi kemiripan laporan akan bekerja
lebih optimal ketika diproses melalui tahap stemming dan tagging
meskipun membutuhkan waktu yang lebih lama dibandingkan tanpa
melalui tahap stemming dan tagging. Deteksi kemiripan laporan
menggunakan tahap stemming dan tagging menghasilkan persentase
keberhasilan sebesar 65,19% dan ketika diproses tanpa menggunakan
tahap stemming dan tagging menghasilkan persentase keberhasilan
sebesar 64,23%.
Kata Kunci : kemiripan laporan, text mining, clustering.
-
7/24/2019 7611040039 - Buku TA
8/135
vi
-
7/24/2019 7611040039 - Buku TA
9/135
vii
ABSTRACT
In education world, especially in the lecture environment that is
identical to the large number of theoretical and practical courses in eachsemester, always accompanied with a large number of tasks in the form
of a report tthat should be done by each student. Most of the tasks is soft
file. Sometimes, a student doing copy-paste-modify the report belonging
to another student, even sometimes, students who do copy-paste only
change the type of font without making any changes to the content of the
report. In this study, detected report similarity by comparing the contents
of the analysis and conclusions of the report that has been saved in .txt
file to determine the level of similarity between the report which the result
is expressed as a percentage of similarity between the contents of thereport. The comparison process is done by using text mining and
clustering. Text mining itself consists of several steps, they are tokenizing,
filtering, stemming, tagging and analyzing. Report similarity detection
process will work optimally when it is processed through stemming and
tagging although it requires a longer time compared to without goingthrough stemming and tagging. Report similarity detection using
stemming and tagging generate percentage success 65.19% and when
processed without stemming and tagging generate percentage success 64.23%.
Keywords:report similarity, text mining, clustering.
-
7/24/2019 7611040039 - Buku TA
10/135
viii
-
7/24/2019 7611040039 - Buku TA
11/135
ix
KATA PENGANTAR
Assalamu alaikum Wr. Wb.
Syukur alhamdulillah kepada Allah SWT atas segala rahmat dan
hidayah-Nya sehingga penulis dapat menyelesaikan proyek akhir ini yang
berjudul :
APLIKASI PENDETEKSI KEMIRIPAN LAPORAN
MENGGUNAKAN TEXT M INING DAN CLUSTERING
Proyek Akhir ini merupakan salah satu syarat kelulusan bagi setiap
mahasiswa Politeknik Elektronika Negeri Surabaya pada program
Diploma IV Program Studi Teknik Komputer Departemen Teknik
Informatika dan Komputer di Politeknik Elektonika Negeri Surabaya
guna memperoleh gelar Sarjana Terapan Teknik (S.Tr.T.)
Dengan selesainya buku laporan proyek akhir ini, penulis berharap
semoga buku ini dapat membawa manfaat bagi pembaca umumnya danjuga bagi penulis pada khususnya serta semua pihak yang berkepentingan.
Penulis juga berharap agar proyek akhir ini dapat dikembangkan lebih
lanjut sehingga dapat benar-benar digunakan sebaik-baiknya untuk
diaplikasikan ke dalam dunia pendidikan secara nyata agar mengurangi
tingkatplagiarisme yang marak terjadi. Penulis menyadari bahwa penulis
adalah manusia biasa yang tidak luput dari kesalahan dan kekurangan.
Untuk itu, kritikan dan saran yang bersifat membangun kami harapkanuntuk perbaikan selanjutnya.
Wassalamu alaikum Wr. Wb.
Surabaya, 2015
Penulis
-
7/24/2019 7611040039 - Buku TA
12/135
x
-
7/24/2019 7611040039 - Buku TA
13/135
xi
UCAPAN TERIMA KASIH
Syukur Alhamdulillah segala puji bagi Allah SWT yang dengan
ridho-Nya telah memberikan rahmat, karunia, serta hidayah-Nya yangluar biasa besar, termasuk memberikan kemudahan dan kelancaran dalam
proses pengerjaan proyek akhir ini. Sholawat serta salam selalu
tercurahkan kepada junjungan kita Nabi Besar Muhammad SAW.
Dengan segala kerendahan hati, keikhlasan dan ketulusan, saya
ingin menyampaikan rasa terima kasih dan penghargaan yang sebesar-
besarnya kepada :
1.
Kedua orang tua, Papa dan Mama yang telah memberikanlimpahan kasih sayang luar biasa besarnya yang tak pernah luntur
sekalipun. Terima kasih yang luar biasa besar kepada beliau atas
segala bentuk doa yang tiada putus-putusnya hingga Allah SWT
melimpahkan segala macam nikmat yang tiada henti-hentinya
selama 4 tahun masa perkuliahan ini. Terima kasih untuk segala
bentuk nasehat dan dukungan yang diberikan. Youre the best
moodbooster Iveever had, the most valuable person in this world.
Thanks so much for always stay by my side, no matter what.2. Kakak satu-satunya, mbak Rani beserta kakak ipar satu-satunya,
mas Heri, yang tidak lupa memberikan nasehat, masukan maupun
semangat dalam menjalani perkuliahan selama 4 tahun di PENS.
3.
Keluarga besar yang juga tidak lupa menitipkan doa-doa yang
mengiringi langkah kaki perjalanan semasa perkuliahan.
4.
Bapak Ir. Sigit Wasista, M.Kom selaku Ketua Program Studi
Teknik Komputer Politeknik Elektronika Negeri Surabaya
sekaligus Dosen Pembimbing II Proyek Akhir saya.
5.
Kepada Bapak Tri Harsono S.Si, M.Kom, Ph.D selaku Dosen
Pembimbing I Proyek Akhir saya. Terima kasih atas nasehatnya
dan terima kasih telah bersedia membimbing saya selama 1 tahun
masa pengerjaan proyek akhir ini.
6.
Kepada Bapak Aliridho Barakbah, S.Kom, Ph.D selaku Dosen
Pembimbing III Proyek Akhir saya yang telah berkenan
direpotkan untuk mengajari materi baru yang tidak pernah saya
peroleh selama masa perkuliahan di Teknik Komputer. Terima
-
7/24/2019 7611040039 - Buku TA
14/135
xii
kasih telah dengan sabar membimbing hingga akhirnya proyek
akhir ini dapat terselesaikan.
7. Kepada seluruh Bapak dan Ibu Dosen Program Studi Teknik
Komputer Politeknik Elektronika Negeri Surabaya, terima kasihatas ilmu yang diberikan selama 4 tahun masa perkuliahan.
Semoga ilmu yang diberikan dapat bermanfaat bagi saya nantinya.
8. Rekan-rekan Teknik Komputer 2011 khususnya Teknik Komputer
B, terima kasih banyak atas segala macam guyonan, dagelan dan
semacamnya yang selalu menghiasi hari-hari selama kuliah. Non
stop laughing when Im with you. Terima kasih sudah mewarnai
perjalanan kuliah yang tidak membosankan, terima kasih sudah
memberikan hiburan secara tidak langsung, terima kasih atas
pengalaman menjadi mahasiswa yang tidak baik-baik karenamenjadi baik terus-menerus itu membosankan. Big thanks rek
untuk 4 tahun kebersamaannya. Maafkan kalau sering jahat sama
kalian. See you on top guys !
9. Kepada Ardinintya, Galuh, dan Iqbal, my partner in crime, thanks
bro. Terima kasih sudah menjadi lilin ditengah kegelapan hidup.
Terima kasih karena kalian mampu menjadi pengalih perhatian
ketika galau datang menyerang. Terima kasih karena kalian yang
seringkali jadi sasaran untuk diajak menghidupi perut dan jalan-jalan berkeliling kota. Terima kasih sudah mendengar segala
macam keluh kesah yang melelahkan. Maafkan jika sering
merepotkan dan kalian sering mendapat respon jahat, judes atau
apalah itu.Dont forget to keep our tummy happy rek !
10.
Kepada Agung Waluyo Utomo, teman sedari Orientasi Mahasiswa
Baru (OMB) 2011 sampai saat ini. Terima kasih untuk dukungan
dan semangatnya selama 4 tahun ini. Terima kasih untuk segala
kesediannya direpotkan dengan berbagai macam hal. Terima kasih
untuk segala bentuk bantuannya. Maafkan jika sering melakukan
kesalahan.
11.
Kepada Shinta, Galuh, Dimi, Luluk, Iis, dan Tya a.k.a 7 segment,
terima kasih sudah jadi teman yang baik selama kuliah, karena
memang hanya kalian teman perempuan di kelas, karena
perempuan itu minoritas di Teknik Komputer. Terima kasih untuk
segala kesenangan dan kebahagiaan yang telah dibagikan. Terima
-
7/24/2019 7611040039 - Buku TA
15/135
xiii
kasih sudah saling mendukung satu sama lain. Semoga kita semua
sukses !
12. Kepada sahabat sedari SMA, Destya, Nita, dan Intan, terima kasih
kalian yang tetap bersedia menjadi pendengar yang baik ketika adakeluh kesah datang. Terima kasih masih tetap jadi sahabat yang
baik meski sudah berpisah kota. Terima kasih masih tetap
meluangkan waktu bermain bersama seperti dulu ketika pulang ke
kampung halaman. Keep contact and please stay by my side ya
guys !
13. Teman-teman seperjuangan, Mas dan Mbak, serta adik-adik di
Himpunan Mahasiswa Teknik Informatika (HIMIT) 2012/2013
dan 2013/2014, terima kasih banyak atas segala pengalaman yang
luar biasa yang tidak akan didapatkan di dalam materi akademikperkuliahan. Terima kasih atas kepercayaan untuk mengemban
amanah semasa menjabat fungsionaris. Terima kasih untuk ilmu,
kekeluargaan, kebersamaannya. Bersama kalian dulu, adalah salah
satu hiburan ditengah penatnya jam kuliah, tugas-tugas lapen,
lapres, dan project.Nice to meet you guys !
14. Teman-teman pemandu LKMM, terima kasih sudah memberikan
kesempatan, ilmu, dan pengalaman menjadi seorang pemateri.
Terima kasih karena kalian lah, skill public speaking ini lebihterasah. Senang pernah bekerja sama dengan kalian.
15. Teman-teman seangkatan 2011, terima kasih sudah menambah
sederetan nama teman dalam hidup saya.
16.
Teman-teman lama yang masih sering memberikan support,
terima kasih atassupport yang cukup menguatkan.
17.
Kepada seluruh teman-teman yang tersebar di seluruh dunia yang
telah membantu menemukan solusi melalui berbagai macam
forum-forum yang tersebar luas di google.
Segala ucapan terima kasih tentunya belum cukup, semoga kalian
semua senantiasa berada dibawah lindungan Allah SWT dan semoga
segala kebaikan kalian dibalas berlipat-lipat ganda oleh Allah SWT.
Amin.
-
7/24/2019 7611040039 - Buku TA
16/135
xiv
-
7/24/2019 7611040039 - Buku TA
17/135
xv
DAFTAR ISI
LEMBAR PERNYATAAN BEBAS PLAGIARISME.................. Error!
Bookmark not defined.
ABSTRAK .............................................................................................. v
ABSTRACT............................................................................................ vii
KATA PENGANTAR ........................................................................... ix
UCAPAN TERIMA KASIH .................................................................. xi
DAFTAR ISI ......................................................................................... xv
DAFTAR GAMBAR ........................................................................... xix
DAFTAR TABEL ................................................................................ xxi
BAB I ...................................................................................................... 1
PENDAHULUAN .................................................................................. 1
1.1. Latar Belakang ................................................................................ 1
1.2. Perumusan Masalah ........................................................................ 2
1.3.
Batasan Masalah ............................................................................. 2
1.4. Tujuan dan Manfaat ........................................................................ 3
1.4.1. Tujuan .......................................................................................... 3
1.4.2. Manfaat ........................................................................................ 3
1.5. Metodologi Penelitian..................................................................... 3
1.5.1. Studi Literatur .............................................................................. 4
1.5.2.
Perancangan Sistem ..................................................................... 4
1.5.3. Pengujian Sistem ......................................................................... 4
1.5.4. Analisa Hasil Pengujian Sistem ................................................... 5
1.5.5. Penyusunan Laporan .................................................................... 5
1.6. Sistematika Penulisan ..................................................................... 5
BAB II ..................................................................................................... 7
-
7/24/2019 7611040039 - Buku TA
18/135
xvi
TINJAUAN PUSTAKA .......................................................................... 7
2.1. Plagiarisme ...................................................................................... 7
2.1.1. Metode Pendeteksi Plagiarisme .................................................... 8
2.2. Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia
Menggunakan Algoritma Winnowing Dengan Metode K-Gram dan
Synonym Recognition ............................................................................. 9
2.3. Implementasi Deteksi Penjiplakan Dengan Algoritma Winowing
pada Dokumen Terkelompok................................................................. 11
2.4. Penerapan Algoritma Boyer-Moore dan Algoritma Rabin Karp
dalam Mendeteksi Aksi Plagiarisme ...................................................... 17
BAB III .................................................................................................. 19
PERANCANGAN DAN PEMBUATAN SISTEM ............................... 19
3.1. Dokumen ....................................................................................... 20
3.2. Text Mining................................................................................... 22
3.2.1. Tahapan Text Mining.................................................................. 23
a. Tahap Tokenizing............................................................................. 23
b.
TahapFiltering................................................................................ 24
c. Tahap Stemming dan Tagging.......................................................... 24
d. TahapAnalyzing............................................................................... 25
3.3. KeywordExtraction...................................................................... 25
3.4. KeywordAggregation................................................................... 26
3.5. KeywordMetric ............................................................................. 27
3.6.
Output............................................................................................ 27
BAB IV .................................................................................................. 29
PENGUJIAN DAN ANALISA ............................................................. 29
4.1. Lingkungan Uji Coba .................................................................... 29
4.2. Pengujian Tahap Text Mining........................................................ 29
4.2.1. Tujuan ......................................................................................... 29
-
7/24/2019 7611040039 - Buku TA
19/135
xvii
4.2.2. Metode Pengujian ...................................................................... 30
4.2.3. Prosedur Pengujian .................................................................... 30
4.2.4. Hasil Pengujian .......................................................................... 30
a. Tahap Tokenizing............................................................................ 30
b. TahapFiltering................................................................................ 31
c. Tahap Stemming dan Tagging......................................................... 33
d. TahapAnalyzing.............................................................................. 37
4.3. Pengujian TahapKeywordAggregation....................................... 38
4.3.1. Tujuan Pengujian ....................................................................... 38
4.3.2. Metode Pengujian ...................................................................... 38
4.3.3. Prosedur Pengujian .................................................................... 38
4.3.4. Hasil Pengujian .......................................................................... 39
4.4. Pengujian Tahap SimilarityMeasurement .................................... 40
4.4.1. Tujuan Pengujian ....................................................................... 40
4.4.2. Metode Pengujian ...................................................................... 40
4.4.3. Prosedur Pengujian .................................................................... 40
4.4.4. Hasil Pengujian .......................................................................... 41
4.5. Pengujian Persentase SimilarityAntar Dokumen ......................... 44
4.5.1. Tujuan Pengujian ....................................................................... 44
4.5.2. Metode Pengujian ...................................................................... 44
4.5.3. Prosedur Pengujian .................................................................... 45
4.5.4. Hasil Pengujian .......................................................................... 45
a. Persentase SimilarityAntar Dokumen ............................................. 46
b. Pencocokan Kemiripan Isi Manual .................................................. 48
c. Persentase Kemiripan Laporan dengan Stemming dan Tanpa
Stemming............................................................................................... 75
-
7/24/2019 7611040039 - Buku TA
20/135
xviii
d. Persentase Kemiripan Laporan dengan Menghilangkan Kata yang
Harus Ada .............................................................................................. 81
4.6. Pengujian Lama Waktu Pemrosesan ............................................. 89
4.6.1.
Tujuan Pengujian ........................................................................ 89
4.6.2. Metode Pengujian ....................................................................... 89
4.6.3. Prosedur Pengujian ..................................................................... 90
4.6.4. Hasil Pengujian ........................................................................... 90
a. Pengujian Lama Waktu Pemrosesan TahapFiltering...................... 90
b. Pengujian Lama Waktu Pemrosesan Tahap Stemmingdan Tagging95
BAB V ................................................................................................. 101
PENUTUP ........................................................................................... 101
5.1. Kesimpulan ................................................................................. 101
5.2. Saran............................................................................................ 102
DAFTAR PUSTAKA .......................................................................... 103
LAMPIRAN ........................................................................................ 105
BIODATA PENULIS .......................................................................... 111
-
7/24/2019 7611040039 - Buku TA
21/135
xix
DAFTAR GAMBAR
Gambar 1.1 Diagram Metodologi Penelitian .......................................... 4
Gambar 2.1 Metode pendeteksi plagiarisme ........................................... 8
Gambar 2.2 Flowchart Synonym Recognition ...................................... 10
Gambar 2.3 Arsitektur Aplikasi ............................................................ 15
Gambar 3.1 Diagram Alur Sistem ......................................................... 19
Gambar 3.2 Tampilan Awal saat Aplikasi Dijalankan .......................... 21
Gambar 3.3 Tampilan Button Help ....................................................... 21
Gambar 3.4 Tampilan Button Exit ........................................................ 22
Gambar 3.5 Tahapan Text Mining ........................................................ 23
Gambar 3.6 Tahap Tokenizing .............................................................. 23
Gambar 3.7 Tahap Filtering .................................................................. 24
Gambar 3.8 Tahap Stemming dan Tagging .......................................... 25
Gambar 3.9 Tahap Analyzing ............................................................... 25
Gambar 4.1 Contoh Output Tahap Tokenizing ..................................... 31
Gambar 4.2 Tampilan Koneksi Ms. Access dan Netbeans berhasil ...... 32
Gambar 4.3 Contoh Output Tahap Filtering ......................................... 33
Gambar 4.4 Kamus Bahasa Indonesia .................................................. 34
Gambar 4.5 Pengujian Akses Isi Kamus Bahasa Indonesia .................. 34
Gambar 4.6 Pengujian Untuk Menghapus Possesive Pronoun ............. 35
Gambar 4.7 Pengujian Untuk Menghapus Awalan ............................... 35
Gambar 4.8 Pengujian Untuk Menghapus Akhiran .............................. 36
Gambar 4.9 Output Tahap Stemming dan Tagging .............................. 36
Gambar 4.10 Contoh Output Tahap Analyzing .................................... 37
Gambar 4.11 Browse File ..................................................................... 43
Gambar 4.12 Tampilan Dokumen 1 dan Dokumen 2 ........................... 44
Gambar 4.13 Kategori Penilaian Persentase Similarity ........................ 48
Gambar 4.14 Grafik Waktu Tahap Filtering Jenis Dokumen Pertama.. 92
Gambar 4.15 Grafik Waktu Tahap Filtering Jenis Dokumen Kedua .... 93
Gambar 4.16 Grafik Waktu Tahap Filtering Jenis Dokumen Ketiga .... 95
Gambar 4.17 Grafik Waktu Tahap Stemming dan Tagging Jenis
Dokumen Pertama ................................................................................. 97
Gambar 4.18 Grafik Waktu Tahap Stemming dan Tagging Jenis
Dokumen Kedua ................................................................................... 99
Gambar 4.19 Grafik Waktu Tahap Stemming dan Tagging Jenis
Dokumen Ketiga ................................................................................. 100
-
7/24/2019 7611040039 - Buku TA
22/135
xx
-
7/24/2019 7611040039 - Buku TA
23/135
xxi
DAFTAR TABEL
Tabel 3.1 Contoh Keyword Extraction untuk Dokumen 1 .................... 26
Tabel 3.2 Contoh Keyword Extraction untuk Dokumen 2 .................... 26
Tabel 3.3 Contoh Keyword Matric ....................................................... 27
Tabel 3.4 Jenis Penilaian Persentase Similarity .................................... 28
Tabel 4.1 Tabel Output Tahap Keyword Aggregation .......................... 39
Tabel 4.2 Contoh Hasil Keyword Aggregation ..................................... 42
Tabel 4.3 Tabel Output Tahap Similarity Measurement ....................... 42
Tabel 4.4 Contoh Hasil Keyword Aggregation ..................................... 46
Tabel 4.5 Tabel Output Persentase Similarity Antar Dokumen ............ 47
Tabel 4.6 Persentase Kemiripan Antar Laporan Jenis Dokumen Pertama
.............................................................................................................. 49
Tabel 4.7 Pencocokan Manual Kemiripan Dokumen 4 dan Dokumen 9
.............................................................................................................. 49
Tabel 4.8 Pencocokan Manual Kemiripan Dokumen 2 dan Dokumen 9
.............................................................................................................. 53
Tabel 4.9 Pencocokan Manual Kemiripan Dokumen 2 dan Dokumen 6
.............................................................................................................. 58
Tabel 4.10 Persentase Kemiripan Antar Laporan Jenis Dokumen Kedua
.............................................................................................................. 61
Tabel 4.11 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 8
.............................................................................................................. 62
Tabel 4.12 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 9
.............................................................................................................. 64
Tabel 4.13 Pencocokan Manual Kemiripan Dokumen 1 dan Dokumen 2
.............................................................................................................. 66
Tabel 4.14 Persentase Kemiripan Antar Laporan Jenis Dokumen Ketiga
.............................................................................................................. 67
Tabel 4.15 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 4
.............................................................................................................. 68
Tabel 4.16 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 10
.............................................................................................................. 70
Tabel 4.17 Pencocokan Manual Kemiripan Dokumen 4 dan Dokumen 10
.............................................................................................................. 71
Tabel 4.18 Pencocokan Manual Kemiripan Dokumen 1 dan Dokumen 2
.............................................................................................................. 73
-
7/24/2019 7611040039 - Buku TA
24/135
xxii
Tabel 4.19 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan
Stemming Dokumen Jenis Pertama ....................................................... 76
Tabel 4.20 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan
Stemming Dokumen Jenis Kedua .......................................................... 78
Tabel 4.21 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan
Stemming Dokumen Jenis Ketiga .......................................................... 80
Tabel 4.22 Kata yang selalu Muncul pada Setiap Dokumen Portsentry 82
Tabel 4.23 Persentase Kemiripan Laporan dengan Menghilangkan Kata
yang Harus Ada Jenis Dokumen Pertama .............................................. 83
Tabel 4.24 Kata yang selalu Muncul pada Setiap Dokumen Scanning dan
Probing .................................................................................................. 84
Tabel 4.25 Persentase Kemiripan Laporan dengan Menghilangkan Kata
yang Harus Ada Jenis Dokumen Kedua ................................................ 85
Tabel 4.26 Kata yang selalu Muncul pada Setiap Dokumen Password
Management .......................................................................................... 87
Tabel 4.27 Persentase Kemiripan Laporan dengan Menghilangkan Kata
yang Harus Ada Jenis Dokumen Ketiga ................................................ 88
Tabel 4.28 Lama Waktu Tahap Filtering Jenis Dokumen Pertama ....... 91
Tabel 4.29 Lama Waktu Tahap Filtering Jenis Dokumen Kedua .......... 93
Tabel 4.30 Lama Waktu TahapFilteringJenis Dokumen Ketiga ......... 94
Tabel 4.31 Lama Waktu Tahap Stemming dan Tagging Jenis DokumenPertama .................................................................................................. 97
Tabel 4.32 Lama Waktu Tahap Stemming dan Tagging Jenis Dokumen
Kedua ..................................................................................................... 98
Tabel 4.33 Lama Waktu Tahap Stemming dan Tagging Jenis Dokumen
Ketiga .................................................................................................... 99
-
7/24/2019 7611040039 - Buku TA
25/135
1
BAB I
PENDAHULUAN
Bab ini akan memuat tentang latar belakang, perumusan masalah,batasan masalah, tujuan dan manfaat, metodologi penelitian, dan
sistematika penulisan dari proyek akhir ini.
1.1. Latar Belakang
Perkembangan teknologi saat ini semakin canggih, termasukperkembangan teknologi digital di era modern saat ini. Teknologi digital
telah menjadi kebutuhan bagi seluruh pengguna teknologi saat ini, salah
satunya adalah dokumen teks. Dokumen teks dalam bentuk digital akanlebih memudahkan pengguna dalam melakukan penyimpanan karena
lebih efisien, akan tetapi juga lebih memudahkan pengguna untuk
melakukan penjiplakan. Penjiplakan atau plagiarisme merupakan
tindakan mencontoh atau meniru hasil karya milik orang lain tanpa seizin
pemilik asli karya tersebut yang selanjutnya diakui sebagai hasil karya
milik sendiri.
Tindakan plagiarisme ini seringkali terjadi di dalam dunia
pendidikan, khususnya di dunia perkuliahan yang identik denganbanyaknya tugas dan laporan yang harus dikerjakan oleh setiap
mahasiswa di setiap semesternya. Laporan itu sendiri merupakan salah
satu bentuk tugas penting yang diberikan oleh dosen dan wajib di
selesaikan oleh setiap mahasiswa. Laporan itu sendiri merupakan salahsatu bentuk bukti bahwa mahasiswa mengikuti perkuliahan yang
diberikan oleh dosen, dan laporan tersebut merupakan salah satu
parameter dosen untuk memberikan penilaian terhadap setiap mahasiswa.
Pada proyek akhir ini, peneliti akan mengembangkan sebuah
aplikasi untuk mendeteksi kemiripan antar laporan resmi sebagai bentukantisipasi terjadinya tindak plagiarisme dengan menerapkan ilmu text
mining yang disertai dengan clustering. Aplikasi ini berguna untuk
membandingkan isi antar dokumen berisi teks dalam bentuk txt milik
mahasiswa yang berbeda dengan tema tugas yang sama dan hasilnya
dinyatakan dalam bentuk persentase tingkat kemiripan isi antar dokumen.
-
7/24/2019 7611040039 - Buku TA
26/135
2
1.2. Perumusan Masalah
Banyaknya mata kuliah praktikum yang diberikan dalam satu
semester perkuliahan, serta jumlah praktikum dari setiap mata kuliahpraktikum yang berjumlah 16 kali pertemuan menyebabkan banyaknya
jumlah laporan praktikum yang harus dikumpulkan oleh setiap
mahasiswa dalam satu semesternya. Oleh karena itu, mahasiswa
diwajibkan untuk mengumpulkan laporan praktikum dalam bentuk soft
file yang semakin memudahkan mahasiswa untuk melakukan tindakan
plagiarisme. Tidak jarang seorang mahasiswa melakukan proses copy-
paste-modify terhadap tugas maupun laporan milik mahasiswa lain,
bahkan tidak jarang pula mahasiswa yang melakukan copy-paste hanya
mengganti jenisfont yang digunakan tanpa melakukan perubahan apapunterhadap isi laporan tersebut tersebut.
Tindakan plagiarismeyang dilakukan mahasiswa terhadap tugas-
tugas berupa laporan soft file yang diberikan oleh dosen tersebut,
menimbulkan banyak kerugian, baik bagi mahasiswa yang melakukan
proses copy-paste maupun bagi mahasiswa yang dijiplak laporannya.
Salah satu bentuk kerugian yang ditimbulkan akibat dari tindakan
plagiarisme tersebut adalah menyebabkan mahasiswa menjadi kurang
kreatif karena tidak terbiasa untuk menyelesaikan tugasnya sendiri akibat
dari kebiasaan mahasiswa yang hanya sekedar melakukan proses editingterhadap tugas milik mahasiswa lain.
Berdasarkan kondisi banyaknya jumlah laporan praktikum yang
dikumpulkan, menjadi menyulitkan untuk mendeteksi kemiripan laporan
praktikum milik antar mahasiswa secara manual karena jumlahnya yangterlalu banyak sehingga sulit pula untuk mengetahui ada atau tidaknya
tindakan plagiarisme yang dilakukan oleh mahasiswa.
1.3. Batasan Masalah
Pada proyek akhir ini permasalahan difokuskan pada masalah-
masalah berikut :
Penggunaan dokumen teks berbahasa Indonesia sebagai input
dokumen yang akan diolah dengan format file .txt berisi analisa
dan kesimpulan milik mahasiswa yang berbeda dengan tema tugas
yang sama
-
7/24/2019 7611040039 - Buku TA
27/135
3
Jumlah maksimal dokumen .txt yang digunakan sebagai input
sistem dalam 1 kali proses adalah 10 dokumen
Output sistem berupa persentase (%) tingkat kemiripan antar
dokumen disertai dengan kategori hasil pengelompokanberdasarkan similaritas tertentu
1.4. Tujuan dan Manfaat
Proyek Akhir ini memiliki tujuan dan manfaat sebagai berikut :
1.4.1.Tujuan
Proyek akhir ini menggunakan pendekatan baru untuk membuatsebuah aplikasi yang dapat digunakan untuk mendeteksi tingkat
kemiripan isi antar laporan milik mahasiswa secara akurat dengan
menerapkan ilmu text mining yang disertai dengan clustering, sehingga
nantinya dapat mengantisipasi terjadinya tindak plagiarisme.
1.4.2.Manfaat
Proyek akhir ini nantinya dapat dikembangkan dan dapat
diaplikasikan pada dunia pendidikan terutama di PENS sendiri,
khususnya bagi tenaga pengajar atau dosen, sehingga dengan adanyaaplikasi ini dapat dimanfaatkan untuk mengetahui tingkat penjiplakan
terhadap laporan tugas-tugas berupa soft file yang dilakukan oleh
mahasiswa.
1.5. Metodologi Penelitian
Sistem yang digunakan dalam pembuatan aplikasi pendeteksi
kemiripan laporan ini dikerjakan melalui beberapa tahap, yaitu studi
literatur mengenai metode yang digunakan untuk mendeteksi kemiripan
laporan, perancangan dan pembuatan sistem untuk aplikasi agar user
friendly, pengujian sistem untuk mengetahui output yang dihasilkan,
analisa hasil pengujian sistem untuk mengetahui apakah tujuan proyek
akhir ini telah tercapai, dan penyusunan laporan sebagai bentuk
dokumentasi. Adapun detail dari metodologi yang akan digunakan dalam
pengerjaan proyek akhir ini ditunjukkan pada Gambar 1.1
-
7/24/2019 7611040039 - Buku TA
28/135
4
Gambar 1.1 Diagram Metodologi Penelitian
1.5.1.Studi Literatur
Studi literatur ini dilakukan untuk mengumpulkan bahan referensi
tentang tindakan plagiarisme, penggunaan text miningdan clustering serta
cara menerapkan ilmu text mining dan clustering dalam pendeteksiantindakan plagiarisme, dan beberapa literatur-literatur lainnya yang
berhubungan dengan proyek akhir ini sebagai sumber data informasi.
Studi ini dilakukan dengan membaca buku, paper, jurnal ilmiah baik
dalam maupun luar negeri dan melalui penelusuran dengan media
internet.
1.5.2.Perancangan Sistem
Perancangan dan pembuatan sistem meliputi pembuatan diagramblok, algoritma dan diagram alir dari metode yang digunakan untuk
membuat aplikasi pendeteksi kemiripan laporan yaitu tentang text mining
dan clustering.
1.5.3.Pengujian Sistem
Pengujian sistem dilakukan dengan melakukan uji coba terhadap
aplikasi yang telah dibuat untuk membandingkan hasil yang diperoleh
dengan apa yang ingin dicapai.
Perancan an dan Pembuatan Sistem
Pengujian Sistem
Analisa Hasil Pengujian Sistem
Penyusunan Laporan
Studi Literatur
-
7/24/2019 7611040039 - Buku TA
29/135
5
1.5.4.Analisa Hasil Pengujian Sistem
Analisa hasil pengujian sistem dilakukan untuk melakukan
perbaikan apabila terjadi kesalahan pada aplikasi yang dibuat sertamemperhitungkan persen error dari hasil data yang diperoleh.
1.5.5.Penyusunan Laporan
Penyusunan laporan digunakan untuk mengetahui apakah hasil
yang didapatkan sudah sesuai dengan yang diinginkan atau tidak,kemudian setelah itu dibuat kesimpulan.
1.6.
Sistematika Penulisan
Sistematika pembahasan dari Proyek Akhir ini direncanakan
sebagai berikut :
Bab 1 Pendahuluan
Bab ini memuat tentang latar belakang, perumusan
masalah, batasan masalah, tujuan dan manfaat,
metodologi penelitian, dan sistematika penulisan dari
proyek akhir ini.
Bab 2 Tinjauan Pustaka
Bab ini merupakan rangkuman singkat mengenai
penelitian-penelitian sebelumnya yang terkait dengan
proyek akhir yang dikerjakan dari berbagai referensi.
Bab 3 Perancangan dan Pembuatan Sistem
Bab ini memuat tentang perancangan aplikasi beserta teori
yang mendukung metode yang digunakan berhubungan
dengan text mining dan clustering.
Bab 4 Pengujian dan Analisa
Bab ini memuat tentang hasil pengujian yang dilakukan
secara bertahap terhadap aplikasi proyek akhir yang telah
dibangun berdasarkan perencanaan sistem pada bab
sebelumnya.
Bab 5 Penutup
Bab ini memuat kesimpulan mengenai hasil yang telah
diperoleh dari pengerjaan proyek akhir serta saran yang
memuat tentang pendapat penulis tentang pengembanganhasil pembuatan aplikasi .
-
7/24/2019 7611040039 - Buku TA
30/135
6
----------------Halaman ini sengaja dikosongkan---------------
-
7/24/2019 7611040039 - Buku TA
31/135
7
BAB II
TINJAUAN PUSTAKA
Bab ini akan akan membahas mengenai teori-teori penting yangdapat menunjang dan menjadi acuan dalam pembuatan proyek akhir serta
penelitian terkait yang berhubungan dengan proyek akhir. Bagian tersebutmeliputi teori tentangplagiarisme yang meliputi pengertianplagiarisme
dan metode pendeteksi plagiarisme. Sedangkan untuk penelitian terkait
yang berhubungan dengan proyek akhir meliputi aplikasi yang digunakan
untuk mendeteksi kemiripan dokumen dengan menggunakan berbagai
macam metode yang berbeda-beda. Bagian-bagian tersebut akan
diuraikan seperti di bawah ini.
2.1. Plagiarisme
Plagiarisme adalah tindakan penyalahgunaan, pencurian /
perampasan, penerbitan, pernyataan, atau menyatakan sebagai milik
sendiri sebuah pikiran, ide, tulisan, atau ciptaan yang sebenarnya milik
orang lain [1].
Sedangkan menurut Kamus Besar Bahasa Indonesia (KBBI)
Plagiarisme adalah penjiplakan atau pengambilan karangan, pendapat,
dan sebagainya dari orang lain dan menjadikannya seolah karangan danpendapat sendiri. (KBBI, 1997: 775)
Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak
cipta orang lain. Di dunia pendidikan, pelaku plagiarisme akan mendapat
hukuman berat seperti dikeluarkan dari sekolah / universitas. Pelaku
plagiat disebut sebagai plagiator [1].
Sistem pendeteksi plagiarisme dapat dikembangkan untuk :
1. Data teks seperti essay, artikel, jurnal, penelitian dan sebagainya.
2.
Dokumen teks yang lebih terstruktur seperti bahasa pemrogramanBeberapa tipe plagiarisme yaitu :
1. Word-for-word plagiarism adalah menyalin setiap kata secara
langsung tanpa diubah sedikitpun.
2. Plagiarism of authorshipadalah mengakui hasil karya orang lain
sebagai hasil karya sendiri dengan cara mencantumkan nama
sendiri menggantikan nama pengarang yang sebenarnya.
3. Plagiarism of ideas adalah mengakui hasil pemikiran atau ide
orang lain. Plagiarism of sources, jika seorang penulis
-
7/24/2019 7611040039 - Buku TA
32/135
8
menggunakan kutipan dari penulis lainnya tanpa mencantumkan
sumbernya.
2.1.1.Metode Pendeteksi Plagiarisme
Metode pendeteksi plagiarisme dibagi menjadi tiga bagian yaitu
metode perbandingan teks lengkap, metode dokumenfingerprinting, dan
metode kesamaan kata kunci [1]. Metode pendeteksi plagiarisme dapat
dilihat pada Gambar 2.1
Gambar 2.1 Metode pendeteksi plagiarisme
Berikut ini penjelasan dari masing-masing metode dan algoritmapendeteksi plagiarisme :
1.
Perbandingan Teks Lengkap. Metode ini diterapkan dengan
membandingkan semua isi dokumen. Dapat diterapkan untuk
dokumen yang besar. Pendekatan ini membutuhkan waktu yang
lama tetapi cukup efektif, karena kumpulan dokumen yang
diperbandingkan adalah dokumen yang disimpan pada
penyimpanan lokal. Metode perbandingan teks lengkap tidak
dapat diterapkan untuk kumpulan dokumen yang tidak terdapatpada dokumen lokal. Algoritma yang digunakan pada metode ini
adalah algoritmaBrute-Force, algoritma edit distance, algoritma
Boyer Mooredan algoritma lavenshtein distance.2.
Dokumen Fingerprinting. Dokumen fingerprinting merupakan
metode yang digunakan untuk mendeteksi keakuratan salinan
antar dokumen, baik semua teks yang terdapat di dalam dokumen
atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen
fingerprinting ini adalah dengan menggunakan teknik hashing.
Metode Pendeteksi
Plagiarisme
Perbandingan Teks Lengkap
DokumenFingerprinting
Kesamaan Kata Kunci
-
7/24/2019 7611040039 - Buku TA
33/135
9
Teknik hashingadalah sebuah fungsi yang mengkonversi setiap
string menjadi bilangan. Misalnya Rabin-Karp, Winnowing dan
Manber.
3. Kesamaan Kata Kunci. Prinsip dari metode ini adalah mengekstrakkata kunci dari dokumen dan kemudian dibandingkan dengan kata
kunci pada dokumen yang lain. Pendekatan yang digunakan pada
metode ini adalah teknik dot.
2.2. Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa
Indonesia Menggunakan Algoritma Winnowing Dengan
Metode K-Gram dan Synonym Recognition
Praktek dokumen plagiarisme sering diterapkan oleh akademisi ditingkat sekolah dan universitas yang tidak mencerminkan sikap yang
sangat kreatif dan dididik sebagai intelektual. Kadang-kadang tindakan
plagiarisme dimodifikasi dengan mengganti kata-kata yang mengandungsinonim, dengan maksud agar terlihat berbeda dari artikel aslinya. Sistem
deteksi duplikasi menggunakan algoritma winnowing yang outputnya
berupa seperangkat nilai-nilai hash sebagaifingerprintingdokumen yang
diperoleh melalui metode k-gram. Masukan dari proses fingerprinting
dokumen adalah file teks. Maka outputnya akan menjadi satu set nilai
hash, yang disebut fingerprint. Fingerprint inilah yang akan menjadidasar perbandingan antara file teks yang telah dimasukkan. Konsep
synonym recognitiondimaksudkan untuk dapat mengenali kata-kata yang
mengandung sinonim sebagai tindakan plagiarisme. Mendeteksi duplikat
menggunakan sinonim mendapatkan persentase lebih tinggi
dibandingkan tanpa menggunakan sinonim [2].
Implementasi algoritma Winnowing dalam melakukan proses
document fingerprinting:
[1]
Melakukan proses whitespace insensitivity, sehingga hal yang
mengandung huruf kapital dijadikan ignore case, tanda baca,
spasi, dan karakter-karakter yang tidak relevan lainnya dibuang.
[2] Setelah kalimat tersebut dibersihkan, pembentukan rangkaian
gram dengan ukuran 7-gram
[3] Penghitungan nilai-nilai hash dari setiap gram (sebuah hipotesis
nilai hash yang muncul)
[4] Untuk memilih hasil yang telah di hash, dilakukan denganmembagi ke window w dengan panjang 4. Kemudian pilih nilai
yang minimum.
-
7/24/2019 7611040039 - Buku TA
34/135
-
7/24/2019 7611040039 - Buku TA
35/135
11
tersedia pada kamus sinonim, maka tidak akan melakukan proses
synonym recognition. Seluruh isi dokumen akan discan dan dicocokkan
dengan kata yang ada dalam kamus, kemudian akan diubah berdasarkan
isi kamus sinonim tersebut.
Dari hasil pengamatan mulai tahap analisis, perancangan,
implementasi dan uji coba, dapat diambil beberapa kesimpulan sebagai
berikut :
1. Pencarian menggunakan teknik hashing akan menjadi lebih efisiendaripada pencarian karakter-per-karakter pada nama-nama yang
panjangnya bervariasi.
2.
Tindak penjiplakan dapat dilakukan dengan modify yang mana
dengan mengubah beberapa bagian bahkan keseluruhan, yaitu
dengan mengubah kata-kata dengan sinonim.3. Mendeteksi duplikasi menggunakan sinonim mendapatkan hasil
persentase yang lebih tinggi daripada tanpa menggunakan
sinonim.
4. Sistem yang dibangun telah dapat mendeteksi duplikasi dengan
pendekatan sinonim dengan perbedaan 0.82 % lebih besar
menggunakan synonym recognition daripada tanpa synonymrecognition.
5. Jika dengan menggunakan metode kualitatif dalam menganalisa
dokumen kemudian dihasilkan sebuah simpulan bahwa dokumentersebut merupakan hasil penjiplakan, maka begitu halnya analisa
dokumen secara kuantitatif pada aplikasi akan menghasilkan
simpulan yang sama seperti halnya metode kualitatif.
6. Pada dokumen yang dinyatakan telah terduplikasi, pendeteksian
secara full dokumen (bab 1 sampai bab 5) dan parsial dokumen
(bab 4 dan bab 5) akan mengalami peningkatan persentase 10 %.
Sedangkan pada dokumen yang dinyatakan tidak terduplikasi,
pendeteksian secarafull dokumen maupun parsial dokumen akan
secara otomatis mengalami penurunan persentase kemiripan 4.67 %.
2.3. Implementasi Deteksi Penjiplakan Dengan Algoritma
Winowing pada Dokumen Terkelompok
Penjiplakan merupakan masalah yang semakin berkembangterutama dalam bidang pendidikan. Banyak karya tulis yang sebagian
isinya dibuat dengan menjiplak dari karya orang lain. Saat ini sudah
-
7/24/2019 7611040039 - Buku TA
36/135
12
terdapat sistem yang dapat mendeteksi penjiplakan antar dokumen. Pada
sistem tersebut mampu melakukan pengecekan penjiplakan secara one-
to-many atau many-to-many. Namun, pada sistem tersebut
membandingkan satu persatu dokumen sehingga terdapat kemungkinan
dokumen yang dibandingkan tidak memiliki kesamaan topik. Sehingga
diperlukan fungsi yang dapat mengelompokan dokumen dan mendeteksipenjiplakan pada tiap kelompok [3].
Pada tugas akhir ini dibuat aplikasi yang mampu mengelompokan
dokumen secara partisi dan mendeteksi penjiplakan pada tiap kelompok.
Dalam melakukan pengelompokan dokumen dipergunakan algoritma K-
means++. Algoritma K-means++ memerlukan masukan jumlah
kelompok yang seharusnya terbentuk. Pada aplikasi ini dapat memperoleh
rekomendasi jumlah kelompok yang sebaiknya terbentuk denganalgoritma Hartigan Index. Dalam melakukan pendeteksian penjiplakan
dengan algoritma Winnowing. Algoritma ini berfungsi untuk melakukan
proses document fingerprinting, yang mengubah teks menjadi
sekumpulan nilai-nilai hash.
Algoritma winnowing untuk deteksi kalimat sama adalah dengan
mengikuti langkah-langkah berikut :
[1]
Membuang karakter-karakter dari isi dokumen yang tidak relevan
misal tanda baca spasi dan simbol lain.[2] Isi dokumen yang telah dilakukan pembersihan selanjutnya
dilakukan pembentukan rangkaian gram, dimana n =5
[3] Dari rangkaian gram yang telah terbentuk dibentuk nilai hash
dengan nilai ASCII tiap karakter. Pembentukan nilai hash
menggunakan persamaan rolling hash. Persamaan rolling hash
ditunjukkan pada Persamaan (2.1) :
(2.1)
Keterangan :
c : nilai ASCII karakter
b : basis (bilangan prima)k : banyak karakter
Keuntungan dari menggunakan rolling hash adalah untuk
mendapatkan nilai hash selanjutnya dapat dengan cara :
= ( ) + (2.2)
-
7/24/2019 7611040039 - Buku TA
37/135
13
[4] Nilai-nilai hash yang telah terbentuk, dibentuk window-window
untuk dilakukan pemilihan nilai hash terkecil pada tiap window
untuk dijadikanfingerprint tiap dokumen.[5]
Nilai-nilai fingerprint inilah yang digunakan untuk menemukan
tingkat presentase kesamaan sebuah dokumen dengan dokumen
lain. Untuk mendapatkan tingkat presentase kesamaan sebuah
dokumen dengan dokumen lain dapat menggunakan Persamaan
Jaccard Coefficient yang ditunjukan pada Persamaan (2.3)
Similaritas( , =|()|
|()| (2.3)
Algoritma K-means untuk data yang berupa dokumen-dokumen
adalah sebagai berikut :
[1] Menentukan nilai k sebagai jumlah kelompok yang ingin dibentuk.
[2]
Menentukan centroid (titik pusat klaster) awal secara acak
sebanyak k. Centroid merupakan kumpulan dari nilai-nilai hash.
Pada awalnya nilai-nilai centroid sama dengan nilai-nilai
fingerprint dari dokumen yang dipilih.
[3] Menghitung tingkat kesamaan setiap dokumen ke masing-masing
centroid menggunakan Persamaan (2.3)
[4]
Mengelompokkan setiap dokumen berdasarkan tingkat kesamaanterbesar antara dokumen dengan centroid-nya.
[5]
Menentukan nilai nilai hash sebagai centroid baru dengan
Persamaan (2.4) :
= (, )| ,,
(2.4)
dimana hf(h,C) merupakan banyaknya sebuah hash dalam
gabungan seluruh dokumen pada satu klaster (C), dan f(C, h)merupakan nilai-nilai yang terbentuk dari nilai hash yang
berjumlah minimal (((hf(h,C))/n )). Nilai merupakan masukan
dari pengguna.
[6]
Kembali ke langkah 3 jika nilainilai hash pada centroid baru
dengan centroid lama tidak sama.
Namun, algoritma K-means ini memiliki kelemahan yaitu
memiliki kemungkinan waktu proses yang cukup besar. Hal ini
disebabkan pada pemilihan awal centroid yang bersifat acak yang
setiap data mempunyai kemungkinan terpilih sama besar. Oleh
-
7/24/2019 7611040039 - Buku TA
38/135
14
karena itu digunakan algoritma K-means++ untuk menutup
kekurangan tersebut.
Dasar algoritmaK-means++ adalah :
[1]
Menentukan satu centroid awal pada seluruh data dokumen secara
acak dengan distribusi uniform.
[2] Untuk setiap data dokumen d, hitung D(d), ketidakmiripan(dissimilar) antara data dokumen dan centroid terdekat yang telah
dipilih. Untuk mencari nilai ketidakmiripan dapat dengan
menggunakan Persamaan (2.5)
Dissimilar( , =1 ||||
(2.5)
Nilai ketidakmiripan didapatkan dari 1 dikurangi dengan tingkatkemiripan. Nilai kemiripan didapatkan dari Persamaan (2.3).
[3] Tambahkan satu centroid lagi dari semua data yang belum terpilih
sebagai centroid, menggunakan weighted probability distribution
dimana data dokumen yang dipilih dengan probabilitas D(d2).
[4] Ulangi langkah 2 dan 3 hingga sejumlah k centroid telah dipilih
[5] Lakukan pengelompokan algoritmaK-means.
Dalam pengelompokan diperlukan jumlah kelompok yang akan
dibentuk yang berasal dari masukan pengguna. Masukan dari penggunamempunyai kemungkinan tidak sesuai dengan jumlah kelompok yang
sebaiknya terbentuk dari data-data dokumen yang ada. Untuk itu
diperlukan algoritma dalam menentukan jumlah kelompok yang
sebaiknya terbentuk dari data-data yang ada seperti Rule of Thumb danHartigan Index.
Rule of Thumb merupakan algoritma penentuan jumlah kelompok
yang sebaiknya terbentuk dalam pengklasteran berdasarkan banyaknya
data yang tersedia.Hartigan index merupakan salah satu metode statistikuntuk menguji perubahan relatif dari nilai perubahan suatu kelompok.
Perangkat lunak yang dibangun adalah sistem pengelompokan
dokumen serta pendeteksian penjiplakan pada tiap kelompok. Dalam
implementasinya perangkat lunak ini menggunakan algoritma K-
means++ untuk melakukan pengelompokan secara partisi dan algoritma
Winnowing untuk membantu mencari kesamaan antara file satu dengan
yang lain.
-
7/24/2019 7611040039 - Buku TA
39/135
15
Gambar 2.3 Arsitektur Aplikasi
Pada Gambar 2.3 dapat diketahui bahwa aplikasi ini terdiri dari :
Pembacaan Dokumen
Bertugas mengekstrak konten / isi dari file yang ingin diperiksa
menjadi sebuahstring.
Pembentukan Fingerprint
Bertugas memproses string yang merupakan hasil ekstraksi daripembacaan dokumen menjadi fingerprint dari file yang berupa
nilai-nilai hash.
Penentuan Kelompok
Bertugas menentukan kelompok mana berdasarkan isi dari
dokumen.
Penentuan Jumlah Kelompok
Bertugas menentukan jumlah kelompok yang seharusnya
terbentuk. Dalam menentukan jumlah dokumen dapat secara
Pembacaan
Dokumen
Pembentukan
Fingerprint
Algoritma
Winnowing
Dokumen
Fingerprint,
Centroid,
Hasil Similar
Pengecekan
Tingkat
Kesamaan
Pengelompo
kan dengan
K-Means++
Penentuan
Jumlah
Kelom ok
Penentuan Jumlah
Kelom ok
Penentuan
Kelompok pada
Dokumen Baru
Aplikasi
Pengelompokan
-
7/24/2019 7611040039 - Buku TA
40/135
16
manual atau rekomendasi dari aplikasi. Jumlah kelompok yang
didapatkan dari rekomendasi menggunakan algoritma Rule of
Thumb danHartigan Index.
Pengelompokan Dokumen
Bertugas melakukan pengelompokan sejumlah dokumen. Jumlah
kelompok yang terbentuk bisa dari masukan pengguna (manual)atau nilai dariRule of Thumb danHartigan Index.
Pengecekan Tingkat Kesamaan
Bertugas melakukan pengecekan tingkat kesamaan dengan
membandingkan nilai fingerprint antar dokumen dan
menampilkan hasil tingkat kemiripan ke pengguna.
Dalam penentuan jumlah kelompok dengan LSA dari 60 dokumen
yang dilakukan representasi ke dalam dua dimensi bahwa sebaiknyadibentuk dengan menggunakan LSA sebanyak empat kelompok.Sedangkan dengan Hartigan Index bahwa jumlah kelompok yang
sebaiknya terbentuk dari data yang ada adalah 6 dengan nilai alpha yang
terbaik adalah 0,50. Hal ini dikarenakan dari jumlah kelompok yang
terbentuk stabil dan nilai akurasi yang dimiliki cukup tinggi. Selain itu
pembahasan topik pada tiap kelompok tidak terlalu tinggi atau pun rendah
sehingga jumlah pembagian anggota tiap kelompok hampir merata.
Dalam pemilihan nilai alpha dapat disimpulkan bahwa semakinkecil nilai alpha maka jumlah kelompok yang terbentuk semakin sedikit.
Hal ini dikarenakan pembahasan topik pada sebuah kelompok bersifat
umum atau luas sehingga diperlukan sedikit kelompok untuk menampung
topik-topik yang ada. Begitu pula semakin besar nilai alpha maka jumlah
kelompok yang terbentuk semakin banyak. Hal ini dikarenakanpembahasan topik pada sebuah topik semakin spesifik atau khusus
sehingga diperlukan banyak kelompok untuk menampung topik-topik
yang ada.
Dari hasil percobaan penentuan kelompok untuk dokumen baru
bahwa proses ini memiliki tingkat kebenaran yang cukup tinggi, sehinggadalam melakukan penentuan kelompok untuk dokumen baru sesuai
dengan topik pembahasan.
Dari pencatatan waktu deteksi penjiplakan dapat disimpulkan
bahwa waktu yang diperlukan lebih sedikit dalam pendeteksian
penjiplakan pada kumpulan dokumen yang telah dikelompokan daripada
kumpulan dokumen yang tidak dikelompokan. Hal ini karena jumlah
-
7/24/2019 7611040039 - Buku TA
41/135
17
dokumen yang dibandingkan lebih sedikit dan dokumen yang
dibandingkan memiliki kesamaan topik.
2.4.
Penerapan Algoritma Boyer-Mooredan Algoritma RabinKarpdalam Mendeteksi Aksi Plagiarisme
Plagiarisme sering menjadi pada banyak institusi pendidikan
termasuk Perguruan Tinggi. Praktek Plagiarisme biasa dilakukan
terhadap konten digital, dapat berupa dokumen maupun source code
program. Plagiarisme dilakukan dengan melakukan copy-paste, atau
dengan melakukan modifikasi konten digital yang asli. Untuk dapat
mencegahnya, diperlukan cara yang dapat menganalisis,
mengecek/mendeteksi teknik-teknik plagiarisme yang dilakukan. Salahsatu pendekatannya adalah dengan melakukan penerapan algoritma
Boyer-Mooreatau AlgoritmaRabin-Karp [4].
Pada pendeteksian dengan algoritma boyer moorediambil contohkasus pendeteksian pada source code. Pada prinsipnya pendeteksian
plagiarisme ini menggunakan penghitungan jumlah prosedur atau fungsi,
perulangan, if-elsedan variabel dengan pembobotan sederhana. Aplikasi
melakukan pen-scan-an kata kunci-kata kunci tertentu (menggunakan
Boyer Moore) untuk menentukan bagian yang cocok atau memenuhi
kondisi tertentu. Aplikasi akan mendeteksi kata kunci yang menyatakanpendeklarasian sebuah prosedur atau fungsi (syntax disesuaikan bahasa
yang digunakan). Kemudian menghitung nilai perulangan (loop), if, dan
variabel dengan menghitung jumlah masing-masing tipe alur program.
Setelah melakukan penghitungan untuk salah satu prosedur/ fungsi
kemudian aplikasi akan lanjut menghitung untuk seluruh prosedur yang
terdapat pada kedua source codeprogram dan menyimpannya masing-
masing ke dalam sebuah array. Kemudian melakukan pembandingan
elemen arraydarisourceyang dicurigai malakukan plagiarisme dengan
sourceyang asli atau sudah ada sebelumnya. Setiap elemen akan dicarikesamaan jumlah elemen-elementnya dengan source asli, jika didapati
ada prosedur yang sama maka ia akan mencatat sebagai suatu kesamaan.
Setelah selesai maka hasil akhir kemungkinan tingkat kesamaan source
code dapat diatampilkan dalam bentuk prosentase yang dihitung dari
jumlah kesamaan dibagi total prosedursourceyang dicurigai.
Tingkat plagiarisme dihitung menggunakan persamaan 2.6 :
100% (2.6)
-
7/24/2019 7611040039 - Buku TA
42/135
18
Pada pendeteksian plagiarisme kali ini digunakan contoh kasus
pendeteksian pada dokumen. Algoritma Rabin-Karp digunakan dalam
mendeteksi plagiat sebab memungkinkan untuk mencari pola tulisan yang
didapat dari substring-substring pada sebuah teks dalam dokumen, di
mana algoritma pencarian string tunggal sangat tidak efisien dan praktis.Yang digunakan tentunya adalah varian algoritma Rabin-Karp untuk
pencarian berpola banyak. Pertama-tama adalah melakukan filtering
dengan menghilangkan beberapa tanda baca yang tidak penting. Proses
ini juga dilakukan terhadap dokumen asli. Dari hasil filtering, kata-kata
yang akan dijadikan string masukan diambil dengan melakukan
pemisahan sebanyak k, misalnya, dan dicari seluruh kemungkinan yangmungkin dibentuk dari setiap kata-kata, sehingga didapat pecahan kata-
kata. Hal ini disebut dengan k-gram. Kemudian gunakan hasil dari k-gramsebagai masukan himpunan string dari algoritma RabinKarpSet.
Selanjutnya, sesuai dengan algoritma, lakukan hashing ke seluruh
pecahan string pada set s. Fungsi hash yang diberikan inilah yang
merupakan kunci dalam menemukan pola kalimat pada teks, sehingga
pastikan agar fungsi hashmemadai untuk setiapstringpada k-gram yang
dihasilkan. Dengan cara pengulangan iteratif sampai mencapai akhir teks,
nilai hash string-string pada set s dicocokkan dengan nilai hash
penggalanstringsepanjang 4 karakter pada teks (benar apabila nilai hash
penggalan teks asli terdapat pada himpunan nilai hash string-stringmasukan). Pada setiap penggalan teks asli sepanjang 4 karakter, dilakukan
hashing dengan fungsi hashyang sama seperti yang dilakukan terhadap
string-string set s. Pencarian nilai hash penggalan teks asli dapat
dilakukan dengan algoritma pencarian biasa, sesuai kehendak.
Dari percobaan yang telah dilakukan dapat disimpulkan bahwa
terdapat cara yang lebih efektif dalam mendeteksi praktek plagiarisme
yaitu dengan memanfaatkan Algoritma Boyer-Moore dan Algoritma
Rabin-Karp. Algoritma Boyer Moore digunakan untuk melakukan
pencocokan string dan melakukan penghitungan kesamaan. Sedangkankemiripan pola antar dua buah dokumen dapat dideteksi dengan
menerapkan prinsip kerja algoritma pencarian string Rabin Karp. Strategi
pendeteksian di atas dapat dijadikan patokan dalam menentukan apakahterjadi praktek plagiarisme disesuaikan dengan pandangan penggunanya,
walaupun dapat diantisipasi jika metode pendeteksian yang digunakan
diketahui oleh orang yang akan melakukan praktek plagiarisme tersebut.
Namun setidaknya hal ini dapat digunakan untuk melakukan pencegahan
terhadap upaya plagiarisme tersebut.
-
7/24/2019 7611040039 - Buku TA
43/135
19
BAB III
PERANCANGAN DAN PEMBUATAN SISTEM
Sebelum sistem diimplementasikan, terlebih dahulu dibuat
sistematika perancangan sistem yang merepresentasikan keseluruhan
sistem agar didapatkan hasil yang maksimal. Secara garis besar,
perancangan Aplikasi Pendeteksi Kemiripan Laporan Menggunakan
Text Mining dan Clusteringditunjukkan pada Gambar 3.1 :
Gambar 3.1 Diagram Alur Sistem
w1 w2 w3
d1
w1 w2 w3
d2
w1 w2 .... wn
d1
d2
KeywordMetric
Clusters
Dokumen
Text Mining
KeywordAggregation
Clusterin
KeywordExtraction
Tingkat kedekatan antar dokumen
-
7/24/2019 7611040039 - Buku TA
44/135
20
Perancangan sistem yang akan dibuat adalah melakukan
pembandingan antar dokumen berisi teks yang berupa txt berbahasaindonesia, dimana dalam 1 kali proses pembandingan terdapat 10
dokumen yang dibandingkan dengan tema yang sama, milik mahasiswa
yang berbeda. 10 dokumen tersebut kemudian diproses menggunakan textmining yang menghasilkan output berupa matriks dari masing-masing
dokumen, yang mana setiap dokumen memiliki kata kunci masing-
masing sejumlah n. Setiap kata kunci tersebut memiliki bobotnya masing-
masing yang diperoleh dari frekuensi kemunculan kata tersebut dalam
dokumen yang bersangkutan. Seluruh matriks tersebut kemudian
digabungkan menjadi 1 buah matriks besar melalui proses aggregation.
Dalam 1 matriks besar tersebut, seluruh kata kunci pada 10 matriks
sebelumnya digabungkan untuk kemudian dicari nilai bobot dari setiap
kata kunci tersebut terhadap 10 dokumen. Setelah diketahui nilai bobotdari seluruh kata kunci pada 10 dokumen, maka akan dilakukan proses
clustering atau pengelompokkan berdasarkan similaritas tertentu untuk
mendapatkan hasil clusterberupa tingkat kedekatan antar kedua dokumen
tersebut sehingga dapat diketahui tingkat kemiripan keduanya.
3.1. Dokumen
Berdasarkan gambar 3.1 terlihat bahwa input dari sistem yang
dibuat ini adalah berupa dokumen laporan tugas milik mahasiswa.
Dokumen yang digunakan sebagai input ini terdiri dari 10 buah laporanmilik 10 orang mahasiswa yang berbeda yang memiliki tema tugas yang
sama. Dokumen yang digunakan sebagai input ini hanya berisi teks, dan
tidak berupa gambar yang disimpan dalam bentuk txt berbahasa
indonesia.
Pada tahap awal sistem, sebelum masuk ke dalam aplikasi,
terdapat tampilan awal dari aplikasi yang bertujuan untuk memberikanpetunjuk penggunaan sebelum menjalankan aplikasi untuk memudahkan
user saat menggunakan aplikasi ini. Pada tampilan awal aplikasi, terdapat
3 menu yang disediakan lengkap dengan petunjuk kegunaan masing-masing menu, yaitu menu start, menu help, dan menu exit seperti yang
ditunjukkan pada Gambar 3.2
-
7/24/2019 7611040039 - Buku TA
45/135
21
Gambar 3.2 Tampilan Awal saat Aplikasi Dijalankan
Menu start digunakan untuk memulai aplikasi. Menu helpdigunakan untuk membaca petunjuk penggunaan aplikasi bagi user yang
baru pertama kali menggunakan aplikasi, untuk menghindari
kebingungan dan kesalahan saat menggunakan aplikasi ini. Menu exitdigunakan untuk keluar dari aplikasi jika user ingin membatalkan untukmenggunakan aplikasi ini. Tampilan untuk isi dari menu help ditunjukkan
pada Gambar 3.3 dan tampilan untuk isi dari menu exit ditunjukkan pada
Gambar 3.4
Gambar 3.3 TampilanButtonHelp
-
7/24/2019 7611040039 - Buku TA
46/135
22
Gambar 3.4 TampilanButton Exit
3.2. Text M ining
Text mining secara umum mengacu pada proses ekstraksiinformasi dari dokumen-dokumen teks tak terstruktur (unstructured). Text
mining memiliki definisi menambang data yang berupa teks dimanasumber data biasanya didapatkan dari dokumen, dan tujuannya adalah
mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat
dilakukan analisa keterhubungan antar dokumen [1].
Pada prinsipnya, text miningadalah bidang ilmu multidisipliner,
melibatkan information retrieval (IR), text analysis, information
extraction (IE), clustering, categorization, visualization, databasetechnology, natural language processing(NLP), machine learning, dan
data mining. Dapat pula dikatakan bahwa text miningmerupakan salah
satu bentuk aplikasi kecerdasan buatan (artificial intelligence/ AI) [1].
Text mining mencoba memecahkan masalah information overload
dengan menggunakan teknik-teknik dari bidang ilmu yang terkait. Text
miningdapat dipandang sebagai suatu perluasan dari data mining atau
knowledge-discovery in database (KDD), yang mencoba untuk
menemukan pola-pola menarik dari basis data berskala besar. Namun textminingmemiliki potensi komersil yang lebih tinggi dibandingkan dengan
data mining, karena kebanyakan format alami dari penyimpanan
informasi adalah berupa teks. Text miningmenggunakan informasi teks
tak terstruktur dan mengujinya dalam upaya mengungkap struktur dan arti
yang tersembunyi di dalam teks[1].
-
7/24/2019 7611040039 - Buku TA
47/135
23
3.2.1.Tahapan Text M ining
Tahapan yang dilakukan dalam text mining secara umum
ditunjukkan pada Gambar 3.5
Gambar 3.5 Tahapan Text Mining
a. Tahap Tokenizing
Tahap tokenizing atau parsing adalah tahap pemotongan string
input berdasarkan tiap kata yang menyusunnya. Gambar 3.6 adalahcontoh dari tahap tokenizing :
Gambar 3.6 Tahap Tokenizing
Filtering
Tagging
Stemming
Analyzing
Tokenizin
ProjectIniMembangun
JaringanAntaraDua
PC
Untuk
MelakukanSeranganTerhadap
AntarPC
Project ini membangun jaringan
antara dua PC untuk melakukan
serangan terhadap antar PC
-
7/24/2019 7611040039 - Buku TA
48/135
24
b. Tahap Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari
hasil token. Bisa mengunakan algoritma stop list (membuang kata-kata
yang kurang penting) atau word list (menyimpan kata penting). Stoplist /stopword adalah kata-kata yang tidak deskriptif yang dapat dibuangdalam pendekatan bag-of-words. Kata-kata yang termasuk dalamstoplist
tersebut telah disimpan dalam database. Kata-kata yang terdapat dalam
stoplist tersebut kemudian akan dicocokkan dengan kata hasil tokenizing.
Gambar 3.7 adalah contoh dari tahapfiltering:
Gambar 3.7 TahapFiltering
c. Tahap Stemming dan Tagging
Tahapstemmingadalah tahap mencari rootkata dari tiap kata hasil
filtering. Pada tahap ini dilakukan proses pengembalian berbagai
bentukan kata ke dalam suatu representasi yang sama. Tahap ini
kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit
diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasaIndonesia tidak memiliki rumus bentuk baku yang permanen.
Tahap taggingadalah tahap mencari bentuk awal atau rootdari
tiap kata lampau atau kata hasil stemming. Tahap ini berlaku untukdokumen teks berbahasa Inggris, sedangkan untuk dokumen teks
berbahasa Indonesia, prosesnya digabungkan dengan tahap stemming.
Gambar 3.8 adalah contoh dari tahapstemming dan tagging :
ProjectIniMembangun
JaringanAntaraDuaPC
UntukMelakukanSeranganTerhadap
AntarPC
Project
MembangunJaringan
DuaPCUntukMelakukan
Serangan
-
7/24/2019 7611040039 - Buku TA
49/135
25
Gambar 3.8 Tahap Stemming dan Tagging
d. Tahap Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauhketerhubungan antar kata-kata antar dokumen yang ada. Term Frequency
merupakan algoritma yang paling sederhana yang biasanya dipakai untuk
scoring. Gambar 3.9 adalah contoh dari tahap analyzing :
Gambar 3.9 TahapAnalyzing
3.3. KeywordExtraction
Keyword extractionberasal dari 2 kata yaitu extract dan keyword.
Extract sendiri sangat berhubungan dengan kata atau frasa dalam sebuahdokumen. Sedangkan keyword didefinisikan sebagai rangkaian atau
urutan dari satu atau lebih kata, yang merepresentasikan isi dari sebuahdokumen. Secara ideal, keyword merpresentasikan isi dari sebuah
dokumen yang bersifat sangat penting dalam bentuk sederhana.
Berdasarkan pengertian keyword extraction, pada sistem ini, isi
dari kedua dokumen input akan diekstraksi berdasarkan kata kunci dari
masing-masing dokumen dan setiap kata kunci tersebut memiliki nilai
ProjectMembangun
JaringanDuaPCUntuk
Melakukan
Serangan
ProjectBangun
JaringDuaPCUntuk
Laku
Serang
Project
Membangun
JaringanDuaPC
UntukMelakukan
Serangan
Project : 1
Bangun : 1
Jaring : 1Dua : 1PC : 1
Untuk : 1Laku : 1
Serang : 1
-
7/24/2019 7611040039 - Buku TA
50/135
26
bobot masing-masing yang menunjukkan frekuensi tingkat kemunculan
kata dalam satu dokumen. Contoh keyword extraction ditunjukkan padaTabel 3.1 dan Tabel 3.2:
Tabel 3.1 ContohKeyword Extractionuntuk Dokumen 1
Praktikum Sensor Gerakan ADC Objek
d1 2 22 3 3 8
Tabel 3.1 menunjukkan contoh hasil dari proses keyword
extraction dari dokumen 1. Contoh pada Tabel 3.1 tersebut terdapat 5 kata
kunci yang dihasilkan dari proses text mining, yaitu praktikum, sensor,
gerakan, ADC, dan objek. Masing-masing kata kunci tersebut memiliki
frekuensi kemunculan yang bervariasi. Untuk kata praktikum, frekuensi
kemunculannya pada dokumen 1 adalah sebanyak 2 kali. Untuk kata
sensor adalah sebanyak 22 kali. Untuk kata gerakan adalah sebanyak 3
kali. Untuk kata ADC adalah sebanyak 3 kali dan untuk kata objek adalah
sebanyak 8 kali.
Tabel 3.2 ContohKeyword Extractionuntuk Dokumen 2
Praktikum PIR Gerakan Output Data
d2 1 5 1 3 5
Tabel 3.2 menunjukkan contoh hasil dari proses keyword
extraction dari dokumen 2. Contoh pada Tabel 3.2 tersebut terdapat 5 kata
kunci yang dihasilkan dari proses text mining, yaitu praktikum, PIR,
gerakan, output, dan data. Masing-masing kata kunci tersebut memilikifrekuensi kemunculan yang bervariasi. Untuk kata praktikum, frekuensi
kemunculannya pada dokumen 2 adalah sebanyak 1 kali. Untuk kata PIR
adalah sebanyak 5 kali. Untuk kata gerakan adalah sebanyak 1 kali. Untuk
kata output adalah sebanyak 3 kali dan untuk kata data adalah sebanyak 5
kali.
3.4.
KeywordAggregation
Keyword aggregation berasal dari 2 kata yaitu keyword dan
aggregation. Aggregation sendiri memiliki pengertian dimana beberapa
hal dikelompokkan secara bersama-sama menjadi satu. Proses keywordaggregation pada sistem ini adalah menggabungkan hasil dari keyword
extraction dari kedua dokumen menjadi satu berupa keyword matric yang
akan dijelaskan pada bagian 3.5.
-
7/24/2019 7611040039 - Buku TA
51/135
27
3.5. KeywordMetric
Keyword metric berasal dari 2 kata yaitu keyword dan metric.
Metric merupakan bentuk representasi output dari proses keywordaggregation yang dinyatakan dalam bentuk matriks. Matriks sendiri
dinyatakan dalam bentuk tabel. Contoh proses keyword metric
ditunjukkan pada Tabel 3.3 :
Tabel 3.3 ContohKeyword Matric
Praktikum Sensor PIR Gerakan Output Objek Data
d1 2 22 0 3 0 8 5
d2 1 0 5 1 3 0 0
Tabel 3.3 menunjukkan contoh keyword metric yang merupakan
hasil dari proses keyword aggregation yaitu proses untuk
menggabungkan hasil dari keyword extraction dokumen 1 yang
ditunjukkan pada tabel 3.1 dan dokumen 2 yang ditunjukkan pada tabel
3.2. Terdapat 2 kata kunci yang sama antara dokumen 1 dan dokumen 2
yaitu kata praktikum dan gerakan. Selain kedua kata tersebut, kata kunci
lainnya berbeda antara kedua dokumen. Untuk kata praktikum dan
gerakan, masing-masing dokumen memiliki nilai frekuensi
kemunculannya masing-masing sesuai dengan nilai yang terdapat pada
tabel 3.1 dan 3.2. Sedangkan untuk kata sensor, PIR, output, objek, dan
data yang hanya dimiliki oleh salah satu dokumen, maka nilai frekuensi
kemunculan pada dokumen yang tidak terdapat kata kunci tersebut adalah
0. Sedangkan untuk dokumen yang didalamnya terdapat kata kunci
tersebut, maka nilai frekuensi kemunculannya adalah sama dengan yang
terdapat pada Tabel 3.1 dan 3.2.
3.6. Output
Output dari sistem ini adalah tingkat kedekatan antar dokumen
yang diperoleh dari hasil clustering yang telah dilakukan proses
pengelompokan berdasarkan similaritas tertentu. Berdasarkan tingkat
kedekatan antar dokumen tersebut, maka dapat diketahui nilai persentase
(%) tingkat kemiripan antar laporan tersebut sehingga kedua dokumen
yang diproses tersebut dapat dikategorikan sebagai tindak plagiarismeatau bukan.
-
7/24/2019 7611040039 - Buku TA
52/135
28
Untuk menentukan jenis kesamaan antara dokumen yang diuji,
terdapat 5 jenis penilaian persentasesimilarity (Mutiara-Agustina, 2008)yang ditunjukkan pada Tabel 3.4 [5]
Tabel 3.4 Jenis Penilaian Persentase SimilarityPersentase Jenis Kesamaan antar Dokumen
0%Kedua dokumen tersebut benar-benar berbeda
baik dari segi isi dan kalimat secara keseluruhan
50% Kedua dokumen tersebut mendekati plagiarisme
100%Kedua dokumen tersebut adalah plagiat karenadari awal sampai akhir mempunyai isi yg sama
persis.
-
7/24/2019 7611040039 - Buku TA
53/135
29
BAB IV
PENGUJIAN DAN ANALISA
Bab ini menjelaskan mengenai pengujian sistem yang merupakan
tahap penting dalam pengerjaan proyek akhir. Pengujian dilakukan untuk
mengetahui apakah sistem yang dibuat sesuai dengan apa yang telah
direncanakan. Pengujian dilakukan secara bertahap dan
berkesinambungan. Pada bab ini akan dilakukan pengujian dan analisa
terhadap sistem yang dibuat.
4.1. Lingkungan Uji Coba
a. Perangkat Keras (Hardware)
1. Processor : Intel Core i5 (2.30GHz)
2. Harddisk : Kapasitas 640 GB3. RAM : 4 GB
4. VGA : NVIDIA GeForce 315M
b. Perangkat Lunak (Software)
1. Sistem Operasi : Windows 732 bit
2.
Software Build : NetBeans IDE 7.0
4.2. Pengujian Tahap Text M ining
Pengujian tahap text mining ini terdiri dari proses pengujian untuk
setiap tahap pada text mining yang meliputi tahap tokenizing, tahap
filtering, tahap stemming dan tagging, serta tahap analyzing yang
dilengkapi dengan tujuan pengujian, metode pengujian prosedur
pengujian dan hasil pengujian.
4.2.1.
Tujuan
Tujuan pengujian tahap text miningini adalah untuk mengetahui
data output yang dihasilkan oleh setiap tahapan proses text mining apakah
sesuai dengan output yang seharusnya dihasilkan berdasarkan pada teori
text mining itu sendiri.
-
7/24/2019 7611040039 - Buku TA
54/135
30
4.2.2.Metode Pengujian
Metode pengujian yang dilakukan untuk pengujian tahap text
mining ini adalah dengan melakukan pengujian terhadap setiap tahapandari text mining yaitu tahap tokenizing, tahap filtering, tahap stemming
dan tagging, serta tahap analyzinguntuk memperoleh output dari masing-
masing tahapan tersebut.
4.2.3.Prosedur Pengujian
Langkah-langkah prosedur pengujian untuk mengetahui hasil
output dari masing-masing tahap text mining adalah sebagai berikut :
1.
Run class FormApp2.java2. Klik button hasil tokenizing kemudian pilih 2 file .txt yang akan di
bandingkan
3. Output dari tahap tokenizing akan ditampilkan pada jTextArea
4. Klik button hasil filtering untuk menghilangkan kata-kata yang
tidak penting dari tahap tokenizing
5. Output dari tahapfiltering akan ditampilkan pada jTextArea
6. Klik button hasilstemming dan tagging untuk mengembalikan ke
kata dasar dari tahapfiltering
7.
Output dari tahap stemming dan tagging akan ditampilkan pada
jTextArea
8. Klik button hasil analyzing untuk menghitung jumlah kemunculan
kata dari tahapstemming dan tagging
9. Output dari tahap analyzing akan ditampilkan pada jTextArea
4.2.4.Hasil Pengujian
Hasil pengujian dari tahap text mining ini terdiri atas 4 macamyaitu hasil pengujian tahap tokenizing, hasil pengujian tahap filtering,
hasil pengujian tahap stemming dan tagging, serta hasil pengujian tahap
analyzing.
a. Tahap Tokenizing
Proses tokenizing ini mengambil input dari file .txt yang diperoleh
dari proses browse file. Proses tokenizing ini dilakukan dengan cara
-
7/24/2019 7611040039 - Buku TA
55/135
31
melakukan pembacaan setiap baris dari isi file .txt. Selain itu, pada proses
tokenizing ini juga harus menentukan tokenizer yang digunakan yang
terdiri atas beberapa jenis tanda baca, seperti koma (,), titik (.), spasi, titik
koma (;), titik dua (:), buka dan tutup kurung (), kurung kurawal {}, lebihdari (>), kurang dari (
-
7/24/2019 7611040039 - Buku TA
56/135
32
a. Menginputkanstopword ke dalam database ms. Access
Daftarstopword yang telah ada diinputkan ke dalam database ms.
Access yang berjumlah 384 kata yang tercantum pada lampiran halaman
106110.
b.
Setting ODBC ms. Access
Untuk dapat melakukan akses terhadap database, diperlukansetting pada ODBC control panel melalui langkah-langkah yang mengacu
pada https://halimi1010.wordpress.com/category/java/pbo-3/membuat-
koneksi-ke-database-access-menggunakan-java-desktop
c. Mengkoneksikan antara ms. Access dengan NetBeans
Setelah selesai melakukan setting ODBC, kemudian koneksikan
antara ms. Access dengan NetBeans melalui langkah-langkah yangmengacu pada https://halimi1010.wordpress.com/category/java/pbo-
3/membuat-koneksi-ke-database-access-menggunakan-java-desktopSetelah proses setting koneksi Ms Access telah selesai, dilakukan
proses untuk melakukan pengetesan koneksi antara Ms. Acces dan
Netbeans. Jika koneksi berhasil akan menghasilkan keterangan berupa
Koneksi Berhasil seperti yang ditunjukkan pada Gambar 4.2 :
Gambar 4.2 Tampilan Koneksi Ms. Access dan Netbeans berhasil
d. Proses pemfilteranstopword dari hasil tokenizing
Proses penyaringan kata penting dan tidak penting ini dilakukan
dengan cara membandingkan isi array token[x] yang berisi kata dasar
hasil dari proses tokenizing dengan database stopword yang telah dibuat
menggunakan Ms. Access. Jika isi dari array token[x] ditemukan dalamdatabase, maka kata tersebut harus dihilangkan dengan cara
mengosongkan isi dari array token[x]. Berdasarkan keseluruhan proses
diatas, diperoleh hasil akhir dari tahap filtering seperti yang ditunjukkan
pada Gambar 4.3 :
https://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktop -
7/24/2019 7611040039 - Buku TA
57/135
33
Gambar 4.3 Contoh OutputTahapFiltering
c. Tahap Stemming dan Tagging
Tahapstemmingdan tagging untuk dokumen berbahasa Indonesia
memiliki inputberupa kata-kata penting dari dokumen yang telah melalui
tahapfiltering yang kemudian outputnya adalah kata dasar dari kata-kata
penting tersebut. Proses pada tahapstemming dan tagging ini dilakukan
melalui beberapa tahap berikut :
-
7/24/2019 7611040039 - Buku TA
58/135
34
a. Pembuatan folder kamus kata dasar bahasa Indonesia dalam
bentuk alphabet A-Z.txt
Kamus bahasa Indonesia yang dibuat ini berisi kata dasar yang
berjumlah sebanyak 57.289 kata yang terdiri dari alphabet AZ. Kamusbahasa ini disimpan ke dalam bentuk .txt untuk setiap alphabetnya.
Seluruh kamus .txt tersebut disimpan dalam satu folder bernama kamus
seperti yang ditunjukkan pada Gambar 4.4
Gambar 4.4 Kamus Bahasa Indonesia
b.
Pembuatan kelas .java untuk akses isi folder kamus
Setelah kamus bahasa Indonesia telah disediakan, kemudian
dilakukan proses untuk melakukan akses terhadap isi kamus tersebut.Pengetesan akses terhadap isi kamus dilakukan dengan cara
menginputkan sebuah kata dasar, misalnya kata minum. Kata minum ini
diawali dengan alphabet M sehingga proses pencarian kata hanya
dilakukan dalam file M.txt dan jika kata yang dicari ditemukan dalam
kamus, maka output yang dihasilkan adalah true seperti yang ditunjukkan
pada Gambar 4.5
Gambar 4.5 Pengujian Akses Isi Kamus Bahasa Indonesia
-
7/24/2019 7611040039 - Buku TA
59/135
35
c. Pembuatan kelas .java untuk remove possesive pronoun
Setelah pengaksesan isi kamus tersebut berhasil, dilakukan proses
untuk menghilangkan kata ganti kepemilikan atau possesive pronoun
yang terdiri atas akhiran lah, kah, ku, mu, dan nya. Jikaditemukan kata yang berakhiran dengan possesive pronoun, maka
panjang katanya akan dikurangi sepanjang kata possesive pronoun
tersebut, misalnya diinputkan kata apakah, setelah diproses akan
menghasilkan output berupa kata apa seperti yang ditunjukkan pada
Gambar 4.6
Gambar 4.6 Pengujian Untuk MenghapusPossesive Pronoun
d.
Pembuatan kelas .java untuk remove prefix (awalan)
Setelah menghilangkan kata ganti kepemilikan, langkah
selanjutnya adalah menghilangkan awalan yang terdiri atas pe, me,
be, te, se, ke, dan di. Jika ditemukan kata yang memilikiawalan tersebut, maka panjang kata awal akan dikurangi sejumlah
panjang kata awalan tersebut, misalnya di inputkan kata pengguna,
setelah di proses akan menghasilkan outputberupa kata guna seperti yang
ditunjukkan pada Gambar 4.7
Gambar 4.7 Pengujian Untuk Menghapus Awalan
e. Pembuatan kelas .java untuk remove suffix (akhiran)
Setelah menghilangkan kata ganti kepemilikan dan awalan,
langkah selanjutnya adalah menghilangkan akhiran yang terdiri atas an
dan i. Jika ditemukan kata yang memiliki akhiran tersebut, maka
-
7/24/2019 7611040039 - Buku TA
60/135
36
panjang kata akan dikurangi sejumlah panjang kata akhiran tersebut,
misalnya diinputkan kata gerakan, setelah diproses akan menghasilkan
outputberupa kata gerak seperti yang ditunjukkan pada Gambar 4.8
Gambar 4.8 Pengujian Untuk Menghapus Akhiran
f.
Proses pengembalian kata dasar dengan melakukan akses terhadap
4 kelas yang telah dibuat
Setelah keempat kelas tersebut telah selesai dibuat, kemudian
dilakukan proses dari tahap stemming dan tagging dengan melakukan
akses terhadap 4 kelas yang telah dibuat sebelumnya. Berdasarkan
keseluruhan proses diatas, diperoleh hasil akhir dari tahap stemming dan
tagging ditunjukkan pada Gambar 4.9
Gambar 4.9 Output Tahap Stemmingdan Tagging
-
7/24/2019 7611040039 - Buku TA
61/135
37
d. Tahap Analyzing
Tahap analyzingmerupakan tahap akhir dari proses text mining
dimana input yang digunakan adalah hasil dari tahap stemming dantagging yang telah berupa kata dasar yang dijadikan sebagai kata kunci
dari masing-masing dokumen. Kata kunci tersebut untuk selanjutnya
dihitung jumlah kemunculan dari setiap katanya sehingga tidak terdapat
perulangan penulisan kata yang sama. Proses penghitungan kemunculan
frekuensi kata kunci ini dil