7611040039 - buku ta

Upload: fitria-dwi-indah-kusuma

Post on 23-Feb-2018

256 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 7611040039 - Buku TA

    1/135

    PROYEK AKHIR

    APLIKASI PENDETEKSI KEMIRIPAN LAPORAN

    MENGGUNAKAN TEXT M INING DAN CLUSTERING

    Fitria Dwi Indah Kusuma

    NRP 7611040039

    Dosen Pembimbing 1:

    Tri Harsono, S.Si., M.Kom., Ph.D.

    NIP 196901071994031001

    Dosen Pembimbing 2:

    Ir. Sigit Wasista, M.Kom.NIP 196608121993031005

    Dosen Pembimbing 3:

    Aliridho Barakbah, S.Kom,. Ph.D.

    NIP 197308162001121001

    PROGRAM STUDI TEKNIK KOMPUTER

    DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER

    POLITEKNIK ELEKTRONIKA NEGERI SURABAYA

    2015

  • 7/24/2019 7611040039 - Buku TA

    2/135

    PROYEK AKHIR

    APLIKASI PENDETEKSI KEMIRIPAN LAPORAN

    MENGGUNAKAN TEXT MI NING DAN CLUSTERING

    Fitria Dwi Indah Kusuma

    NRP 7611040039

    Dosen Pembimbing 1:

    Tri Harsono, S.Si., M.Kom., Ph.D.

    NIP 196901071994031001

    Dosen Pembimbing 2:

    Ir. Sigit Wasista, M.Kom.NIP 196608121993031005

    Dosen Pembimbing 3:

    Aliridho Barakbah, S.Kom., Ph.D.

    NIP 197308162001121001

    PROGRAM STUDI TEKNIK KOMPUTER

    DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER

    POLITEKNIK ELEKTRONIKA NEGERI SURABAYA

    20155

  • 7/24/2019 7611040039 - Buku TA

    3/135

  • 7/24/2019 7611040039 - Buku TA

    4/135

  • 7/24/2019 7611040039 - Buku TA

    5/135

    iii

  • 7/24/2019 7611040039 - Buku TA

    6/135

    iv

  • 7/24/2019 7611040039 - Buku TA

    7/135

    v

    ABSTRAK

    Dalam dunia pendidikan, khususnya di lingkungan perkuliahan

    yang identik dengan banyaknya jumlah mata kuliah teori maupunpraktikum di setiap semesternya, selalu disertai pula dengan banyaknya

    tugas berupa laporan yang harus dikerjakan oleh setiap mahasiswa.

    Sebagian besar tugas maupun laporan tersebut berupa soft file. Tidak

    jarang seorang mahasiswa melakukan proses copy-paste-modify terhadap

    tugas maupun laporan milik mahasiswa lain, bahkan tidak jarang pula

    mahasiswa yang melakukan copy-paste hanya mengganti jenisfont yang

    digunakan tanpa melakukan perubahan apapun terhadap isi tugas dan

    laporan tersebut. Pada penelitian ini dideteksi kemiripan antar laporan

    resmi dengan cara membandingkan isi analisa dan kesimpulan darilaporan tersebut yang telah disimpan dalam bentuk teks berupa file .txt

    untuk mengetahui tingkat kemiripan antar laporan dimana hasil

    pembandingan tersebut dinyatakan dalam bentuk persentase atau nilai

    tingkat kemiripan isi antar laporan. Proses pembandingannya dilakukan

    dengan memanfaatkan adanya text mining dan clustering. Text mining itusendiri terdiri dari beberapa tahap, yaitu tokenizing, filtering, stemming,

    tagging dan analyzing. Proses deteksi kemiripan laporan akan bekerja

    lebih optimal ketika diproses melalui tahap stemming dan tagging

    meskipun membutuhkan waktu yang lebih lama dibandingkan tanpa

    melalui tahap stemming dan tagging. Deteksi kemiripan laporan

    menggunakan tahap stemming dan tagging menghasilkan persentase

    keberhasilan sebesar 65,19% dan ketika diproses tanpa menggunakan

    tahap stemming dan tagging menghasilkan persentase keberhasilan

    sebesar 64,23%.

    Kata Kunci : kemiripan laporan, text mining, clustering.

  • 7/24/2019 7611040039 - Buku TA

    8/135

    vi

  • 7/24/2019 7611040039 - Buku TA

    9/135

    vii

    ABSTRACT

    In education world, especially in the lecture environment that is

    identical to the large number of theoretical and practical courses in eachsemester, always accompanied with a large number of tasks in the form

    of a report tthat should be done by each student. Most of the tasks is soft

    file. Sometimes, a student doing copy-paste-modify the report belonging

    to another student, even sometimes, students who do copy-paste only

    change the type of font without making any changes to the content of the

    report. In this study, detected report similarity by comparing the contents

    of the analysis and conclusions of the report that has been saved in .txt

    file to determine the level of similarity between the report which the result

    is expressed as a percentage of similarity between the contents of thereport. The comparison process is done by using text mining and

    clustering. Text mining itself consists of several steps, they are tokenizing,

    filtering, stemming, tagging and analyzing. Report similarity detection

    process will work optimally when it is processed through stemming and

    tagging although it requires a longer time compared to without goingthrough stemming and tagging. Report similarity detection using

    stemming and tagging generate percentage success 65.19% and when

    processed without stemming and tagging generate percentage success 64.23%.

    Keywords:report similarity, text mining, clustering.

  • 7/24/2019 7611040039 - Buku TA

    10/135

    viii

  • 7/24/2019 7611040039 - Buku TA

    11/135

    ix

    KATA PENGANTAR

    Assalamu alaikum Wr. Wb.

    Syukur alhamdulillah kepada Allah SWT atas segala rahmat dan

    hidayah-Nya sehingga penulis dapat menyelesaikan proyek akhir ini yang

    berjudul :

    APLIKASI PENDETEKSI KEMIRIPAN LAPORAN

    MENGGUNAKAN TEXT M INING DAN CLUSTERING

    Proyek Akhir ini merupakan salah satu syarat kelulusan bagi setiap

    mahasiswa Politeknik Elektronika Negeri Surabaya pada program

    Diploma IV Program Studi Teknik Komputer Departemen Teknik

    Informatika dan Komputer di Politeknik Elektonika Negeri Surabaya

    guna memperoleh gelar Sarjana Terapan Teknik (S.Tr.T.)

    Dengan selesainya buku laporan proyek akhir ini, penulis berharap

    semoga buku ini dapat membawa manfaat bagi pembaca umumnya danjuga bagi penulis pada khususnya serta semua pihak yang berkepentingan.

    Penulis juga berharap agar proyek akhir ini dapat dikembangkan lebih

    lanjut sehingga dapat benar-benar digunakan sebaik-baiknya untuk

    diaplikasikan ke dalam dunia pendidikan secara nyata agar mengurangi

    tingkatplagiarisme yang marak terjadi. Penulis menyadari bahwa penulis

    adalah manusia biasa yang tidak luput dari kesalahan dan kekurangan.

    Untuk itu, kritikan dan saran yang bersifat membangun kami harapkanuntuk perbaikan selanjutnya.

    Wassalamu alaikum Wr. Wb.

    Surabaya, 2015

    Penulis

  • 7/24/2019 7611040039 - Buku TA

    12/135

    x

  • 7/24/2019 7611040039 - Buku TA

    13/135

    xi

    UCAPAN TERIMA KASIH

    Syukur Alhamdulillah segala puji bagi Allah SWT yang dengan

    ridho-Nya telah memberikan rahmat, karunia, serta hidayah-Nya yangluar biasa besar, termasuk memberikan kemudahan dan kelancaran dalam

    proses pengerjaan proyek akhir ini. Sholawat serta salam selalu

    tercurahkan kepada junjungan kita Nabi Besar Muhammad SAW.

    Dengan segala kerendahan hati, keikhlasan dan ketulusan, saya

    ingin menyampaikan rasa terima kasih dan penghargaan yang sebesar-

    besarnya kepada :

    1.

    Kedua orang tua, Papa dan Mama yang telah memberikanlimpahan kasih sayang luar biasa besarnya yang tak pernah luntur

    sekalipun. Terima kasih yang luar biasa besar kepada beliau atas

    segala bentuk doa yang tiada putus-putusnya hingga Allah SWT

    melimpahkan segala macam nikmat yang tiada henti-hentinya

    selama 4 tahun masa perkuliahan ini. Terima kasih untuk segala

    bentuk nasehat dan dukungan yang diberikan. Youre the best

    moodbooster Iveever had, the most valuable person in this world.

    Thanks so much for always stay by my side, no matter what.2. Kakak satu-satunya, mbak Rani beserta kakak ipar satu-satunya,

    mas Heri, yang tidak lupa memberikan nasehat, masukan maupun

    semangat dalam menjalani perkuliahan selama 4 tahun di PENS.

    3.

    Keluarga besar yang juga tidak lupa menitipkan doa-doa yang

    mengiringi langkah kaki perjalanan semasa perkuliahan.

    4.

    Bapak Ir. Sigit Wasista, M.Kom selaku Ketua Program Studi

    Teknik Komputer Politeknik Elektronika Negeri Surabaya

    sekaligus Dosen Pembimbing II Proyek Akhir saya.

    5.

    Kepada Bapak Tri Harsono S.Si, M.Kom, Ph.D selaku Dosen

    Pembimbing I Proyek Akhir saya. Terima kasih atas nasehatnya

    dan terima kasih telah bersedia membimbing saya selama 1 tahun

    masa pengerjaan proyek akhir ini.

    6.

    Kepada Bapak Aliridho Barakbah, S.Kom, Ph.D selaku Dosen

    Pembimbing III Proyek Akhir saya yang telah berkenan

    direpotkan untuk mengajari materi baru yang tidak pernah saya

    peroleh selama masa perkuliahan di Teknik Komputer. Terima

  • 7/24/2019 7611040039 - Buku TA

    14/135

    xii

    kasih telah dengan sabar membimbing hingga akhirnya proyek

    akhir ini dapat terselesaikan.

    7. Kepada seluruh Bapak dan Ibu Dosen Program Studi Teknik

    Komputer Politeknik Elektronika Negeri Surabaya, terima kasihatas ilmu yang diberikan selama 4 tahun masa perkuliahan.

    Semoga ilmu yang diberikan dapat bermanfaat bagi saya nantinya.

    8. Rekan-rekan Teknik Komputer 2011 khususnya Teknik Komputer

    B, terima kasih banyak atas segala macam guyonan, dagelan dan

    semacamnya yang selalu menghiasi hari-hari selama kuliah. Non

    stop laughing when Im with you. Terima kasih sudah mewarnai

    perjalanan kuliah yang tidak membosankan, terima kasih sudah

    memberikan hiburan secara tidak langsung, terima kasih atas

    pengalaman menjadi mahasiswa yang tidak baik-baik karenamenjadi baik terus-menerus itu membosankan. Big thanks rek

    untuk 4 tahun kebersamaannya. Maafkan kalau sering jahat sama

    kalian. See you on top guys !

    9. Kepada Ardinintya, Galuh, dan Iqbal, my partner in crime, thanks

    bro. Terima kasih sudah menjadi lilin ditengah kegelapan hidup.

    Terima kasih karena kalian mampu menjadi pengalih perhatian

    ketika galau datang menyerang. Terima kasih karena kalian yang

    seringkali jadi sasaran untuk diajak menghidupi perut dan jalan-jalan berkeliling kota. Terima kasih sudah mendengar segala

    macam keluh kesah yang melelahkan. Maafkan jika sering

    merepotkan dan kalian sering mendapat respon jahat, judes atau

    apalah itu.Dont forget to keep our tummy happy rek !

    10.

    Kepada Agung Waluyo Utomo, teman sedari Orientasi Mahasiswa

    Baru (OMB) 2011 sampai saat ini. Terima kasih untuk dukungan

    dan semangatnya selama 4 tahun ini. Terima kasih untuk segala

    kesediannya direpotkan dengan berbagai macam hal. Terima kasih

    untuk segala bentuk bantuannya. Maafkan jika sering melakukan

    kesalahan.

    11.

    Kepada Shinta, Galuh, Dimi, Luluk, Iis, dan Tya a.k.a 7 segment,

    terima kasih sudah jadi teman yang baik selama kuliah, karena

    memang hanya kalian teman perempuan di kelas, karena

    perempuan itu minoritas di Teknik Komputer. Terima kasih untuk

    segala kesenangan dan kebahagiaan yang telah dibagikan. Terima

  • 7/24/2019 7611040039 - Buku TA

    15/135

    xiii

    kasih sudah saling mendukung satu sama lain. Semoga kita semua

    sukses !

    12. Kepada sahabat sedari SMA, Destya, Nita, dan Intan, terima kasih

    kalian yang tetap bersedia menjadi pendengar yang baik ketika adakeluh kesah datang. Terima kasih masih tetap jadi sahabat yang

    baik meski sudah berpisah kota. Terima kasih masih tetap

    meluangkan waktu bermain bersama seperti dulu ketika pulang ke

    kampung halaman. Keep contact and please stay by my side ya

    guys !

    13. Teman-teman seperjuangan, Mas dan Mbak, serta adik-adik di

    Himpunan Mahasiswa Teknik Informatika (HIMIT) 2012/2013

    dan 2013/2014, terima kasih banyak atas segala pengalaman yang

    luar biasa yang tidak akan didapatkan di dalam materi akademikperkuliahan. Terima kasih atas kepercayaan untuk mengemban

    amanah semasa menjabat fungsionaris. Terima kasih untuk ilmu,

    kekeluargaan, kebersamaannya. Bersama kalian dulu, adalah salah

    satu hiburan ditengah penatnya jam kuliah, tugas-tugas lapen,

    lapres, dan project.Nice to meet you guys !

    14. Teman-teman pemandu LKMM, terima kasih sudah memberikan

    kesempatan, ilmu, dan pengalaman menjadi seorang pemateri.

    Terima kasih karena kalian lah, skill public speaking ini lebihterasah. Senang pernah bekerja sama dengan kalian.

    15. Teman-teman seangkatan 2011, terima kasih sudah menambah

    sederetan nama teman dalam hidup saya.

    16.

    Teman-teman lama yang masih sering memberikan support,

    terima kasih atassupport yang cukup menguatkan.

    17.

    Kepada seluruh teman-teman yang tersebar di seluruh dunia yang

    telah membantu menemukan solusi melalui berbagai macam

    forum-forum yang tersebar luas di google.

    Segala ucapan terima kasih tentunya belum cukup, semoga kalian

    semua senantiasa berada dibawah lindungan Allah SWT dan semoga

    segala kebaikan kalian dibalas berlipat-lipat ganda oleh Allah SWT.

    Amin.

  • 7/24/2019 7611040039 - Buku TA

    16/135

    xiv

  • 7/24/2019 7611040039 - Buku TA

    17/135

    xv

    DAFTAR ISI

    LEMBAR PERNYATAAN BEBAS PLAGIARISME.................. Error!

    Bookmark not defined.

    ABSTRAK .............................................................................................. v

    ABSTRACT............................................................................................ vii

    KATA PENGANTAR ........................................................................... ix

    UCAPAN TERIMA KASIH .................................................................. xi

    DAFTAR ISI ......................................................................................... xv

    DAFTAR GAMBAR ........................................................................... xix

    DAFTAR TABEL ................................................................................ xxi

    BAB I ...................................................................................................... 1

    PENDAHULUAN .................................................................................. 1

    1.1. Latar Belakang ................................................................................ 1

    1.2. Perumusan Masalah ........................................................................ 2

    1.3.

    Batasan Masalah ............................................................................. 2

    1.4. Tujuan dan Manfaat ........................................................................ 3

    1.4.1. Tujuan .......................................................................................... 3

    1.4.2. Manfaat ........................................................................................ 3

    1.5. Metodologi Penelitian..................................................................... 3

    1.5.1. Studi Literatur .............................................................................. 4

    1.5.2.

    Perancangan Sistem ..................................................................... 4

    1.5.3. Pengujian Sistem ......................................................................... 4

    1.5.4. Analisa Hasil Pengujian Sistem ................................................... 5

    1.5.5. Penyusunan Laporan .................................................................... 5

    1.6. Sistematika Penulisan ..................................................................... 5

    BAB II ..................................................................................................... 7

  • 7/24/2019 7611040039 - Buku TA

    18/135

    xvi

    TINJAUAN PUSTAKA .......................................................................... 7

    2.1. Plagiarisme ...................................................................................... 7

    2.1.1. Metode Pendeteksi Plagiarisme .................................................... 8

    2.2. Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia

    Menggunakan Algoritma Winnowing Dengan Metode K-Gram dan

    Synonym Recognition ............................................................................. 9

    2.3. Implementasi Deteksi Penjiplakan Dengan Algoritma Winowing

    pada Dokumen Terkelompok................................................................. 11

    2.4. Penerapan Algoritma Boyer-Moore dan Algoritma Rabin Karp

    dalam Mendeteksi Aksi Plagiarisme ...................................................... 17

    BAB III .................................................................................................. 19

    PERANCANGAN DAN PEMBUATAN SISTEM ............................... 19

    3.1. Dokumen ....................................................................................... 20

    3.2. Text Mining................................................................................... 22

    3.2.1. Tahapan Text Mining.................................................................. 23

    a. Tahap Tokenizing............................................................................. 23

    b.

    TahapFiltering................................................................................ 24

    c. Tahap Stemming dan Tagging.......................................................... 24

    d. TahapAnalyzing............................................................................... 25

    3.3. KeywordExtraction...................................................................... 25

    3.4. KeywordAggregation................................................................... 26

    3.5. KeywordMetric ............................................................................. 27

    3.6.

    Output............................................................................................ 27

    BAB IV .................................................................................................. 29

    PENGUJIAN DAN ANALISA ............................................................. 29

    4.1. Lingkungan Uji Coba .................................................................... 29

    4.2. Pengujian Tahap Text Mining........................................................ 29

    4.2.1. Tujuan ......................................................................................... 29

  • 7/24/2019 7611040039 - Buku TA

    19/135

    xvii

    4.2.2. Metode Pengujian ...................................................................... 30

    4.2.3. Prosedur Pengujian .................................................................... 30

    4.2.4. Hasil Pengujian .......................................................................... 30

    a. Tahap Tokenizing............................................................................ 30

    b. TahapFiltering................................................................................ 31

    c. Tahap Stemming dan Tagging......................................................... 33

    d. TahapAnalyzing.............................................................................. 37

    4.3. Pengujian TahapKeywordAggregation....................................... 38

    4.3.1. Tujuan Pengujian ....................................................................... 38

    4.3.2. Metode Pengujian ...................................................................... 38

    4.3.3. Prosedur Pengujian .................................................................... 38

    4.3.4. Hasil Pengujian .......................................................................... 39

    4.4. Pengujian Tahap SimilarityMeasurement .................................... 40

    4.4.1. Tujuan Pengujian ....................................................................... 40

    4.4.2. Metode Pengujian ...................................................................... 40

    4.4.3. Prosedur Pengujian .................................................................... 40

    4.4.4. Hasil Pengujian .......................................................................... 41

    4.5. Pengujian Persentase SimilarityAntar Dokumen ......................... 44

    4.5.1. Tujuan Pengujian ....................................................................... 44

    4.5.2. Metode Pengujian ...................................................................... 44

    4.5.3. Prosedur Pengujian .................................................................... 45

    4.5.4. Hasil Pengujian .......................................................................... 45

    a. Persentase SimilarityAntar Dokumen ............................................. 46

    b. Pencocokan Kemiripan Isi Manual .................................................. 48

    c. Persentase Kemiripan Laporan dengan Stemming dan Tanpa

    Stemming............................................................................................... 75

  • 7/24/2019 7611040039 - Buku TA

    20/135

    xviii

    d. Persentase Kemiripan Laporan dengan Menghilangkan Kata yang

    Harus Ada .............................................................................................. 81

    4.6. Pengujian Lama Waktu Pemrosesan ............................................. 89

    4.6.1.

    Tujuan Pengujian ........................................................................ 89

    4.6.2. Metode Pengujian ....................................................................... 89

    4.6.3. Prosedur Pengujian ..................................................................... 90

    4.6.4. Hasil Pengujian ........................................................................... 90

    a. Pengujian Lama Waktu Pemrosesan TahapFiltering...................... 90

    b. Pengujian Lama Waktu Pemrosesan Tahap Stemmingdan Tagging95

    BAB V ................................................................................................. 101

    PENUTUP ........................................................................................... 101

    5.1. Kesimpulan ................................................................................. 101

    5.2. Saran............................................................................................ 102

    DAFTAR PUSTAKA .......................................................................... 103

    LAMPIRAN ........................................................................................ 105

    BIODATA PENULIS .......................................................................... 111

  • 7/24/2019 7611040039 - Buku TA

    21/135

    xix

    DAFTAR GAMBAR

    Gambar 1.1 Diagram Metodologi Penelitian .......................................... 4

    Gambar 2.1 Metode pendeteksi plagiarisme ........................................... 8

    Gambar 2.2 Flowchart Synonym Recognition ...................................... 10

    Gambar 2.3 Arsitektur Aplikasi ............................................................ 15

    Gambar 3.1 Diagram Alur Sistem ......................................................... 19

    Gambar 3.2 Tampilan Awal saat Aplikasi Dijalankan .......................... 21

    Gambar 3.3 Tampilan Button Help ....................................................... 21

    Gambar 3.4 Tampilan Button Exit ........................................................ 22

    Gambar 3.5 Tahapan Text Mining ........................................................ 23

    Gambar 3.6 Tahap Tokenizing .............................................................. 23

    Gambar 3.7 Tahap Filtering .................................................................. 24

    Gambar 3.8 Tahap Stemming dan Tagging .......................................... 25

    Gambar 3.9 Tahap Analyzing ............................................................... 25

    Gambar 4.1 Contoh Output Tahap Tokenizing ..................................... 31

    Gambar 4.2 Tampilan Koneksi Ms. Access dan Netbeans berhasil ...... 32

    Gambar 4.3 Contoh Output Tahap Filtering ......................................... 33

    Gambar 4.4 Kamus Bahasa Indonesia .................................................. 34

    Gambar 4.5 Pengujian Akses Isi Kamus Bahasa Indonesia .................. 34

    Gambar 4.6 Pengujian Untuk Menghapus Possesive Pronoun ............. 35

    Gambar 4.7 Pengujian Untuk Menghapus Awalan ............................... 35

    Gambar 4.8 Pengujian Untuk Menghapus Akhiran .............................. 36

    Gambar 4.9 Output Tahap Stemming dan Tagging .............................. 36

    Gambar 4.10 Contoh Output Tahap Analyzing .................................... 37

    Gambar 4.11 Browse File ..................................................................... 43

    Gambar 4.12 Tampilan Dokumen 1 dan Dokumen 2 ........................... 44

    Gambar 4.13 Kategori Penilaian Persentase Similarity ........................ 48

    Gambar 4.14 Grafik Waktu Tahap Filtering Jenis Dokumen Pertama.. 92

    Gambar 4.15 Grafik Waktu Tahap Filtering Jenis Dokumen Kedua .... 93

    Gambar 4.16 Grafik Waktu Tahap Filtering Jenis Dokumen Ketiga .... 95

    Gambar 4.17 Grafik Waktu Tahap Stemming dan Tagging Jenis

    Dokumen Pertama ................................................................................. 97

    Gambar 4.18 Grafik Waktu Tahap Stemming dan Tagging Jenis

    Dokumen Kedua ................................................................................... 99

    Gambar 4.19 Grafik Waktu Tahap Stemming dan Tagging Jenis

    Dokumen Ketiga ................................................................................. 100

  • 7/24/2019 7611040039 - Buku TA

    22/135

    xx

  • 7/24/2019 7611040039 - Buku TA

    23/135

    xxi

    DAFTAR TABEL

    Tabel 3.1 Contoh Keyword Extraction untuk Dokumen 1 .................... 26

    Tabel 3.2 Contoh Keyword Extraction untuk Dokumen 2 .................... 26

    Tabel 3.3 Contoh Keyword Matric ....................................................... 27

    Tabel 3.4 Jenis Penilaian Persentase Similarity .................................... 28

    Tabel 4.1 Tabel Output Tahap Keyword Aggregation .......................... 39

    Tabel 4.2 Contoh Hasil Keyword Aggregation ..................................... 42

    Tabel 4.3 Tabel Output Tahap Similarity Measurement ....................... 42

    Tabel 4.4 Contoh Hasil Keyword Aggregation ..................................... 46

    Tabel 4.5 Tabel Output Persentase Similarity Antar Dokumen ............ 47

    Tabel 4.6 Persentase Kemiripan Antar Laporan Jenis Dokumen Pertama

    .............................................................................................................. 49

    Tabel 4.7 Pencocokan Manual Kemiripan Dokumen 4 dan Dokumen 9

    .............................................................................................................. 49

    Tabel 4.8 Pencocokan Manual Kemiripan Dokumen 2 dan Dokumen 9

    .............................................................................................................. 53

    Tabel 4.9 Pencocokan Manual Kemiripan Dokumen 2 dan Dokumen 6

    .............................................................................................................. 58

    Tabel 4.10 Persentase Kemiripan Antar Laporan Jenis Dokumen Kedua

    .............................................................................................................. 61

    Tabel 4.11 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 8

    .............................................................................................................. 62

    Tabel 4.12 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 9

    .............................................................................................................. 64

    Tabel 4.13 Pencocokan Manual Kemiripan Dokumen 1 dan Dokumen 2

    .............................................................................................................. 66

    Tabel 4.14 Persentase Kemiripan Antar Laporan Jenis Dokumen Ketiga

    .............................................................................................................. 67

    Tabel 4.15 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 4

    .............................................................................................................. 68

    Tabel 4.16 Pencocokan Manual Kemiripan Dokumen 3 dan Dokumen 10

    .............................................................................................................. 70

    Tabel 4.17 Pencocokan Manual Kemiripan Dokumen 4 dan Dokumen 10

    .............................................................................................................. 71

    Tabel 4.18 Pencocokan Manual Kemiripan Dokumen 1 dan Dokumen 2

    .............................................................................................................. 73

  • 7/24/2019 7611040039 - Buku TA

    24/135

    xxii

    Tabel 4.19 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan

    Stemming Dokumen Jenis Pertama ....................................................... 76

    Tabel 4.20 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan

    Stemming Dokumen Jenis Kedua .......................................................... 78

    Tabel 4.21 Persentase Kemiripan Laporan Tanpa Stemming dan Dengan

    Stemming Dokumen Jenis Ketiga .......................................................... 80

    Tabel 4.22 Kata yang selalu Muncul pada Setiap Dokumen Portsentry 82

    Tabel 4.23 Persentase Kemiripan Laporan dengan Menghilangkan Kata

    yang Harus Ada Jenis Dokumen Pertama .............................................. 83

    Tabel 4.24 Kata yang selalu Muncul pada Setiap Dokumen Scanning dan

    Probing .................................................................................................. 84

    Tabel 4.25 Persentase Kemiripan Laporan dengan Menghilangkan Kata

    yang Harus Ada Jenis Dokumen Kedua ................................................ 85

    Tabel 4.26 Kata yang selalu Muncul pada Setiap Dokumen Password

    Management .......................................................................................... 87

    Tabel 4.27 Persentase Kemiripan Laporan dengan Menghilangkan Kata

    yang Harus Ada Jenis Dokumen Ketiga ................................................ 88

    Tabel 4.28 Lama Waktu Tahap Filtering Jenis Dokumen Pertama ....... 91

    Tabel 4.29 Lama Waktu Tahap Filtering Jenis Dokumen Kedua .......... 93

    Tabel 4.30 Lama Waktu TahapFilteringJenis Dokumen Ketiga ......... 94

    Tabel 4.31 Lama Waktu Tahap Stemming dan Tagging Jenis DokumenPertama .................................................................................................. 97

    Tabel 4.32 Lama Waktu Tahap Stemming dan Tagging Jenis Dokumen

    Kedua ..................................................................................................... 98

    Tabel 4.33 Lama Waktu Tahap Stemming dan Tagging Jenis Dokumen

    Ketiga .................................................................................................... 99

  • 7/24/2019 7611040039 - Buku TA

    25/135

    1

    BAB I

    PENDAHULUAN

    Bab ini akan memuat tentang latar belakang, perumusan masalah,batasan masalah, tujuan dan manfaat, metodologi penelitian, dan

    sistematika penulisan dari proyek akhir ini.

    1.1. Latar Belakang

    Perkembangan teknologi saat ini semakin canggih, termasukperkembangan teknologi digital di era modern saat ini. Teknologi digital

    telah menjadi kebutuhan bagi seluruh pengguna teknologi saat ini, salah

    satunya adalah dokumen teks. Dokumen teks dalam bentuk digital akanlebih memudahkan pengguna dalam melakukan penyimpanan karena

    lebih efisien, akan tetapi juga lebih memudahkan pengguna untuk

    melakukan penjiplakan. Penjiplakan atau plagiarisme merupakan

    tindakan mencontoh atau meniru hasil karya milik orang lain tanpa seizin

    pemilik asli karya tersebut yang selanjutnya diakui sebagai hasil karya

    milik sendiri.

    Tindakan plagiarisme ini seringkali terjadi di dalam dunia

    pendidikan, khususnya di dunia perkuliahan yang identik denganbanyaknya tugas dan laporan yang harus dikerjakan oleh setiap

    mahasiswa di setiap semesternya. Laporan itu sendiri merupakan salah

    satu bentuk tugas penting yang diberikan oleh dosen dan wajib di

    selesaikan oleh setiap mahasiswa. Laporan itu sendiri merupakan salahsatu bentuk bukti bahwa mahasiswa mengikuti perkuliahan yang

    diberikan oleh dosen, dan laporan tersebut merupakan salah satu

    parameter dosen untuk memberikan penilaian terhadap setiap mahasiswa.

    Pada proyek akhir ini, peneliti akan mengembangkan sebuah

    aplikasi untuk mendeteksi kemiripan antar laporan resmi sebagai bentukantisipasi terjadinya tindak plagiarisme dengan menerapkan ilmu text

    mining yang disertai dengan clustering. Aplikasi ini berguna untuk

    membandingkan isi antar dokumen berisi teks dalam bentuk txt milik

    mahasiswa yang berbeda dengan tema tugas yang sama dan hasilnya

    dinyatakan dalam bentuk persentase tingkat kemiripan isi antar dokumen.

  • 7/24/2019 7611040039 - Buku TA

    26/135

    2

    1.2. Perumusan Masalah

    Banyaknya mata kuliah praktikum yang diberikan dalam satu

    semester perkuliahan, serta jumlah praktikum dari setiap mata kuliahpraktikum yang berjumlah 16 kali pertemuan menyebabkan banyaknya

    jumlah laporan praktikum yang harus dikumpulkan oleh setiap

    mahasiswa dalam satu semesternya. Oleh karena itu, mahasiswa

    diwajibkan untuk mengumpulkan laporan praktikum dalam bentuk soft

    file yang semakin memudahkan mahasiswa untuk melakukan tindakan

    plagiarisme. Tidak jarang seorang mahasiswa melakukan proses copy-

    paste-modify terhadap tugas maupun laporan milik mahasiswa lain,

    bahkan tidak jarang pula mahasiswa yang melakukan copy-paste hanya

    mengganti jenisfont yang digunakan tanpa melakukan perubahan apapunterhadap isi laporan tersebut tersebut.

    Tindakan plagiarismeyang dilakukan mahasiswa terhadap tugas-

    tugas berupa laporan soft file yang diberikan oleh dosen tersebut,

    menimbulkan banyak kerugian, baik bagi mahasiswa yang melakukan

    proses copy-paste maupun bagi mahasiswa yang dijiplak laporannya.

    Salah satu bentuk kerugian yang ditimbulkan akibat dari tindakan

    plagiarisme tersebut adalah menyebabkan mahasiswa menjadi kurang

    kreatif karena tidak terbiasa untuk menyelesaikan tugasnya sendiri akibat

    dari kebiasaan mahasiswa yang hanya sekedar melakukan proses editingterhadap tugas milik mahasiswa lain.

    Berdasarkan kondisi banyaknya jumlah laporan praktikum yang

    dikumpulkan, menjadi menyulitkan untuk mendeteksi kemiripan laporan

    praktikum milik antar mahasiswa secara manual karena jumlahnya yangterlalu banyak sehingga sulit pula untuk mengetahui ada atau tidaknya

    tindakan plagiarisme yang dilakukan oleh mahasiswa.

    1.3. Batasan Masalah

    Pada proyek akhir ini permasalahan difokuskan pada masalah-

    masalah berikut :

    Penggunaan dokumen teks berbahasa Indonesia sebagai input

    dokumen yang akan diolah dengan format file .txt berisi analisa

    dan kesimpulan milik mahasiswa yang berbeda dengan tema tugas

    yang sama

  • 7/24/2019 7611040039 - Buku TA

    27/135

    3

    Jumlah maksimal dokumen .txt yang digunakan sebagai input

    sistem dalam 1 kali proses adalah 10 dokumen

    Output sistem berupa persentase (%) tingkat kemiripan antar

    dokumen disertai dengan kategori hasil pengelompokanberdasarkan similaritas tertentu

    1.4. Tujuan dan Manfaat

    Proyek Akhir ini memiliki tujuan dan manfaat sebagai berikut :

    1.4.1.Tujuan

    Proyek akhir ini menggunakan pendekatan baru untuk membuatsebuah aplikasi yang dapat digunakan untuk mendeteksi tingkat

    kemiripan isi antar laporan milik mahasiswa secara akurat dengan

    menerapkan ilmu text mining yang disertai dengan clustering, sehingga

    nantinya dapat mengantisipasi terjadinya tindak plagiarisme.

    1.4.2.Manfaat

    Proyek akhir ini nantinya dapat dikembangkan dan dapat

    diaplikasikan pada dunia pendidikan terutama di PENS sendiri,

    khususnya bagi tenaga pengajar atau dosen, sehingga dengan adanyaaplikasi ini dapat dimanfaatkan untuk mengetahui tingkat penjiplakan

    terhadap laporan tugas-tugas berupa soft file yang dilakukan oleh

    mahasiswa.

    1.5. Metodologi Penelitian

    Sistem yang digunakan dalam pembuatan aplikasi pendeteksi

    kemiripan laporan ini dikerjakan melalui beberapa tahap, yaitu studi

    literatur mengenai metode yang digunakan untuk mendeteksi kemiripan

    laporan, perancangan dan pembuatan sistem untuk aplikasi agar user

    friendly, pengujian sistem untuk mengetahui output yang dihasilkan,

    analisa hasil pengujian sistem untuk mengetahui apakah tujuan proyek

    akhir ini telah tercapai, dan penyusunan laporan sebagai bentuk

    dokumentasi. Adapun detail dari metodologi yang akan digunakan dalam

    pengerjaan proyek akhir ini ditunjukkan pada Gambar 1.1

  • 7/24/2019 7611040039 - Buku TA

    28/135

    4

    Gambar 1.1 Diagram Metodologi Penelitian

    1.5.1.Studi Literatur

    Studi literatur ini dilakukan untuk mengumpulkan bahan referensi

    tentang tindakan plagiarisme, penggunaan text miningdan clustering serta

    cara menerapkan ilmu text mining dan clustering dalam pendeteksiantindakan plagiarisme, dan beberapa literatur-literatur lainnya yang

    berhubungan dengan proyek akhir ini sebagai sumber data informasi.

    Studi ini dilakukan dengan membaca buku, paper, jurnal ilmiah baik

    dalam maupun luar negeri dan melalui penelusuran dengan media

    internet.

    1.5.2.Perancangan Sistem

    Perancangan dan pembuatan sistem meliputi pembuatan diagramblok, algoritma dan diagram alir dari metode yang digunakan untuk

    membuat aplikasi pendeteksi kemiripan laporan yaitu tentang text mining

    dan clustering.

    1.5.3.Pengujian Sistem

    Pengujian sistem dilakukan dengan melakukan uji coba terhadap

    aplikasi yang telah dibuat untuk membandingkan hasil yang diperoleh

    dengan apa yang ingin dicapai.

    Perancan an dan Pembuatan Sistem

    Pengujian Sistem

    Analisa Hasil Pengujian Sistem

    Penyusunan Laporan

    Studi Literatur

  • 7/24/2019 7611040039 - Buku TA

    29/135

    5

    1.5.4.Analisa Hasil Pengujian Sistem

    Analisa hasil pengujian sistem dilakukan untuk melakukan

    perbaikan apabila terjadi kesalahan pada aplikasi yang dibuat sertamemperhitungkan persen error dari hasil data yang diperoleh.

    1.5.5.Penyusunan Laporan

    Penyusunan laporan digunakan untuk mengetahui apakah hasil

    yang didapatkan sudah sesuai dengan yang diinginkan atau tidak,kemudian setelah itu dibuat kesimpulan.

    1.6.

    Sistematika Penulisan

    Sistematika pembahasan dari Proyek Akhir ini direncanakan

    sebagai berikut :

    Bab 1 Pendahuluan

    Bab ini memuat tentang latar belakang, perumusan

    masalah, batasan masalah, tujuan dan manfaat,

    metodologi penelitian, dan sistematika penulisan dari

    proyek akhir ini.

    Bab 2 Tinjauan Pustaka

    Bab ini merupakan rangkuman singkat mengenai

    penelitian-penelitian sebelumnya yang terkait dengan

    proyek akhir yang dikerjakan dari berbagai referensi.

    Bab 3 Perancangan dan Pembuatan Sistem

    Bab ini memuat tentang perancangan aplikasi beserta teori

    yang mendukung metode yang digunakan berhubungan

    dengan text mining dan clustering.

    Bab 4 Pengujian dan Analisa

    Bab ini memuat tentang hasil pengujian yang dilakukan

    secara bertahap terhadap aplikasi proyek akhir yang telah

    dibangun berdasarkan perencanaan sistem pada bab

    sebelumnya.

    Bab 5 Penutup

    Bab ini memuat kesimpulan mengenai hasil yang telah

    diperoleh dari pengerjaan proyek akhir serta saran yang

    memuat tentang pendapat penulis tentang pengembanganhasil pembuatan aplikasi .

  • 7/24/2019 7611040039 - Buku TA

    30/135

    6

    ----------------Halaman ini sengaja dikosongkan---------------

  • 7/24/2019 7611040039 - Buku TA

    31/135

    7

    BAB II

    TINJAUAN PUSTAKA

    Bab ini akan akan membahas mengenai teori-teori penting yangdapat menunjang dan menjadi acuan dalam pembuatan proyek akhir serta

    penelitian terkait yang berhubungan dengan proyek akhir. Bagian tersebutmeliputi teori tentangplagiarisme yang meliputi pengertianplagiarisme

    dan metode pendeteksi plagiarisme. Sedangkan untuk penelitian terkait

    yang berhubungan dengan proyek akhir meliputi aplikasi yang digunakan

    untuk mendeteksi kemiripan dokumen dengan menggunakan berbagai

    macam metode yang berbeda-beda. Bagian-bagian tersebut akan

    diuraikan seperti di bawah ini.

    2.1. Plagiarisme

    Plagiarisme adalah tindakan penyalahgunaan, pencurian /

    perampasan, penerbitan, pernyataan, atau menyatakan sebagai milik

    sendiri sebuah pikiran, ide, tulisan, atau ciptaan yang sebenarnya milik

    orang lain [1].

    Sedangkan menurut Kamus Besar Bahasa Indonesia (KBBI)

    Plagiarisme adalah penjiplakan atau pengambilan karangan, pendapat,

    dan sebagainya dari orang lain dan menjadikannya seolah karangan danpendapat sendiri. (KBBI, 1997: 775)

    Plagiat dapat dianggap sebagai tindak pidana karena mencuri hak

    cipta orang lain. Di dunia pendidikan, pelaku plagiarisme akan mendapat

    hukuman berat seperti dikeluarkan dari sekolah / universitas. Pelaku

    plagiat disebut sebagai plagiator [1].

    Sistem pendeteksi plagiarisme dapat dikembangkan untuk :

    1. Data teks seperti essay, artikel, jurnal, penelitian dan sebagainya.

    2.

    Dokumen teks yang lebih terstruktur seperti bahasa pemrogramanBeberapa tipe plagiarisme yaitu :

    1. Word-for-word plagiarism adalah menyalin setiap kata secara

    langsung tanpa diubah sedikitpun.

    2. Plagiarism of authorshipadalah mengakui hasil karya orang lain

    sebagai hasil karya sendiri dengan cara mencantumkan nama

    sendiri menggantikan nama pengarang yang sebenarnya.

    3. Plagiarism of ideas adalah mengakui hasil pemikiran atau ide

    orang lain. Plagiarism of sources, jika seorang penulis

  • 7/24/2019 7611040039 - Buku TA

    32/135

    8

    menggunakan kutipan dari penulis lainnya tanpa mencantumkan

    sumbernya.

    2.1.1.Metode Pendeteksi Plagiarisme

    Metode pendeteksi plagiarisme dibagi menjadi tiga bagian yaitu

    metode perbandingan teks lengkap, metode dokumenfingerprinting, dan

    metode kesamaan kata kunci [1]. Metode pendeteksi plagiarisme dapat

    dilihat pada Gambar 2.1

    Gambar 2.1 Metode pendeteksi plagiarisme

    Berikut ini penjelasan dari masing-masing metode dan algoritmapendeteksi plagiarisme :

    1.

    Perbandingan Teks Lengkap. Metode ini diterapkan dengan

    membandingkan semua isi dokumen. Dapat diterapkan untuk

    dokumen yang besar. Pendekatan ini membutuhkan waktu yang

    lama tetapi cukup efektif, karena kumpulan dokumen yang

    diperbandingkan adalah dokumen yang disimpan pada

    penyimpanan lokal. Metode perbandingan teks lengkap tidak

    dapat diterapkan untuk kumpulan dokumen yang tidak terdapatpada dokumen lokal. Algoritma yang digunakan pada metode ini

    adalah algoritmaBrute-Force, algoritma edit distance, algoritma

    Boyer Mooredan algoritma lavenshtein distance.2.

    Dokumen Fingerprinting. Dokumen fingerprinting merupakan

    metode yang digunakan untuk mendeteksi keakuratan salinan

    antar dokumen, baik semua teks yang terdapat di dalam dokumen

    atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen

    fingerprinting ini adalah dengan menggunakan teknik hashing.

    Metode Pendeteksi

    Plagiarisme

    Perbandingan Teks Lengkap

    DokumenFingerprinting

    Kesamaan Kata Kunci

  • 7/24/2019 7611040039 - Buku TA

    33/135

    9

    Teknik hashingadalah sebuah fungsi yang mengkonversi setiap

    string menjadi bilangan. Misalnya Rabin-Karp, Winnowing dan

    Manber.

    3. Kesamaan Kata Kunci. Prinsip dari metode ini adalah mengekstrakkata kunci dari dokumen dan kemudian dibandingkan dengan kata

    kunci pada dokumen yang lain. Pendekatan yang digunakan pada

    metode ini adalah teknik dot.

    2.2. Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa

    Indonesia Menggunakan Algoritma Winnowing Dengan

    Metode K-Gram dan Synonym Recognition

    Praktek dokumen plagiarisme sering diterapkan oleh akademisi ditingkat sekolah dan universitas yang tidak mencerminkan sikap yang

    sangat kreatif dan dididik sebagai intelektual. Kadang-kadang tindakan

    plagiarisme dimodifikasi dengan mengganti kata-kata yang mengandungsinonim, dengan maksud agar terlihat berbeda dari artikel aslinya. Sistem

    deteksi duplikasi menggunakan algoritma winnowing yang outputnya

    berupa seperangkat nilai-nilai hash sebagaifingerprintingdokumen yang

    diperoleh melalui metode k-gram. Masukan dari proses fingerprinting

    dokumen adalah file teks. Maka outputnya akan menjadi satu set nilai

    hash, yang disebut fingerprint. Fingerprint inilah yang akan menjadidasar perbandingan antara file teks yang telah dimasukkan. Konsep

    synonym recognitiondimaksudkan untuk dapat mengenali kata-kata yang

    mengandung sinonim sebagai tindakan plagiarisme. Mendeteksi duplikat

    menggunakan sinonim mendapatkan persentase lebih tinggi

    dibandingkan tanpa menggunakan sinonim [2].

    Implementasi algoritma Winnowing dalam melakukan proses

    document fingerprinting:

    [1]

    Melakukan proses whitespace insensitivity, sehingga hal yang

    mengandung huruf kapital dijadikan ignore case, tanda baca,

    spasi, dan karakter-karakter yang tidak relevan lainnya dibuang.

    [2] Setelah kalimat tersebut dibersihkan, pembentukan rangkaian

    gram dengan ukuran 7-gram

    [3] Penghitungan nilai-nilai hash dari setiap gram (sebuah hipotesis

    nilai hash yang muncul)

    [4] Untuk memilih hasil yang telah di hash, dilakukan denganmembagi ke window w dengan panjang 4. Kemudian pilih nilai

    yang minimum.

  • 7/24/2019 7611040039 - Buku TA

    34/135

  • 7/24/2019 7611040039 - Buku TA

    35/135

    11

    tersedia pada kamus sinonim, maka tidak akan melakukan proses

    synonym recognition. Seluruh isi dokumen akan discan dan dicocokkan

    dengan kata yang ada dalam kamus, kemudian akan diubah berdasarkan

    isi kamus sinonim tersebut.

    Dari hasil pengamatan mulai tahap analisis, perancangan,

    implementasi dan uji coba, dapat diambil beberapa kesimpulan sebagai

    berikut :

    1. Pencarian menggunakan teknik hashing akan menjadi lebih efisiendaripada pencarian karakter-per-karakter pada nama-nama yang

    panjangnya bervariasi.

    2.

    Tindak penjiplakan dapat dilakukan dengan modify yang mana

    dengan mengubah beberapa bagian bahkan keseluruhan, yaitu

    dengan mengubah kata-kata dengan sinonim.3. Mendeteksi duplikasi menggunakan sinonim mendapatkan hasil

    persentase yang lebih tinggi daripada tanpa menggunakan

    sinonim.

    4. Sistem yang dibangun telah dapat mendeteksi duplikasi dengan

    pendekatan sinonim dengan perbedaan 0.82 % lebih besar

    menggunakan synonym recognition daripada tanpa synonymrecognition.

    5. Jika dengan menggunakan metode kualitatif dalam menganalisa

    dokumen kemudian dihasilkan sebuah simpulan bahwa dokumentersebut merupakan hasil penjiplakan, maka begitu halnya analisa

    dokumen secara kuantitatif pada aplikasi akan menghasilkan

    simpulan yang sama seperti halnya metode kualitatif.

    6. Pada dokumen yang dinyatakan telah terduplikasi, pendeteksian

    secara full dokumen (bab 1 sampai bab 5) dan parsial dokumen

    (bab 4 dan bab 5) akan mengalami peningkatan persentase 10 %.

    Sedangkan pada dokumen yang dinyatakan tidak terduplikasi,

    pendeteksian secarafull dokumen maupun parsial dokumen akan

    secara otomatis mengalami penurunan persentase kemiripan 4.67 %.

    2.3. Implementasi Deteksi Penjiplakan Dengan Algoritma

    Winowing pada Dokumen Terkelompok

    Penjiplakan merupakan masalah yang semakin berkembangterutama dalam bidang pendidikan. Banyak karya tulis yang sebagian

    isinya dibuat dengan menjiplak dari karya orang lain. Saat ini sudah

  • 7/24/2019 7611040039 - Buku TA

    36/135

    12

    terdapat sistem yang dapat mendeteksi penjiplakan antar dokumen. Pada

    sistem tersebut mampu melakukan pengecekan penjiplakan secara one-

    to-many atau many-to-many. Namun, pada sistem tersebut

    membandingkan satu persatu dokumen sehingga terdapat kemungkinan

    dokumen yang dibandingkan tidak memiliki kesamaan topik. Sehingga

    diperlukan fungsi yang dapat mengelompokan dokumen dan mendeteksipenjiplakan pada tiap kelompok [3].

    Pada tugas akhir ini dibuat aplikasi yang mampu mengelompokan

    dokumen secara partisi dan mendeteksi penjiplakan pada tiap kelompok.

    Dalam melakukan pengelompokan dokumen dipergunakan algoritma K-

    means++. Algoritma K-means++ memerlukan masukan jumlah

    kelompok yang seharusnya terbentuk. Pada aplikasi ini dapat memperoleh

    rekomendasi jumlah kelompok yang sebaiknya terbentuk denganalgoritma Hartigan Index. Dalam melakukan pendeteksian penjiplakan

    dengan algoritma Winnowing. Algoritma ini berfungsi untuk melakukan

    proses document fingerprinting, yang mengubah teks menjadi

    sekumpulan nilai-nilai hash.

    Algoritma winnowing untuk deteksi kalimat sama adalah dengan

    mengikuti langkah-langkah berikut :

    [1]

    Membuang karakter-karakter dari isi dokumen yang tidak relevan

    misal tanda baca spasi dan simbol lain.[2] Isi dokumen yang telah dilakukan pembersihan selanjutnya

    dilakukan pembentukan rangkaian gram, dimana n =5

    [3] Dari rangkaian gram yang telah terbentuk dibentuk nilai hash

    dengan nilai ASCII tiap karakter. Pembentukan nilai hash

    menggunakan persamaan rolling hash. Persamaan rolling hash

    ditunjukkan pada Persamaan (2.1) :

    (2.1)

    Keterangan :

    c : nilai ASCII karakter

    b : basis (bilangan prima)k : banyak karakter

    Keuntungan dari menggunakan rolling hash adalah untuk

    mendapatkan nilai hash selanjutnya dapat dengan cara :

    = ( ) + (2.2)

  • 7/24/2019 7611040039 - Buku TA

    37/135

    13

    [4] Nilai-nilai hash yang telah terbentuk, dibentuk window-window

    untuk dilakukan pemilihan nilai hash terkecil pada tiap window

    untuk dijadikanfingerprint tiap dokumen.[5]

    Nilai-nilai fingerprint inilah yang digunakan untuk menemukan

    tingkat presentase kesamaan sebuah dokumen dengan dokumen

    lain. Untuk mendapatkan tingkat presentase kesamaan sebuah

    dokumen dengan dokumen lain dapat menggunakan Persamaan

    Jaccard Coefficient yang ditunjukan pada Persamaan (2.3)

    Similaritas( , =|()|

    |()| (2.3)

    Algoritma K-means untuk data yang berupa dokumen-dokumen

    adalah sebagai berikut :

    [1] Menentukan nilai k sebagai jumlah kelompok yang ingin dibentuk.

    [2]

    Menentukan centroid (titik pusat klaster) awal secara acak

    sebanyak k. Centroid merupakan kumpulan dari nilai-nilai hash.

    Pada awalnya nilai-nilai centroid sama dengan nilai-nilai

    fingerprint dari dokumen yang dipilih.

    [3] Menghitung tingkat kesamaan setiap dokumen ke masing-masing

    centroid menggunakan Persamaan (2.3)

    [4]

    Mengelompokkan setiap dokumen berdasarkan tingkat kesamaanterbesar antara dokumen dengan centroid-nya.

    [5]

    Menentukan nilai nilai hash sebagai centroid baru dengan

    Persamaan (2.4) :

    = (, )| ,,

    (2.4)

    dimana hf(h,C) merupakan banyaknya sebuah hash dalam

    gabungan seluruh dokumen pada satu klaster (C), dan f(C, h)merupakan nilai-nilai yang terbentuk dari nilai hash yang

    berjumlah minimal (((hf(h,C))/n )). Nilai merupakan masukan

    dari pengguna.

    [6]

    Kembali ke langkah 3 jika nilainilai hash pada centroid baru

    dengan centroid lama tidak sama.

    Namun, algoritma K-means ini memiliki kelemahan yaitu

    memiliki kemungkinan waktu proses yang cukup besar. Hal ini

    disebabkan pada pemilihan awal centroid yang bersifat acak yang

    setiap data mempunyai kemungkinan terpilih sama besar. Oleh

  • 7/24/2019 7611040039 - Buku TA

    38/135

    14

    karena itu digunakan algoritma K-means++ untuk menutup

    kekurangan tersebut.

    Dasar algoritmaK-means++ adalah :

    [1]

    Menentukan satu centroid awal pada seluruh data dokumen secara

    acak dengan distribusi uniform.

    [2] Untuk setiap data dokumen d, hitung D(d), ketidakmiripan(dissimilar) antara data dokumen dan centroid terdekat yang telah

    dipilih. Untuk mencari nilai ketidakmiripan dapat dengan

    menggunakan Persamaan (2.5)

    Dissimilar( , =1 ||||

    (2.5)

    Nilai ketidakmiripan didapatkan dari 1 dikurangi dengan tingkatkemiripan. Nilai kemiripan didapatkan dari Persamaan (2.3).

    [3] Tambahkan satu centroid lagi dari semua data yang belum terpilih

    sebagai centroid, menggunakan weighted probability distribution

    dimana data dokumen yang dipilih dengan probabilitas D(d2).

    [4] Ulangi langkah 2 dan 3 hingga sejumlah k centroid telah dipilih

    [5] Lakukan pengelompokan algoritmaK-means.

    Dalam pengelompokan diperlukan jumlah kelompok yang akan

    dibentuk yang berasal dari masukan pengguna. Masukan dari penggunamempunyai kemungkinan tidak sesuai dengan jumlah kelompok yang

    sebaiknya terbentuk dari data-data dokumen yang ada. Untuk itu

    diperlukan algoritma dalam menentukan jumlah kelompok yang

    sebaiknya terbentuk dari data-data yang ada seperti Rule of Thumb danHartigan Index.

    Rule of Thumb merupakan algoritma penentuan jumlah kelompok

    yang sebaiknya terbentuk dalam pengklasteran berdasarkan banyaknya

    data yang tersedia.Hartigan index merupakan salah satu metode statistikuntuk menguji perubahan relatif dari nilai perubahan suatu kelompok.

    Perangkat lunak yang dibangun adalah sistem pengelompokan

    dokumen serta pendeteksian penjiplakan pada tiap kelompok. Dalam

    implementasinya perangkat lunak ini menggunakan algoritma K-

    means++ untuk melakukan pengelompokan secara partisi dan algoritma

    Winnowing untuk membantu mencari kesamaan antara file satu dengan

    yang lain.

  • 7/24/2019 7611040039 - Buku TA

    39/135

    15

    Gambar 2.3 Arsitektur Aplikasi

    Pada Gambar 2.3 dapat diketahui bahwa aplikasi ini terdiri dari :

    Pembacaan Dokumen

    Bertugas mengekstrak konten / isi dari file yang ingin diperiksa

    menjadi sebuahstring.

    Pembentukan Fingerprint

    Bertugas memproses string yang merupakan hasil ekstraksi daripembacaan dokumen menjadi fingerprint dari file yang berupa

    nilai-nilai hash.

    Penentuan Kelompok

    Bertugas menentukan kelompok mana berdasarkan isi dari

    dokumen.

    Penentuan Jumlah Kelompok

    Bertugas menentukan jumlah kelompok yang seharusnya

    terbentuk. Dalam menentukan jumlah dokumen dapat secara

    Pembacaan

    Dokumen

    Pembentukan

    Fingerprint

    Algoritma

    Winnowing

    Dokumen

    Fingerprint,

    Centroid,

    Hasil Similar

    Pengecekan

    Tingkat

    Kesamaan

    Pengelompo

    kan dengan

    K-Means++

    Penentuan

    Jumlah

    Kelom ok

    Penentuan Jumlah

    Kelom ok

    Penentuan

    Kelompok pada

    Dokumen Baru

    Aplikasi

    Pengelompokan

  • 7/24/2019 7611040039 - Buku TA

    40/135

    16

    manual atau rekomendasi dari aplikasi. Jumlah kelompok yang

    didapatkan dari rekomendasi menggunakan algoritma Rule of

    Thumb danHartigan Index.

    Pengelompokan Dokumen

    Bertugas melakukan pengelompokan sejumlah dokumen. Jumlah

    kelompok yang terbentuk bisa dari masukan pengguna (manual)atau nilai dariRule of Thumb danHartigan Index.

    Pengecekan Tingkat Kesamaan

    Bertugas melakukan pengecekan tingkat kesamaan dengan

    membandingkan nilai fingerprint antar dokumen dan

    menampilkan hasil tingkat kemiripan ke pengguna.

    Dalam penentuan jumlah kelompok dengan LSA dari 60 dokumen

    yang dilakukan representasi ke dalam dua dimensi bahwa sebaiknyadibentuk dengan menggunakan LSA sebanyak empat kelompok.Sedangkan dengan Hartigan Index bahwa jumlah kelompok yang

    sebaiknya terbentuk dari data yang ada adalah 6 dengan nilai alpha yang

    terbaik adalah 0,50. Hal ini dikarenakan dari jumlah kelompok yang

    terbentuk stabil dan nilai akurasi yang dimiliki cukup tinggi. Selain itu

    pembahasan topik pada tiap kelompok tidak terlalu tinggi atau pun rendah

    sehingga jumlah pembagian anggota tiap kelompok hampir merata.

    Dalam pemilihan nilai alpha dapat disimpulkan bahwa semakinkecil nilai alpha maka jumlah kelompok yang terbentuk semakin sedikit.

    Hal ini dikarenakan pembahasan topik pada sebuah kelompok bersifat

    umum atau luas sehingga diperlukan sedikit kelompok untuk menampung

    topik-topik yang ada. Begitu pula semakin besar nilai alpha maka jumlah

    kelompok yang terbentuk semakin banyak. Hal ini dikarenakanpembahasan topik pada sebuah topik semakin spesifik atau khusus

    sehingga diperlukan banyak kelompok untuk menampung topik-topik

    yang ada.

    Dari hasil percobaan penentuan kelompok untuk dokumen baru

    bahwa proses ini memiliki tingkat kebenaran yang cukup tinggi, sehinggadalam melakukan penentuan kelompok untuk dokumen baru sesuai

    dengan topik pembahasan.

    Dari pencatatan waktu deteksi penjiplakan dapat disimpulkan

    bahwa waktu yang diperlukan lebih sedikit dalam pendeteksian

    penjiplakan pada kumpulan dokumen yang telah dikelompokan daripada

    kumpulan dokumen yang tidak dikelompokan. Hal ini karena jumlah

  • 7/24/2019 7611040039 - Buku TA

    41/135

    17

    dokumen yang dibandingkan lebih sedikit dan dokumen yang

    dibandingkan memiliki kesamaan topik.

    2.4.

    Penerapan Algoritma Boyer-Mooredan Algoritma RabinKarpdalam Mendeteksi Aksi Plagiarisme

    Plagiarisme sering menjadi pada banyak institusi pendidikan

    termasuk Perguruan Tinggi. Praktek Plagiarisme biasa dilakukan

    terhadap konten digital, dapat berupa dokumen maupun source code

    program. Plagiarisme dilakukan dengan melakukan copy-paste, atau

    dengan melakukan modifikasi konten digital yang asli. Untuk dapat

    mencegahnya, diperlukan cara yang dapat menganalisis,

    mengecek/mendeteksi teknik-teknik plagiarisme yang dilakukan. Salahsatu pendekatannya adalah dengan melakukan penerapan algoritma

    Boyer-Mooreatau AlgoritmaRabin-Karp [4].

    Pada pendeteksian dengan algoritma boyer moorediambil contohkasus pendeteksian pada source code. Pada prinsipnya pendeteksian

    plagiarisme ini menggunakan penghitungan jumlah prosedur atau fungsi,

    perulangan, if-elsedan variabel dengan pembobotan sederhana. Aplikasi

    melakukan pen-scan-an kata kunci-kata kunci tertentu (menggunakan

    Boyer Moore) untuk menentukan bagian yang cocok atau memenuhi

    kondisi tertentu. Aplikasi akan mendeteksi kata kunci yang menyatakanpendeklarasian sebuah prosedur atau fungsi (syntax disesuaikan bahasa

    yang digunakan). Kemudian menghitung nilai perulangan (loop), if, dan

    variabel dengan menghitung jumlah masing-masing tipe alur program.

    Setelah melakukan penghitungan untuk salah satu prosedur/ fungsi

    kemudian aplikasi akan lanjut menghitung untuk seluruh prosedur yang

    terdapat pada kedua source codeprogram dan menyimpannya masing-

    masing ke dalam sebuah array. Kemudian melakukan pembandingan

    elemen arraydarisourceyang dicurigai malakukan plagiarisme dengan

    sourceyang asli atau sudah ada sebelumnya. Setiap elemen akan dicarikesamaan jumlah elemen-elementnya dengan source asli, jika didapati

    ada prosedur yang sama maka ia akan mencatat sebagai suatu kesamaan.

    Setelah selesai maka hasil akhir kemungkinan tingkat kesamaan source

    code dapat diatampilkan dalam bentuk prosentase yang dihitung dari

    jumlah kesamaan dibagi total prosedursourceyang dicurigai.

    Tingkat plagiarisme dihitung menggunakan persamaan 2.6 :

    100% (2.6)

  • 7/24/2019 7611040039 - Buku TA

    42/135

    18

    Pada pendeteksian plagiarisme kali ini digunakan contoh kasus

    pendeteksian pada dokumen. Algoritma Rabin-Karp digunakan dalam

    mendeteksi plagiat sebab memungkinkan untuk mencari pola tulisan yang

    didapat dari substring-substring pada sebuah teks dalam dokumen, di

    mana algoritma pencarian string tunggal sangat tidak efisien dan praktis.Yang digunakan tentunya adalah varian algoritma Rabin-Karp untuk

    pencarian berpola banyak. Pertama-tama adalah melakukan filtering

    dengan menghilangkan beberapa tanda baca yang tidak penting. Proses

    ini juga dilakukan terhadap dokumen asli. Dari hasil filtering, kata-kata

    yang akan dijadikan string masukan diambil dengan melakukan

    pemisahan sebanyak k, misalnya, dan dicari seluruh kemungkinan yangmungkin dibentuk dari setiap kata-kata, sehingga didapat pecahan kata-

    kata. Hal ini disebut dengan k-gram. Kemudian gunakan hasil dari k-gramsebagai masukan himpunan string dari algoritma RabinKarpSet.

    Selanjutnya, sesuai dengan algoritma, lakukan hashing ke seluruh

    pecahan string pada set s. Fungsi hash yang diberikan inilah yang

    merupakan kunci dalam menemukan pola kalimat pada teks, sehingga

    pastikan agar fungsi hashmemadai untuk setiapstringpada k-gram yang

    dihasilkan. Dengan cara pengulangan iteratif sampai mencapai akhir teks,

    nilai hash string-string pada set s dicocokkan dengan nilai hash

    penggalanstringsepanjang 4 karakter pada teks (benar apabila nilai hash

    penggalan teks asli terdapat pada himpunan nilai hash string-stringmasukan). Pada setiap penggalan teks asli sepanjang 4 karakter, dilakukan

    hashing dengan fungsi hashyang sama seperti yang dilakukan terhadap

    string-string set s. Pencarian nilai hash penggalan teks asli dapat

    dilakukan dengan algoritma pencarian biasa, sesuai kehendak.

    Dari percobaan yang telah dilakukan dapat disimpulkan bahwa

    terdapat cara yang lebih efektif dalam mendeteksi praktek plagiarisme

    yaitu dengan memanfaatkan Algoritma Boyer-Moore dan Algoritma

    Rabin-Karp. Algoritma Boyer Moore digunakan untuk melakukan

    pencocokan string dan melakukan penghitungan kesamaan. Sedangkankemiripan pola antar dua buah dokumen dapat dideteksi dengan

    menerapkan prinsip kerja algoritma pencarian string Rabin Karp. Strategi

    pendeteksian di atas dapat dijadikan patokan dalam menentukan apakahterjadi praktek plagiarisme disesuaikan dengan pandangan penggunanya,

    walaupun dapat diantisipasi jika metode pendeteksian yang digunakan

    diketahui oleh orang yang akan melakukan praktek plagiarisme tersebut.

    Namun setidaknya hal ini dapat digunakan untuk melakukan pencegahan

    terhadap upaya plagiarisme tersebut.

  • 7/24/2019 7611040039 - Buku TA

    43/135

    19

    BAB III

    PERANCANGAN DAN PEMBUATAN SISTEM

    Sebelum sistem diimplementasikan, terlebih dahulu dibuat

    sistematika perancangan sistem yang merepresentasikan keseluruhan

    sistem agar didapatkan hasil yang maksimal. Secara garis besar,

    perancangan Aplikasi Pendeteksi Kemiripan Laporan Menggunakan

    Text Mining dan Clusteringditunjukkan pada Gambar 3.1 :

    Gambar 3.1 Diagram Alur Sistem

    w1 w2 w3

    d1

    w1 w2 w3

    d2

    w1 w2 .... wn

    d1

    d2

    KeywordMetric

    Clusters

    Dokumen

    Text Mining

    KeywordAggregation

    Clusterin

    KeywordExtraction

    Tingkat kedekatan antar dokumen

  • 7/24/2019 7611040039 - Buku TA

    44/135

    20

    Perancangan sistem yang akan dibuat adalah melakukan

    pembandingan antar dokumen berisi teks yang berupa txt berbahasaindonesia, dimana dalam 1 kali proses pembandingan terdapat 10

    dokumen yang dibandingkan dengan tema yang sama, milik mahasiswa

    yang berbeda. 10 dokumen tersebut kemudian diproses menggunakan textmining yang menghasilkan output berupa matriks dari masing-masing

    dokumen, yang mana setiap dokumen memiliki kata kunci masing-

    masing sejumlah n. Setiap kata kunci tersebut memiliki bobotnya masing-

    masing yang diperoleh dari frekuensi kemunculan kata tersebut dalam

    dokumen yang bersangkutan. Seluruh matriks tersebut kemudian

    digabungkan menjadi 1 buah matriks besar melalui proses aggregation.

    Dalam 1 matriks besar tersebut, seluruh kata kunci pada 10 matriks

    sebelumnya digabungkan untuk kemudian dicari nilai bobot dari setiap

    kata kunci tersebut terhadap 10 dokumen. Setelah diketahui nilai bobotdari seluruh kata kunci pada 10 dokumen, maka akan dilakukan proses

    clustering atau pengelompokkan berdasarkan similaritas tertentu untuk

    mendapatkan hasil clusterberupa tingkat kedekatan antar kedua dokumen

    tersebut sehingga dapat diketahui tingkat kemiripan keduanya.

    3.1. Dokumen

    Berdasarkan gambar 3.1 terlihat bahwa input dari sistem yang

    dibuat ini adalah berupa dokumen laporan tugas milik mahasiswa.

    Dokumen yang digunakan sebagai input ini terdiri dari 10 buah laporanmilik 10 orang mahasiswa yang berbeda yang memiliki tema tugas yang

    sama. Dokumen yang digunakan sebagai input ini hanya berisi teks, dan

    tidak berupa gambar yang disimpan dalam bentuk txt berbahasa

    indonesia.

    Pada tahap awal sistem, sebelum masuk ke dalam aplikasi,

    terdapat tampilan awal dari aplikasi yang bertujuan untuk memberikanpetunjuk penggunaan sebelum menjalankan aplikasi untuk memudahkan

    user saat menggunakan aplikasi ini. Pada tampilan awal aplikasi, terdapat

    3 menu yang disediakan lengkap dengan petunjuk kegunaan masing-masing menu, yaitu menu start, menu help, dan menu exit seperti yang

    ditunjukkan pada Gambar 3.2

  • 7/24/2019 7611040039 - Buku TA

    45/135

    21

    Gambar 3.2 Tampilan Awal saat Aplikasi Dijalankan

    Menu start digunakan untuk memulai aplikasi. Menu helpdigunakan untuk membaca petunjuk penggunaan aplikasi bagi user yang

    baru pertama kali menggunakan aplikasi, untuk menghindari

    kebingungan dan kesalahan saat menggunakan aplikasi ini. Menu exitdigunakan untuk keluar dari aplikasi jika user ingin membatalkan untukmenggunakan aplikasi ini. Tampilan untuk isi dari menu help ditunjukkan

    pada Gambar 3.3 dan tampilan untuk isi dari menu exit ditunjukkan pada

    Gambar 3.4

    Gambar 3.3 TampilanButtonHelp

  • 7/24/2019 7611040039 - Buku TA

    46/135

    22

    Gambar 3.4 TampilanButton Exit

    3.2. Text M ining

    Text mining secara umum mengacu pada proses ekstraksiinformasi dari dokumen-dokumen teks tak terstruktur (unstructured). Text

    mining memiliki definisi menambang data yang berupa teks dimanasumber data biasanya didapatkan dari dokumen, dan tujuannya adalah

    mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat

    dilakukan analisa keterhubungan antar dokumen [1].

    Pada prinsipnya, text miningadalah bidang ilmu multidisipliner,

    melibatkan information retrieval (IR), text analysis, information

    extraction (IE), clustering, categorization, visualization, databasetechnology, natural language processing(NLP), machine learning, dan

    data mining. Dapat pula dikatakan bahwa text miningmerupakan salah

    satu bentuk aplikasi kecerdasan buatan (artificial intelligence/ AI) [1].

    Text mining mencoba memecahkan masalah information overload

    dengan menggunakan teknik-teknik dari bidang ilmu yang terkait. Text

    miningdapat dipandang sebagai suatu perluasan dari data mining atau

    knowledge-discovery in database (KDD), yang mencoba untuk

    menemukan pola-pola menarik dari basis data berskala besar. Namun textminingmemiliki potensi komersil yang lebih tinggi dibandingkan dengan

    data mining, karena kebanyakan format alami dari penyimpanan

    informasi adalah berupa teks. Text miningmenggunakan informasi teks

    tak terstruktur dan mengujinya dalam upaya mengungkap struktur dan arti

    yang tersembunyi di dalam teks[1].

  • 7/24/2019 7611040039 - Buku TA

    47/135

    23

    3.2.1.Tahapan Text M ining

    Tahapan yang dilakukan dalam text mining secara umum

    ditunjukkan pada Gambar 3.5

    Gambar 3.5 Tahapan Text Mining

    a. Tahap Tokenizing

    Tahap tokenizing atau parsing adalah tahap pemotongan string

    input berdasarkan tiap kata yang menyusunnya. Gambar 3.6 adalahcontoh dari tahap tokenizing :

    Gambar 3.6 Tahap Tokenizing

    Filtering

    Tagging

    Stemming

    Analyzing

    Tokenizin

    ProjectIniMembangun

    JaringanAntaraDua

    PC

    Untuk

    MelakukanSeranganTerhadap

    AntarPC

    Project ini membangun jaringan

    antara dua PC untuk melakukan

    serangan terhadap antar PC

  • 7/24/2019 7611040039 - Buku TA

    48/135

    24

    b. Tahap Filtering

    Tahap filtering adalah tahap mengambil kata-kata penting dari

    hasil token. Bisa mengunakan algoritma stop list (membuang kata-kata

    yang kurang penting) atau word list (menyimpan kata penting). Stoplist /stopword adalah kata-kata yang tidak deskriptif yang dapat dibuangdalam pendekatan bag-of-words. Kata-kata yang termasuk dalamstoplist

    tersebut telah disimpan dalam database. Kata-kata yang terdapat dalam

    stoplist tersebut kemudian akan dicocokkan dengan kata hasil tokenizing.

    Gambar 3.7 adalah contoh dari tahapfiltering:

    Gambar 3.7 TahapFiltering

    c. Tahap Stemming dan Tagging

    Tahapstemmingadalah tahap mencari rootkata dari tiap kata hasil

    filtering. Pada tahap ini dilakukan proses pengembalian berbagai

    bentukan kata ke dalam suatu representasi yang sama. Tahap ini

    kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit

    diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasaIndonesia tidak memiliki rumus bentuk baku yang permanen.

    Tahap taggingadalah tahap mencari bentuk awal atau rootdari

    tiap kata lampau atau kata hasil stemming. Tahap ini berlaku untukdokumen teks berbahasa Inggris, sedangkan untuk dokumen teks

    berbahasa Indonesia, prosesnya digabungkan dengan tahap stemming.

    Gambar 3.8 adalah contoh dari tahapstemming dan tagging :

    ProjectIniMembangun

    JaringanAntaraDuaPC

    UntukMelakukanSeranganTerhadap

    AntarPC

    Project

    MembangunJaringan

    DuaPCUntukMelakukan

    Serangan

  • 7/24/2019 7611040039 - Buku TA

    49/135

    25

    Gambar 3.8 Tahap Stemming dan Tagging

    d. Tahap Analyzing

    Tahap analyzing merupakan tahap penentuan seberapa jauhketerhubungan antar kata-kata antar dokumen yang ada. Term Frequency

    merupakan algoritma yang paling sederhana yang biasanya dipakai untuk

    scoring. Gambar 3.9 adalah contoh dari tahap analyzing :

    Gambar 3.9 TahapAnalyzing

    3.3. KeywordExtraction

    Keyword extractionberasal dari 2 kata yaitu extract dan keyword.

    Extract sendiri sangat berhubungan dengan kata atau frasa dalam sebuahdokumen. Sedangkan keyword didefinisikan sebagai rangkaian atau

    urutan dari satu atau lebih kata, yang merepresentasikan isi dari sebuahdokumen. Secara ideal, keyword merpresentasikan isi dari sebuah

    dokumen yang bersifat sangat penting dalam bentuk sederhana.

    Berdasarkan pengertian keyword extraction, pada sistem ini, isi

    dari kedua dokumen input akan diekstraksi berdasarkan kata kunci dari

    masing-masing dokumen dan setiap kata kunci tersebut memiliki nilai

    ProjectMembangun

    JaringanDuaPCUntuk

    Melakukan

    Serangan

    ProjectBangun

    JaringDuaPCUntuk

    Laku

    Serang

    Project

    Membangun

    JaringanDuaPC

    UntukMelakukan

    Serangan

    Project : 1

    Bangun : 1

    Jaring : 1Dua : 1PC : 1

    Untuk : 1Laku : 1

    Serang : 1

  • 7/24/2019 7611040039 - Buku TA

    50/135

    26

    bobot masing-masing yang menunjukkan frekuensi tingkat kemunculan

    kata dalam satu dokumen. Contoh keyword extraction ditunjukkan padaTabel 3.1 dan Tabel 3.2:

    Tabel 3.1 ContohKeyword Extractionuntuk Dokumen 1

    Praktikum Sensor Gerakan ADC Objek

    d1 2 22 3 3 8

    Tabel 3.1 menunjukkan contoh hasil dari proses keyword

    extraction dari dokumen 1. Contoh pada Tabel 3.1 tersebut terdapat 5 kata

    kunci yang dihasilkan dari proses text mining, yaitu praktikum, sensor,

    gerakan, ADC, dan objek. Masing-masing kata kunci tersebut memiliki

    frekuensi kemunculan yang bervariasi. Untuk kata praktikum, frekuensi

    kemunculannya pada dokumen 1 adalah sebanyak 2 kali. Untuk kata

    sensor adalah sebanyak 22 kali. Untuk kata gerakan adalah sebanyak 3

    kali. Untuk kata ADC adalah sebanyak 3 kali dan untuk kata objek adalah

    sebanyak 8 kali.

    Tabel 3.2 ContohKeyword Extractionuntuk Dokumen 2

    Praktikum PIR Gerakan Output Data

    d2 1 5 1 3 5

    Tabel 3.2 menunjukkan contoh hasil dari proses keyword

    extraction dari dokumen 2. Contoh pada Tabel 3.2 tersebut terdapat 5 kata

    kunci yang dihasilkan dari proses text mining, yaitu praktikum, PIR,

    gerakan, output, dan data. Masing-masing kata kunci tersebut memilikifrekuensi kemunculan yang bervariasi. Untuk kata praktikum, frekuensi

    kemunculannya pada dokumen 2 adalah sebanyak 1 kali. Untuk kata PIR

    adalah sebanyak 5 kali. Untuk kata gerakan adalah sebanyak 1 kali. Untuk

    kata output adalah sebanyak 3 kali dan untuk kata data adalah sebanyak 5

    kali.

    3.4.

    KeywordAggregation

    Keyword aggregation berasal dari 2 kata yaitu keyword dan

    aggregation. Aggregation sendiri memiliki pengertian dimana beberapa

    hal dikelompokkan secara bersama-sama menjadi satu. Proses keywordaggregation pada sistem ini adalah menggabungkan hasil dari keyword

    extraction dari kedua dokumen menjadi satu berupa keyword matric yang

    akan dijelaskan pada bagian 3.5.

  • 7/24/2019 7611040039 - Buku TA

    51/135

    27

    3.5. KeywordMetric

    Keyword metric berasal dari 2 kata yaitu keyword dan metric.

    Metric merupakan bentuk representasi output dari proses keywordaggregation yang dinyatakan dalam bentuk matriks. Matriks sendiri

    dinyatakan dalam bentuk tabel. Contoh proses keyword metric

    ditunjukkan pada Tabel 3.3 :

    Tabel 3.3 ContohKeyword Matric

    Praktikum Sensor PIR Gerakan Output Objek Data

    d1 2 22 0 3 0 8 5

    d2 1 0 5 1 3 0 0

    Tabel 3.3 menunjukkan contoh keyword metric yang merupakan

    hasil dari proses keyword aggregation yaitu proses untuk

    menggabungkan hasil dari keyword extraction dokumen 1 yang

    ditunjukkan pada tabel 3.1 dan dokumen 2 yang ditunjukkan pada tabel

    3.2. Terdapat 2 kata kunci yang sama antara dokumen 1 dan dokumen 2

    yaitu kata praktikum dan gerakan. Selain kedua kata tersebut, kata kunci

    lainnya berbeda antara kedua dokumen. Untuk kata praktikum dan

    gerakan, masing-masing dokumen memiliki nilai frekuensi

    kemunculannya masing-masing sesuai dengan nilai yang terdapat pada

    tabel 3.1 dan 3.2. Sedangkan untuk kata sensor, PIR, output, objek, dan

    data yang hanya dimiliki oleh salah satu dokumen, maka nilai frekuensi

    kemunculan pada dokumen yang tidak terdapat kata kunci tersebut adalah

    0. Sedangkan untuk dokumen yang didalamnya terdapat kata kunci

    tersebut, maka nilai frekuensi kemunculannya adalah sama dengan yang

    terdapat pada Tabel 3.1 dan 3.2.

    3.6. Output

    Output dari sistem ini adalah tingkat kedekatan antar dokumen

    yang diperoleh dari hasil clustering yang telah dilakukan proses

    pengelompokan berdasarkan similaritas tertentu. Berdasarkan tingkat

    kedekatan antar dokumen tersebut, maka dapat diketahui nilai persentase

    (%) tingkat kemiripan antar laporan tersebut sehingga kedua dokumen

    yang diproses tersebut dapat dikategorikan sebagai tindak plagiarismeatau bukan.

  • 7/24/2019 7611040039 - Buku TA

    52/135

    28

    Untuk menentukan jenis kesamaan antara dokumen yang diuji,

    terdapat 5 jenis penilaian persentasesimilarity (Mutiara-Agustina, 2008)yang ditunjukkan pada Tabel 3.4 [5]

    Tabel 3.4 Jenis Penilaian Persentase SimilarityPersentase Jenis Kesamaan antar Dokumen

    0%Kedua dokumen tersebut benar-benar berbeda

    baik dari segi isi dan kalimat secara keseluruhan

    50% Kedua dokumen tersebut mendekati plagiarisme

    100%Kedua dokumen tersebut adalah plagiat karenadari awal sampai akhir mempunyai isi yg sama

    persis.

  • 7/24/2019 7611040039 - Buku TA

    53/135

    29

    BAB IV

    PENGUJIAN DAN ANALISA

    Bab ini menjelaskan mengenai pengujian sistem yang merupakan

    tahap penting dalam pengerjaan proyek akhir. Pengujian dilakukan untuk

    mengetahui apakah sistem yang dibuat sesuai dengan apa yang telah

    direncanakan. Pengujian dilakukan secara bertahap dan

    berkesinambungan. Pada bab ini akan dilakukan pengujian dan analisa

    terhadap sistem yang dibuat.

    4.1. Lingkungan Uji Coba

    a. Perangkat Keras (Hardware)

    1. Processor : Intel Core i5 (2.30GHz)

    2. Harddisk : Kapasitas 640 GB3. RAM : 4 GB

    4. VGA : NVIDIA GeForce 315M

    b. Perangkat Lunak (Software)

    1. Sistem Operasi : Windows 732 bit

    2.

    Software Build : NetBeans IDE 7.0

    4.2. Pengujian Tahap Text M ining

    Pengujian tahap text mining ini terdiri dari proses pengujian untuk

    setiap tahap pada text mining yang meliputi tahap tokenizing, tahap

    filtering, tahap stemming dan tagging, serta tahap analyzing yang

    dilengkapi dengan tujuan pengujian, metode pengujian prosedur

    pengujian dan hasil pengujian.

    4.2.1.

    Tujuan

    Tujuan pengujian tahap text miningini adalah untuk mengetahui

    data output yang dihasilkan oleh setiap tahapan proses text mining apakah

    sesuai dengan output yang seharusnya dihasilkan berdasarkan pada teori

    text mining itu sendiri.

  • 7/24/2019 7611040039 - Buku TA

    54/135

    30

    4.2.2.Metode Pengujian

    Metode pengujian yang dilakukan untuk pengujian tahap text

    mining ini adalah dengan melakukan pengujian terhadap setiap tahapandari text mining yaitu tahap tokenizing, tahap filtering, tahap stemming

    dan tagging, serta tahap analyzinguntuk memperoleh output dari masing-

    masing tahapan tersebut.

    4.2.3.Prosedur Pengujian

    Langkah-langkah prosedur pengujian untuk mengetahui hasil

    output dari masing-masing tahap text mining adalah sebagai berikut :

    1.

    Run class FormApp2.java2. Klik button hasil tokenizing kemudian pilih 2 file .txt yang akan di

    bandingkan

    3. Output dari tahap tokenizing akan ditampilkan pada jTextArea

    4. Klik button hasil filtering untuk menghilangkan kata-kata yang

    tidak penting dari tahap tokenizing

    5. Output dari tahapfiltering akan ditampilkan pada jTextArea

    6. Klik button hasilstemming dan tagging untuk mengembalikan ke

    kata dasar dari tahapfiltering

    7.

    Output dari tahap stemming dan tagging akan ditampilkan pada

    jTextArea

    8. Klik button hasil analyzing untuk menghitung jumlah kemunculan

    kata dari tahapstemming dan tagging

    9. Output dari tahap analyzing akan ditampilkan pada jTextArea

    4.2.4.Hasil Pengujian

    Hasil pengujian dari tahap text mining ini terdiri atas 4 macamyaitu hasil pengujian tahap tokenizing, hasil pengujian tahap filtering,

    hasil pengujian tahap stemming dan tagging, serta hasil pengujian tahap

    analyzing.

    a. Tahap Tokenizing

    Proses tokenizing ini mengambil input dari file .txt yang diperoleh

    dari proses browse file. Proses tokenizing ini dilakukan dengan cara

  • 7/24/2019 7611040039 - Buku TA

    55/135

    31

    melakukan pembacaan setiap baris dari isi file .txt. Selain itu, pada proses

    tokenizing ini juga harus menentukan tokenizer yang digunakan yang

    terdiri atas beberapa jenis tanda baca, seperti koma (,), titik (.), spasi, titik

    koma (;), titik dua (:), buka dan tutup kurung (), kurung kurawal {}, lebihdari (>), kurang dari (

  • 7/24/2019 7611040039 - Buku TA

    56/135

    32

    a. Menginputkanstopword ke dalam database ms. Access

    Daftarstopword yang telah ada diinputkan ke dalam database ms.

    Access yang berjumlah 384 kata yang tercantum pada lampiran halaman

    106110.

    b.

    Setting ODBC ms. Access

    Untuk dapat melakukan akses terhadap database, diperlukansetting pada ODBC control panel melalui langkah-langkah yang mengacu

    pada https://halimi1010.wordpress.com/category/java/pbo-3/membuat-

    koneksi-ke-database-access-menggunakan-java-desktop

    c. Mengkoneksikan antara ms. Access dengan NetBeans

    Setelah selesai melakukan setting ODBC, kemudian koneksikan

    antara ms. Access dengan NetBeans melalui langkah-langkah yangmengacu pada https://halimi1010.wordpress.com/category/java/pbo-

    3/membuat-koneksi-ke-database-access-menggunakan-java-desktopSetelah proses setting koneksi Ms Access telah selesai, dilakukan

    proses untuk melakukan pengetesan koneksi antara Ms. Acces dan

    Netbeans. Jika koneksi berhasil akan menghasilkan keterangan berupa

    Koneksi Berhasil seperti yang ditunjukkan pada Gambar 4.2 :

    Gambar 4.2 Tampilan Koneksi Ms. Access dan Netbeans berhasil

    d. Proses pemfilteranstopword dari hasil tokenizing

    Proses penyaringan kata penting dan tidak penting ini dilakukan

    dengan cara membandingkan isi array token[x] yang berisi kata dasar

    hasil dari proses tokenizing dengan database stopword yang telah dibuat

    menggunakan Ms. Access. Jika isi dari array token[x] ditemukan dalamdatabase, maka kata tersebut harus dihilangkan dengan cara

    mengosongkan isi dari array token[x]. Berdasarkan keseluruhan proses

    diatas, diperoleh hasil akhir dari tahap filtering seperti yang ditunjukkan

    pada Gambar 4.3 :

    https://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktophttps://halimi1010.wordpress.com/category/java/pbo-3/membuat-koneksi-ke-database-access-menggunakan-java-desktop
  • 7/24/2019 7611040039 - Buku TA

    57/135

    33

    Gambar 4.3 Contoh OutputTahapFiltering

    c. Tahap Stemming dan Tagging

    Tahapstemmingdan tagging untuk dokumen berbahasa Indonesia

    memiliki inputberupa kata-kata penting dari dokumen yang telah melalui

    tahapfiltering yang kemudian outputnya adalah kata dasar dari kata-kata

    penting tersebut. Proses pada tahapstemming dan tagging ini dilakukan

    melalui beberapa tahap berikut :

  • 7/24/2019 7611040039 - Buku TA

    58/135

    34

    a. Pembuatan folder kamus kata dasar bahasa Indonesia dalam

    bentuk alphabet A-Z.txt

    Kamus bahasa Indonesia yang dibuat ini berisi kata dasar yang

    berjumlah sebanyak 57.289 kata yang terdiri dari alphabet AZ. Kamusbahasa ini disimpan ke dalam bentuk .txt untuk setiap alphabetnya.

    Seluruh kamus .txt tersebut disimpan dalam satu folder bernama kamus

    seperti yang ditunjukkan pada Gambar 4.4

    Gambar 4.4 Kamus Bahasa Indonesia

    b.

    Pembuatan kelas .java untuk akses isi folder kamus

    Setelah kamus bahasa Indonesia telah disediakan, kemudian

    dilakukan proses untuk melakukan akses terhadap isi kamus tersebut.Pengetesan akses terhadap isi kamus dilakukan dengan cara

    menginputkan sebuah kata dasar, misalnya kata minum. Kata minum ini

    diawali dengan alphabet M sehingga proses pencarian kata hanya

    dilakukan dalam file M.txt dan jika kata yang dicari ditemukan dalam

    kamus, maka output yang dihasilkan adalah true seperti yang ditunjukkan

    pada Gambar 4.5

    Gambar 4.5 Pengujian Akses Isi Kamus Bahasa Indonesia

  • 7/24/2019 7611040039 - Buku TA

    59/135

    35

    c. Pembuatan kelas .java untuk remove possesive pronoun

    Setelah pengaksesan isi kamus tersebut berhasil, dilakukan proses

    untuk menghilangkan kata ganti kepemilikan atau possesive pronoun

    yang terdiri atas akhiran lah, kah, ku, mu, dan nya. Jikaditemukan kata yang berakhiran dengan possesive pronoun, maka

    panjang katanya akan dikurangi sepanjang kata possesive pronoun

    tersebut, misalnya diinputkan kata apakah, setelah diproses akan

    menghasilkan output berupa kata apa seperti yang ditunjukkan pada

    Gambar 4.6

    Gambar 4.6 Pengujian Untuk MenghapusPossesive Pronoun

    d.

    Pembuatan kelas .java untuk remove prefix (awalan)

    Setelah menghilangkan kata ganti kepemilikan, langkah

    selanjutnya adalah menghilangkan awalan yang terdiri atas pe, me,

    be, te, se, ke, dan di. Jika ditemukan kata yang memilikiawalan tersebut, maka panjang kata awal akan dikurangi sejumlah

    panjang kata awalan tersebut, misalnya di inputkan kata pengguna,

    setelah di proses akan menghasilkan outputberupa kata guna seperti yang

    ditunjukkan pada Gambar 4.7

    Gambar 4.7 Pengujian Untuk Menghapus Awalan

    e. Pembuatan kelas .java untuk remove suffix (akhiran)

    Setelah menghilangkan kata ganti kepemilikan dan awalan,

    langkah selanjutnya adalah menghilangkan akhiran yang terdiri atas an

    dan i. Jika ditemukan kata yang memiliki akhiran tersebut, maka

  • 7/24/2019 7611040039 - Buku TA

    60/135

    36

    panjang kata akan dikurangi sejumlah panjang kata akhiran tersebut,

    misalnya diinputkan kata gerakan, setelah diproses akan menghasilkan

    outputberupa kata gerak seperti yang ditunjukkan pada Gambar 4.8

    Gambar 4.8 Pengujian Untuk Menghapus Akhiran

    f.

    Proses pengembalian kata dasar dengan melakukan akses terhadap

    4 kelas yang telah dibuat

    Setelah keempat kelas tersebut telah selesai dibuat, kemudian

    dilakukan proses dari tahap stemming dan tagging dengan melakukan

    akses terhadap 4 kelas yang telah dibuat sebelumnya. Berdasarkan

    keseluruhan proses diatas, diperoleh hasil akhir dari tahap stemming dan

    tagging ditunjukkan pada Gambar 4.9

    Gambar 4.9 Output Tahap Stemmingdan Tagging

  • 7/24/2019 7611040039 - Buku TA

    61/135

    37

    d. Tahap Analyzing

    Tahap analyzingmerupakan tahap akhir dari proses text mining

    dimana input yang digunakan adalah hasil dari tahap stemming dantagging yang telah berupa kata dasar yang dijadikan sebagai kata kunci

    dari masing-masing dokumen. Kata kunci tersebut untuk selanjutnya

    dihitung jumlah kemunculan dari setiap katanya sehingga tidak terdapat

    perulangan penulisan kata yang sama. Proses penghitungan kemunculan

    frekuensi kata kunci ini dil