tugas kapsel_yenni dwi ariyani_140110100046

Upload: yenni-dwi-ariyani

Post on 10-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    1/28

    Yenni Dwi Ariyani -140110100046

    APLIKASI DATA MININGUNTUK MENAMPILKANINFORMASI TINGKAT

    KELULUSAN MAHASISWADisusun oleh:

    Nuqson Masykur Huda - J2F005280Program studi teknik informatika

    Jurusan matematikaFakultas matematika dan ilmu pengetahuan alam

    Universitas Diponegoro

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    2/28

    Data Mining

    Data Mining merupakan salah satu prosesdari keseluruhan proses yang ada padaKnowledge Discovery in Databases (KDD).

    Data Mining adalah penambangan ataupenemuan informasi baru dengan mencaripola atau aturan tertentu dari sejumlah datayang sangat besar

    Data mining adalah kegiatan menemukan

    pola yang menarik dari data dalam jumlah

    besar

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    3/28

    Knowledge Discovery inDatabases (KDD)

    Knowledge Discovery in Databases (KDD)merupakan sekumpulan proses untuk

    menemukan pengetahuan yang bermanfaatdari data.

    Data mining merupakan proses yang sangatpenting dalam menemukan pola-pola yang

    berguna dari sejumlah data yang besar (datatersebut bisa disimpan dalam basisdata, DataWarehouse, atau media penyimpananinformasi lainnya).

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    4/28

    Tahapan Knowledge Discovery inDatabases (KDD)

    1. Pembersihan data (data cleaning)Pembersihan data merupakan proses menghilangkan noise dan data yangtidak konsisten atau data tidak relevan.

    2. Integrasi data (Data Integration)penggabungan data dari berbagai database ke dalam satu database baru.

    3. Seleksi Data (Data Selection)Mengidentifikasi semua sumber informasi internal dan eksternal dan memilihsebagian saja dari data yang diperlukan untuk aplikasi data mining.

    4. Transformasi data (Data Transformation)Data diubah atau digabung ke dalam format yang sesuai untuk diprosesdalam data mining

    5. Penambangan data (Data Mining)

    proses mencari pola atau informasi menarik dalam data terpilih denganmenggunakan teknik atau metode tertentu

    6. Presentasi pengetahuan (Knowledge Presentation).Visualisasi dan penyajian pengetahuan mengenai metode yang digunakanuntuk memperoleh pengetahuan yang diperoleh pengguna.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    5/28

    Algoritma Apriori

    Algoritma apriori adalah algoritma paling terkenaluntuk menemukan pola frekuensi tinggi.

    Pola frekuensi tinggi adalah pola-pola item di dalamsuatu database yang memiliki frekuensi atau supportdi atas ambang batas tertentu yang disebut denganistilah minimum support atau threshold.

    Threshold adalah batas minimum transaksi. Jikajumlah transaksi kurang dari threshold maka item ataukombinasi item tidak akan diikutkan perhitunganselanjutnya.

    Penggunaan threshold dapat mempercepatperhitungan

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    6/28

    Analisis data miningPada tahap ini akan dicari nilaisupport dan confidence dari hubungantingkat kelulusan dengan data induk mahasiswa. Support (nilai

    penunjang) yaitu prosentase kombinasi item tersebut dalam database

    dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item

    dalam aturan assosiatif

    Data induk mahasiswa yang akan dicari hubungannya adalah :

    1. Hubungan tingkat kelulusan dengan proses masuk

    2. Hubungan tingkat kelulusan dengan asal sekolah dan proses masuk

    3. Hubungan tingkat kelulusan dengan kota asal sekolah

    4. Hubungan tingkat kelulusan dengan program studi

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    7/28

    Sumber DataData yang digunakan terdiri dari dua sumber yaitu :

    Data induk mahasiswa

    Data induk mahasiswa adalah data mahasiswa yangdidata ketika mahasiswa pertama kali masuk perguruantinggi setelah melakukan registrasi ulang Data yang

    dicatat adalah identitas pribadi mahasiswa danidentitas sekolah asal mahasiswa.

    ata Kelulusan

    Data Kelulusan adalah data mahasiswa yang telahdinyatakan lulus. Data yang dicatat adalah identitasmahasiswa dan data kelengkapan kelulusan

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    8/28

    Tabel data induk mahasiswa :

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    9/28

    Tabel data kelulusan

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    10/28

    Pembersihan data Dilakukan pembersihan data karena tidak

    semua data pada tabel akan digunakan.Pembersihan ini penting guna meningkatkan

    performa dalam proses mining.

    Cara pembersihan dengan menghapusatribut yang tidak terpakai dan menghapus

    data-data yang tidak lengkap isiannya.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    11/28

    Atribut yang digunakan dalam data indukmahasiswa adalah :

    1. Atribut NIM2. Atribut proses masuk3. Atribut nama asal sekolah digunakan4. Atribut kota asal sekolah

    Atribut yang digunakan dalam data kelulusanadalah :

    1. NIM

    2. Indeks Prestasi Kumulatif (IPK)3. Lama studi4. Program Studi

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    12/28

    Integrasi Data

    Data kelulusan dan data induk mahasiswa digabungkan

    dengan primary key NIM. Setelah itu baru dilakukan proses

    mining.

    Proses integrasi data dilakukan ketika proses ETL

    (ekstract, transform, and Load) ketika membangun data

    warehouse, dalam proses ETL data dalam data source

    digabungkan menjadi satu dalam data warehouse

    dengan key NIM

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    13/28

    Seleksi data

    proses menyeleksi atribut apa yang

    akan diproses pada mining selanjutnya.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    14/28

    Transformasi DataBeberapa metode data mining membutuhkan format data yang

    khusus sebelum bisa Diaplikasikan. Dalam Aplikasi Data Mining ini,

    data yang dirubah yaitu lama studi dan IPK untuk mengukur

    tingkat kelulusan. Dari dua data tersebut dapat dibuat tabel

    berikut :

    Kategori Keterangan

    A1 lama studi 4 tahun atau kurang dari 4 tahun dan IPK 3,514,00

    A2 lama studi 4 tahun atau kurang dari 4 tahun dan IPK 2,763,50

    A3 lama studi 4 tahun atau kurang dari 4 tahun dan IPK 2,002,75

    B1 lama studi lebih dari 4 tahun dan IPK 3,514,00

    B2 lama studi lebih dari 4 tahun dan IPK 2,763,50

    B3 lama studi lebih dari 4 tahun dan IPK 2,002,75

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    15/28

    Penggunaan AlgoritmaApriori Ide dasar dari algoritma ini adalah dengan

    mengembangkan frequent itemset. Denganmenggunakan satu item dan secara rekursifmengembangkan frequent itemset dengan dua item, tigaitem dan seterusnya hingga frequent itemset dengan

    semua ukuran.

    Algoritma apriori dibagi menjadi beberapa tahap yangdisebut iterasi .

    Langkah pertama algoritma apriori adalah, support darisetiap item dihitung dengan men-scan database. Setelahsupport dari setiap item didapat, item yang memilikisupport lebih besar dari minimum support dipilih sebagaipola frekuensi tinggi dengan panjang 1 atau seringdisingkat 1-itemset. Singkatan k-itemset berarti satu setyang terdiri dari k item

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    16/28

    Penggunaan AlgoritmaAprioriUntuk selanjutnya iterasi iterasi ke-k dapat dibagi lagi menjadibeberapa bagian :

    Pembentukan kandidat itemset

    Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dariiterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanyapemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidaktermasuk dalam pola frekuensi tinggi dengan panjang k-1

    Penghitungan support dari tiap kandidat k-itemsetSupport dari tiap kandidat k-itemset didapat dengan men-scan databaseuntuk menghitung jumlah transaksi yang memuat semua item di dalamkandidat k-itemset tersebut. Ini adalah juga ciri dari algoritma apriori yaitudiperlukan penghitungan dengan scan seluruh database sebanyak k-itemsetterpanjang.

    Tetapkan pola frekuensi tinggi

    Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari

    kandidat k-itemset yang support-nya lebih besar dari minimum support.Kemudian dihitung confidence masing-masing kombinasi item. Iterasiberhenti ketika semua item telah dihitung sampai tidak ada kombinasi itemlagi.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    17/28

    Contoh proses mining untuk mengetahuihubungan tingkat kelulusan dengan proses

    masukTerdapat data sebagai berikut :

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    18/28

    Dari data awal dapat dapat dibuat data berikut :

    Selanjutnya ditentukan threshold = 3 sehingga didapat :

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    19/28

    Selanjutnya dari data tersebut yang digabungkan dengan data awaldapat dibuat data berikut :

    Setelah ditentukan threshold = 3 maka didapat :

    Sehingga didapatkan hasil sebagai berikut :

    Support A2, PSSB = Count (A2,PSSB)/jumlah transaksi = 3/11 Support A3, SPMB = Count(A3, SPMB) /jumlah transaksi = 3/11 Confidence A2, PSSB = Count(A2,PSSB)/Count (A2) = 3/4 Confidence A3, SPMB = Count(A3,SPMB)/Count(A3) = 3/3

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    20/28

    Dapat dilihat bahwa proses mining hubungan tingkatkelulusan dengan proses masuk mahasiswa denganthreshold 3 menghasilkan :

    Hubungan A2, PSSB mempunyai nilai support = 3/11

    Confidence =3/3 dan Hubungan A3, SPMB mempunyai nilai support = 3/11

    Confidence = 3/4

    Maka PSSB mempunyai tingkat kelulusan A2 dan SPMBmempunya tingkat kelulusan A3, sehingga dapat

    disimpulkan bahwa mahasiswa yang melalui prosesmasuk PSSB mempunya tingkat kelulusan lebih bagusdibanding mahasiswa yang melalui proses masuk SPMB

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    21/28

    Report dan Penyajian HasilProses

    Setelah proses mining akan disajikan hasil dari datamining berupa tabel hubungan kekuatan dengan nilaisupport dan confidence masing-masing atribut serta

    threshold yang digunakan. Semakin tinggi nilaiconfidence dan support maka semakin kuat nilaihubungan antar atribut.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    22/28

    Perangkat lunak dan perangkat keras

    yang digunakan1) CPU

    Prosesor Intel Celeron 2.66 Ghz Memori 1024 Gb VGA 128 bit Hardisk 160 GB

    2) Sistem Operasi : Microsoft Windows 7 Professional 6.1

    3) Editor Script : Notepad ++ v5.0.3.

    4) Platform Microsoft Visual Studio 2008 Version 9.0.21022.8 Professional Edition Microsoft .NET Framework Version 3.5 SP1

    5) DBMS : Microsoft SQL Server Management Studio 9.00.1399.00 Microsoft MSXML 3.0 4.0 5.0 6.0 Microsoft .NET Framework 2.0.50727.4927

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    23/28

    Tampilan Program

    Terdapat dua buah form yaitu Form pertama merupakan

    halaman awal yang berisi perintah pengambilan data

    pemilihan atribut data induk mahasiswa, input threshold,

    perintah proses mining dan tombol keluar aplikasi. Form keduamerupakan halaman report data mining yang berisi hasil proses

    data mining yaitu tabel nilai support dan confidence

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    24/28

    Tampilan form 1

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    25/28

    Tampilan form 2

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    26/28

    Kesimpulan

    Aplikasi Data Mining ini dapat digunakan untukmenampilkan informasi tingkat kelulusan. Informasi yangditampilkan berupa nilai support dan confidencehubungan antara tingkat kelulusan dengan data indukmahasiswa. Semakin tinggi nilai confidence dan supportmaka semakin kuat nilai hubungan antar atribut. Data

    induk mahasiswa yang diproses mining meliputi data prosesmasuk, data asal sekolah, data kota mahasiswa, dan dataprogram studi.

    Hasil dari proses data mining ini dapat digunakan sebagaipertimbangan dalam mengambil keputusan lebih lanjuttentang faktor yang mempengaruhi tingkat kelulusan

    khususnya faktor dalam data induk mahasiswa.

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    27/28

    TERIMA KASIH

  • 7/22/2019 Tugas Kapsel_Yenni Dwi Ariyani_140110100046

    28/28

    [1] Huda, Nugson Masykur, 2010, APLIKASI DATA MINING UNTUK

    MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA(Studi Kasus di Fakultas MIPA Universitas Diponegoro), Semarang

    Daftar Pustaka