Pengertian Penggalian Data (Data Mining)
Penggalian data (bahasa Inggris: data mining) adalah ekstraksi
pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik
apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan
berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang
akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru.
Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya
berbeda, seperti KDD (knowledge discovery in database), analisis pola,
arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data
diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh
dari sistem basis data perusahaan, e-commerce, data saham, dan data
bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
Proses PencarianPola
Penggalian data adalahsalahsatubagiandari proses pencarianpola.
Berikutiniurutan proses pencarianpola:
- Pembersihan
Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang
hilang.
- Integrasi
Data: yaitu menggabungkan berbagai sumber data.
- Pemilihan
Data: yaitu memilih data yang relevan.
- Transformasi
Data: yaitu mentransformasi data ke dalam format untuk diproses dalam
penggalian data.
- Penggalian
Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
- Evaluasi
pola: yaitu mengenali pola-pola yang menarik saja.
- Penyajian
pola: yaitu memvisualisasi pola ke pengguna.
Tujuan dari text mining
adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi,
sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki
format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas
khusus dari text mining antara lain yaitu pengkategorisasian teks (text
categorization) dan pengelompokan teks text clustering).
Text Mining
- Text
mining merupakan penerapan konsep dan teknik data mining untuk mencari
pola dalam teks, yaitu proses penganalisisan teks guna menyarikan
informasi yang bermanfaat untuk tujuan tertentu.
- Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.
Analisis Cluster
- Analisis
cluster adalah pengorganisasian kumpulan pola ke dalam cluster
(kelompok-kelompok) berdasar atas kesamaannya.
- Pola-pola
dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola
dalam cluster yang lainnya.
- Clustering
bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan,
membuat keputusan dan machine learning, termasuk data mining, document
retrieval, segmentasi citra, dan klasifikasi pola.
- Metodologi
clustering lebih cocok digunakan untuk eksplorasi hubungan antar data
untuk membuat suatu penilaian terhadap strukturnya.
Information
Retrieval
Konsep dasar dari IR adalah pengukuran kesamaan
· sebuah perbandingan antara dua dokumen, mengukur sebearapa
mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai sebuah
dokumen yang akan dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa dengan metode klasifikasi yang
disebut metode nearest-neighbour.
Information Extraction
- Information
Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan
dokumen.
- Dalam
menerapkan IE, perlu sekali dilakukan pembatasan domain problem.
- IE
sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang
ada.
- Sebagai
contoh:
- “Indonesia
dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan
komunikasi.”
- KerjaSama(Indonesia,
Singapore, TIK)
- Dengan
IE, kita dapat menemukan:
- concepts
(CLASS)
- concept
inheritance (SUBCLASS-OF)
- concept
instantiation (INSTANCE-OF)
- properties/relations
(RELATION)
- domain
and range restrictions (DOMAIN/RANGE)
- equivalence
Algoritma yang digunakan pada text mining, biasanya tidak hanya
melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam
feature yang sering digunakan:
- Character,
merupakan komponan individual, bisa huruf, angka, karakter spesial dan
spasi, merupakan block pembangun pada level paling tinggi pembentuk
semantik feature, seperti kata, term dan concept. Pada umumnya,
representasi character-based ini jarang digunakan pada beberapa teknik
pemrosesan teks.
- Words.
- Terms,
merupakan single word dan frasa multiword yang terpilih secara langsung
dari corpus. Representasi term-based dari dokumen tersusun dari subset
term dalam dokumen.
- Concept,
merupakan feature yang di-generate dari sebuah dokumen secara manual,
rule-based, atau metodologi lain. Pada tugas akhir ini, konsep di-generate
dari argument atau verb yang sudah diberi label pada suatu dokumen.
Proses text mining meliputi proses tokenizing, filtering,
stemming, dan tagging.
Tokenizing
Tokenizing adalah proses penghilangan tanda baca pada kalimat
yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri
sendiri-sendiri.
Filtering
Tahap filtering adalah tahap pengambilan kata-kata yang penting
dari hasil tokenizing. Tahap filtering ini dapat menggunakan algoritma stoplist
atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap kata-kata yang
tidak layak untuk dijadikan sebagai pembeda atau sebagai kata kunci dalam
pencarian dokumen sehingga kata-kata tersebut dapat dihilangkan dari dokumen.
Sedangkan wordlist adalah daftar kata-kata yang mungkin digunakan sebagai kata
kunci dalam pencarian dokumen.
Stemming
Stemming adalah proses mengubah kata menjadi kata dasarnya
dengan menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau mengubah kata
kerja menjadi kata benda. Stem (akar kata) adalah bagian dari kata yang tersisa
setelah dihilangkan imbuhannya (awalan dan akhiran).
Porter stemmermerupakan algoritma penghilangan akhiran
morphological dan infleksional yang umum dari bahasa Inggris. Step-step
algoritma Porter
Stemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove verbal inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction
Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap
kata lampau atau kata hasil stemming. Contoh: was be, used use,
stori story, dll.
Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauh
keterhubungan antar kata-kata dengan dokumen yang ada.
Automatic Clustering
Clustering adalah proses membuat pengelompokan sehingga semua
anggota dari setiap partisi mempunyai persamaan berdasarkan matrik tertentu.
Sebuah cluster adalah sekumpulan objek yang digabung bersama karena persamaan atau
kedekatannya. Clustering atau klasterisasi merupakan sebuah teknik yang sangat
berguna karena akan mentranslasi ukuran persamaan yang intuitif menjadi ukuran
yang kuantitatif.
CLHM (Centroid Linkage Hierarchical Method)
Centroid Linkage adalah proses pengklasteran yang didasarkan
pada jarak antar centroidnya [6]. Metode ini baik untuk kasus clustering dengan
normal data set distribution. Akan tetapi metode ini tidak cocok untuk data
yang mengandung outlier. Algoritma Centroid Linkage Hierarchical Method adalah
sebagai berikut:
1. Diasumsikan setiap data dianggap sebagai cluster. Kalau
n=jumlah data dan c=jumlah cluster, berarti ada c=n.
2. Menghitung jarak antar cluster dengan Euclidian distance.
3. Mencari 2 cluster yang mempunyai jarak centroid antar cluster
yang paling minimal dan digabungkan (merge) kedalam cluster baru (sehingga
c=c-1).
4. Kembali ke langkah 3, dan diulangi sampai dicapai cluster
yang diinginkan.
Analisa Cluster
Analisa cluster adalah suatu teknik analisa multivariate (banyak
variabel) untuk mencari dan mengorganisir informasi tentang variabel tersebut
sehingga secara relatif dapat dikelompokkan dalam bentuk yang homogen dalam
sebuah cluster. Secara umum, bisa dikatakan sebagai proses menganalisa baik
tidaknya suatu proses pembentukan cluster. Analisa cluster bisa diperoleh dari
kepadatan cluster yang dibentuk (cluster density). Kepadatan suatu cluster bisa
ditentukan dengan variance within cluster (Vw) dan variance between cluster
(Vb). Varian tiap tahap pembentukan
Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai
global optimum terletak pada tahap ke-i, jika memenuhi persamaan berikut:
Vi+1 >α. Vi
Dimana, α adalah nilai tinggi.
Nilai tinggi digunakan untuk menentukan seberapa mungkin metode
ini mencapai global optimum. Nilai α yang biasa digunakan adalah 2,3, dan
4.