Bola.com, Jakarta - Clustering merupakan metode pengelompokan data yang penting untuk dipahami. Hal ini merupakan bagian dari data mining atau penggalian data, yaitu ekstraksi pola yang menarik dari data dalam jumlah besar.
Clustering atau klasterisasi biasanya digunakan pada business inteligence, pengenalan pola citra, web search, bidang ilmu biologi, dan untuk keamanan (security).
Baca Juga
Advertisement
Clustering juga sering diartikan sebagai proses pengelompokkan data ke dalam beberapa cluster sehingga data-data di suatu cluster memiliki kemiripan maksimum.
Dengan adanya clustering, akan membuat Anda mendapatkan data antar-cluster yang berbeda dan memiliki kemiripan yang minimum.
Jadi, objek yang ada di dalam satu cluster memiliki kemiripan karakteristik antara satu dengan lainnya dan berbeda dengan cluster yang lain.
Berikut rangkuman mengenai clustering, metode, dan syarat-syaratnya, disadur dari Liputan6, Rabu (29/6/2022).
Pengertian Clustering
Seperti yang telah disebutkan sebelumnya, clustering merupakan suatu metode pengelompokan data. Lebih jelasnya, clustering adalah metode pengelompokan data yang digunakan untuk mengenali kelompok-kelompok (cluster) yang dihasilkan dari pengelompokkan unsur-unsur yang lebih kecil berdasarkan adanya kemiripan satu sama lain.
Kemiripan yang menjadi dasar pengelompokkan tidak bersifat universal sehingga ukuran-ukuran penyamanya harus dijabarkan terlebih dahulu oleh peneliti atau penganalisis.
Advertisement
Clustering merupakan metode pengelompokan data yang sering digunakan sebagai satu di antara metode data mining atau penggalian data.
Clustering adalah proses partisi satu set objek data ke dalam himpunan bagian yang disebut dengan cluster. Maka itu, metode clustering ini berguna untuk menemukan kelompok yang tidak dikenal dalam data.
Dalam business inteligence, clustering bisa mengelompokkan banyak customer ke beberapa kelompok. Contohnya mengelompokan customer ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat.
Clustering ini juga dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam banyak grup berdasarkan kesamaannya.
Advertisement
Pendekatan Metode Clustering
Ada dua pendekatan yang digunakan dalam mengembangkan metode clustering, yakni pendekatan partisi dan clustering dengan pendekatan hierarki.
Partition-based Clustering Hierarki
Advertisement
Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering adalah mengelompokkan data dengan memilah-milah data yang dianalisis ke dalam beberapa cluster yang sudah ada. Hal ini tidak memperhitungkan hierarki dari data tersebut.
Pada metode partitional clustering setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu memperkecil jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing.
Contoh metode partitional clustering: K-Means, Fuzzy K-means dan Mixture Modelling.
Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien.
Hierarchical Clustering
Clustering dengan pendekatan hierarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hierarki berupa dendogram di mana data yang mirip akan ditempatkan pada hierarki yang berdekatan dan yang tidak pada hierarki yang berjauhan.
Pada hierarchical clustering, data dikelompokkan melalui suatu bagan yang berupa hierarki, di mana terdapat penggabungan dua grup yang terdekat di setiap literasinya ataupun pembagian dari seluruh set data ke dalam cluster.
Langkah melakukan clustering hierarki, pertama-tama identifikasi item dengan jarak dekat, kemudian gabungkan item itu ke dalam satu cluster, lalu hitung jarak antar-cluster, terakhir ulangi dari awal sampai semua terhubung.
Contoh metode clustering hierarki di antaranya single linkage, complete linkage, average linkage, average group linkage.
Syarat Clustering
Skalabilitas
Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya suatu database. Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.
Advertisement
Kemampuan analisa beragam bentuk data
Algortima klasteriasi harus mampu dimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.
Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan, yang hasilnya berbentuk bulat. Padahal, hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain.
Jadi, dibutuhkan kemampuan untuk menganalisis cluster dengan bentuk apa pun pada suatu algoritma clustering.
Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Adakalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena sistem inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.
Sensitifitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.
Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun atribut. Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.
Interpresasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.
Disadur dari: Liputan6.com (Penulis: Husnul Abdi, Editor: Septika Shidqiyyah. Published: 30/8/2021)
Yuk, baca artikel edukasi lainnya dengan mengikuti tautan ini.
Advertisement