Sukses


Pengertian Clustering, Metode, dan Syarat-syaratnya

Bola.com, Jakarta - Clustering merupakan metode pengelompokan data yang penting untuk dipahami. Hal ini merupakan bagian dari data mining atau penggalian data, yaitu ekstraksi pola yang menarik dari data dalam jumlah besar.

Clustering atau klasterisasi biasanya digunakan pada business inteligence, pengenalan pola citra, web search, bidang ilmu biologi, dan untuk keamanan (security).

Clustering juga sering diartikan sebagai proses pengelompokkan data ke dalam beberapa cluster sehingga data-data di suatu cluster memiliki kemiripan maksimum.

Dengan adanya clustering, akan membuat Anda mendapatkan data antar-cluster yang berbeda dan memiliki kemiripan yang minimum.

Jadi, objek yang ada di dalam satu cluster memiliki kemiripan karakteristik antara satu dengan lainnya dan berbeda dengan cluster yang lain.

Berikut rangkuman mengenai clusteringmetode, dan syarat-syaratnya, disadur dari Liputan6, Rabu (29/6/2022).

2 dari 4 halaman

Pengertian Clustering

Seperti yang telah disebutkan sebelumnya, clustering merupakan suatu metode pengelompokan data. Lebih jelasnya, clustering adalah metode pengelompokan data yang digunakan untuk mengenali kelompok-kelompok (cluster) yang dihasilkan dari pengelompokkan unsur-unsur yang lebih kecil berdasarkan adanya kemiripan satu sama lain.

Kemiripan yang menjadi dasar pengelompokkan tidak bersifat universal sehingga ukuran-ukuran penyamanya harus dijabarkan terlebih dahulu oleh peneliti atau penganalisis.

Clustering merupakan metode pengelompokan data yang sering digunakan sebagai satu di antara metode data mining atau penggalian data.

Clustering adalah proses partisi satu set objek data ke dalam himpunan bagian yang disebut dengan cluster. Maka itu, metode clustering ini berguna untuk menemukan kelompok yang tidak dikenal dalam data.

Dalam business inteligence, clustering bisa mengelompokkan banyak customer ke beberapa kelompok. Contohnya mengelompokan customer ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat. 

Clustering ini juga dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam banyak grup berdasarkan kesamaannya.

3 dari 4 halaman

Pendekatan Metode Clustering

Ada dua pendekatan yang digunakan dalam mengembangkan metode clustering, yakni pendekatan partisi dan clustering dengan pendekatan hierarki.

Partition-based Clustering Hierarki

Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering adalah mengelompokkan data dengan memilah-milah data yang dianalisis ke dalam beberapa cluster yang sudah ada. Hal ini tidak memperhitungkan hierarki dari data tersebut.

Pada metode partitional clustering setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu memperkecil jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing.

Contoh metode partitional clustering:  K-Means, Fuzzy K-means dan Mixture Modelling.

Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien.

Hierarchical Clustering

Clustering dengan pendekatan hierarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hierarki berupa dendogram di mana data yang mirip akan ditempatkan pada hierarki yang berdekatan dan yang tidak pada hierarki yang berjauhan.

Pada hierarchical clustering, data dikelompokkan melalui suatu bagan yang berupa hierarki, di mana terdapat penggabungan dua grup yang terdekat di setiap literasinya ataupun pembagian dari seluruh set data ke dalam cluster.

Langkah melakukan clustering hierarki, pertama-tama identifikasi item dengan jarak dekat, kemudian gabungkan item itu ke dalam satu cluster, lalu hitung jarak antar-cluster, terakhir ulangi dari awal sampai semua terhubung.

Contoh metode clustering hierarki di antaranya single linkage, complete linkage, average linkage, average group linkage. 

4 dari 4 halaman

Syarat Clustering

Skalabilitas

Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya suatu database. Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.

Kemampuan analisa beragam bentuk data

Algortima klasteriasi harus mampu dimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.

Menemukan cluster dengan bentuk yang tidak terduga

Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan, yang hasilnya berbentuk bulat. Padahal, hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain.

Jadi, dibutuhkan kemampuan untuk menganalisis cluster dengan bentuk apa pun pada suatu algoritma clustering.

Kemampuan untuk dapat menangani noise

Data tidak selalu dalam keadaan baik. Adakalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena sistem inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.

Sensitifitas terhadap perubahan input

Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.

Mampu melakukan clustering untuk data dimensi tinggi

Suatu kelompok data dapat berisi banyak dimensi ataupun atribut. Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.

Interpresasi dan kegunaan

Hasil dari clustering harus dapat diinterpretasikan dan berguna.

 

Disadur dari: Liputan6.com (Penulis: Husnul Abdi, Editor: Septika Shidqiyyah. Published: 30/8/2021)

Yuk, baca artikel edukasi lainnya dengan mengikuti tautan ini.

Video Populer

Foto Populer