“Contoh Kasus Analisis Cluster dengan Menggunakan K-Means dan K-Medoids” terkunci Contoh Kasus Analisis Cluster dengan Menggunakan K-Means dan K-Medoids

18 Aug 2020 imran Alwi 0 Software Statistika

Contoh Kasus Analisis Cluster dengan Menggunakan K-Means dan K-Medoids

Penulis: Siswanto

Contoh Kasus dengan Algoritma K-Means

Dari banyak siswa diambil 12 siswa sebagai contoh untuk penerapan algoritma k-means dalam penjurusan siswa. Percobaan dilakukan dengan menggunakan parameter-parameter berikut:

Jumlah cluster    : 2

Jumlah data        : 12

Jumlah atribut     : 8

Berikut merupakan data yang digunakan untuk melakukan percobaan perhitungan manual.

NIS

Nama

Matematika

Fisika

Kimia

Biologi

Sejarah

Akuntansi

Sosiologi

Geografi

2012173

Afgansyah

79

75

75

85

76

78

76

80

2012174

Denny Sumargo

84

76

79

77

76

77

75

81

2012175

Lina Nur Aini

77

84

78

85

92

89

77

82

2012176

Ananda Anugrah

78

86

84

77

78

77

75

75

2012177

Putri Khadijah

82

82

81

91

90

82

79

91

2012178

Ika Inayah

75

75

70

82

75

75

79

75

2012179

Wa Ode Sofia Z.

77

75

75

89

80

80

75

75

2012180

Budy Santoso

77

76

70

77

77

80

75

80

2012181

Andi Eka Murti

79

76

75

84

77

81

76

77

2012182

Ahsan Muhajir

80

75

75

75

75

78

77

79

2012183

Siswan Sumargo

76

71

75

75

77

81

79

84

2012184

Anis Fadilah

80

77

75

78

78

77

77

80

Iterasi ke-1

1. Penentuan pusat awal cluster

Untuk penentuan awal di asumsikan:

Diambil data ke- 2 sebagai pusat Cluster Ke-1: (84, 76, 79, 77, 76, 77, 75, 81)

Diambil data ke- 5 sebagai pusat Cluster Ke-2: (82, 82, 81, 91, 90, 82, 79, 91)

2. Perhitungan jarak pusat cluster

Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance, kemudian akan didapatkan matrik jarak yaitu C1 dan C2 sebagai berikut:

Rumus Euclidian distance

Matematika

Fisika

Kimia

Biologi

Sejarah

Akuntansi

Sosiologi

Geografi

C1

C2

Jarak Terpendek

79

75

75

85

76

78

76

80

10.44

21.726

10.44030651

84

76

79

77

76

77

75

81

0

24.021

0

77

84

78

85

92

89

77

82

24.145

14.56

14.56021978

78

86

84

77

78

77

75

75

14.177

26.038

14.17744688

82

82

81

91

90

82

79

91

24.021

0

0

75

75

70

82

75

75

79

75

15.652

28.81

15.65247584

77

75

75

89

80

80

75

75

16.462

22.136

16.46207763

77

76

70

77

77

80

75

80

11.874

26.23

11.87434209

79

76

75

84

77

81

76

77

11.136

22.472

11.13552873

80

75

75

75

75

78

77

79

6.8557

27.092

6.8556546

76

71

75

75

77

81

79

84

12.288

25.846

12.28820573

80

77

75

78

78

77

77

80

6.5574

22.978

6.557438524

3. Pengelompokkan data

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group.

G1    
No

C1

C2

1

1

0

2

1

0

3

0

1

4

1

0

5

0

1

6

1

0

7

1

0

8

1

0

9

1

0

10

1

0

11

1

0

12

1

0

4. Penentuan pusat cluster baru

Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut:

Nama

Matematika

Fisika

Kimia

Biologi

Sejarah

Akuntansi

Sosiologi

Geografi

Cluster baru

Afgansyah

79

75

75

85

76

78

76

80

78.5

79.5

Denny Sumargo

84

76

79

77

76

77

75

81

76.2

83

Lina Nur Aini

77

84

78

85

92

89

77

82

75.3

79.5

Ananda Anugrah

78

86

84

77

78

77

75

75

79.9

88

Putri Khadijah

82

82

81

91

90

82

79

91

76.9

91

Ika Inayah

75

75

70

82

75

75

79

75

78.4

85.5

Wa Ode Sofia Z.

77

75

75

89

80

80

75

75

76.4

78

Budy Santoso

77

76

70

77

77

80

75

80

78.6

86.5

Andi Eka Murti

79

76

75

84

77

81

76

77

 

 

Ahsan Muhajir

80

75

75

75

75

78

77

79

 

 

Siswan Sumargo

76

71

75

75

77

81

79

84

 

 

Anis Fadilah

80

77

75

78

78

77

77

80

 

 

Iterasi Ke-2

5. Ulangi langkah ke 2 (kedua) hingga posisi data tidak mengalami perubahan.

Cluster baru yang ke-1

78.5

76.2

75.3

79.9

76.9

78.4

76.4

78.6

Cluster baru yang ke-2

79.5

83

79.5

88

91

85.5

78

86.5

Matematika

Fisika

Kimia

Biologi

Sejarah

Akuntansi

Sosiologi

Geografi

C1

C2

Jarak Terpendek

79

75

75

85

76

78

76

80

5.557

20.518

5.556977596

84

76

79

77

76

77

75

81

7.9297

22.956

7.929691041

77

84

78

85

92

89

77

82

21.182

7.2801

7.280109889

78

86

84

77

78

77

75

75

14.088

23.13

14.08829301

82

82

81

91

90

82

79

91

23.381

7.2801

7.280109889

75

75

70

82

75

75

79

75

9.0044

26.646

9.004443348

77

75

75

89

80

80

75

75

10.662

19.596

10.66208235

77

76

70

77

77

80

75

80

6.729

23.324

6.729041537

79

76

75

84

77

81

76

77

5.1653

19.9

5.165268628

80

75

75

75

75

78

77

79

5.6639

24.96

5.663920903

76

71

75

75

77

81

79

84

10.004

23.854

10.0039992

80

77

75

78

78

77

77

80

3.4756

21

3.475629439

Langkah selanjutnya sama dengan langkah pada nomor 3 jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

G2    
No

C1

C2

1

1

0

2

1

0

3

0

1

4

1

0

5

0

1

6

1

0

7

1

0

8

1

0

9

1

0

10

1

0

11

1

0

12

1

0

Karena G2 = G1 memiliki anggota yang sama maka tidak perlu dilakukan iterasi/perulangan lagi. Hasil clustering telah mencapai stabil dan konvergen.

Contoh Kasus dengan Algoritma K-Medoids

Diketahui sepuluh data dengan k = 2

No

X1

X2

1

2

6

2

3

4

3

3

8

4

4

7

5

6

2

6

6

4

7

7

3

8

7

4

9

8

5

10

7

6

Langkah 1

Misalkan kita asumsikan  

Jadi   dipilih sebagai medoids.

Hitung jarak untuk menghubungkan setiap objek data yang terdekat dengan. Nilai yang terdekat dengan medoids dapat dilihat pada tabel.

 

Data Objek

Cost

 

1

3

4

2

6

3

 

3

3

4

3

8

4

 

4

3

4

4

7

4

 

5

3

4

6

2

5

 

6

3

4

6

4

3

 

7

3

4

7

3

5

 

9

3

4

8

5

6

 

10

3

4

7

6

6

 

 

Data Objek

Cost

 

1

7

4

2

6

7

 

3

7

4

3

8

8

 

4

7

4

4

7

6

 

5

7

4

6

2

3

 

6

7

4

6

4

1

 

7

7

4

7

3

1

 

9

7

4

8

5

2

 

10

7

4

7

6

2

 

Sehingga clusternya menjadi:

Langkah 2

Pilih satu cluster yang bukan medoids misalkan

Jadi sekarang medoidnya adalah 

Jika   adalah medoid baru, maka hitung totalnya menggunakan rumus pada langkah 1

 

Data Objek

Cost

 

1

3

4

2

6

3

 

3

3

4

3

8

4

 

4

3

4

4

7

4

 

5

3

4

6

2

5

 

6

3

4

6

4

3

 

7

3

4

7

4

4

 

9

3

4

8

5

6

 

10

3

4

7

6

6

 

 

Data Objek

Cost

 

1

7

3

2

6

8

 

3

7

3

3

8

9

 

4

7

3

4

7

7

 

5

7

3

6

2

2

 

6

7

3

6

4

2

 

7

7

3

7

4

1

 

9

7

3

8

5

3

 

10

7

3

7

6

3

 

Sehingga total costnya

Karena Total cost baru > Total cost awal, maka tidak terjadi pertukaran posisi.

BY: imran Alwi

Artikel terkait

Belum ada komentar, Jadilah yang pertama mengomentari.