Untuk lebih memahami data, cara yang banyak digunakan adalah
dengan cara menyortir data terlebih dahulu. Dalam menyortir data, kita harus
mengerti 3 hal berikut: distribusi, center, dan penyebaran data.
A.
Bentuk Distribusi
Distribusi unimodal adalah distribusi yang memiliki
1 modus. Contoh data dengan distribusi unimodal dan miring kekanan adalah:
Bin adalah kotak yang ingin kita buat,
disebut juga kategori atau kelas. Kita dapat merubah bentuk histogram dan
merubah modus dengan merubah ukuran bin.
B.
Tiga Metode untuk Mengukur Center Distribusi
1.
Mean / Rata-rata
Mean atau average adalah penjumlahan seluruh data dibagi dengan jumlah
data. Mean dapat menjadi indikator kemiringan distribusi suatu data. Mean
sangat sensitive terhadap angka, dengan menghilangkan satu data saja dapat
merubah angka mean cukup banyak. Mean sangat dipengaruhi oleh outliers
(pencilan). Mean merupakan alat pengukuran center yang baik jika data yang
dihitung tidak memiliki outliers dan distribusinya normal, tidak miring.
2.
Median
Cara menghitung: diurutkan nilai terkecil sampai terbesar, diambil nilai
yang ada di tengah. Contoh data: 8,8,9,10,12,12,20,20,20,20,20. Median di 12.
Median tidak sensitif terhadap outliers, jika data satu individual
dirubah, maka angka median hanya akan berubah sedikit saja. Jika distribusi
data simetris maka angka mean dan median tidak jauh berbeda, namun jika
distribusi miring kekanan atau kekiri maka median merupakan alat ukur yang
lebih akurat dalam menunjukkan center suatu data.
3.
Mode / Modus : nilai yang paling sering muncul
Jika datanya memiliki distribusi bimodal, maka mean dan median tidak
dapat menggambarkan center dengan tepat, disinilah digunakan modus. Contoh data
dengan distribusi bimodal adalah penggabungan data GDP 20 negara Afrika yang
merupakan gabungan Negara-negara miskin dan 20 negara Eropa yang merupakan
gabungan Negara-negara kaya.
C.
Dua Metode untuk Melihat Penyebaran Data
Spread, penyebaran data menjelaskan
seberapa jauh data bergerak dari center. Pengukuran center saja dapat
menimbulkan interpretasi yang menyesatkan atas suatu data, oleh karena itu
harus digunakan spread juga. Salah satu pengukuran penyebaran data adalah
range, yaitu perbedaan antara angka maksimum dan minimum dalam suatu data. Akan
tetapi penggunaan range akan menyesatkan jika terdapat outliers. Satu saja
angka outliers muncul akan mengubah range menjadi sangat lebar. Metode yang
lebih sering digunakan dalam mengukur penyebaran data adalah SD (Standard
Deviation) untuk yang sebarannya normal dan IQR (Inter Quartile Range) untuk
yang sebarannya tidak normal.
1.
Standard Deviation (Standar Deviasi)
Metode standar dalam mengukur penyebaran data adalah Standar Deviasi,
yang dihitung melalui 4 langkah berikut:
-
Hitung deviasi individual dari mean (X-)
-
Pangkatkan (X-)2
-
Hitung rata-ratanya (X-)2 /n, disebut
variance
-
Akarkan (X-)2 /n. Ini adalah
angka standar deviasi
Standar deviasi hanya digunakan jika nilai center yang digunakan adalah
mean, data yang digunakan tidak memiliki outliers dan tidak miring, memiliki
distribusi normal.
Contoh data yang memiliki distribusi normal:
Jika data yang diamati penyebarannya semakin jauh dari center, maka
standar deviasi akan semakin besar.
Semakin besar nilai SD (standar deviasi) semakin datar/landai gambarnya.
a.
Situasi dimana Standar Deviasi bukan alat ukur
yang bagus
Standar deviasi akan menghasilkan angka yang tidak sesuai dengan data
sebenarnya jika data yang digunakan tidak simetris dan tidak unimodal, serta
distribusinya tidak normal. Contohnya jika data yang digunakan miring kekanan
karena banyak outliers / pencilan disebelah kanan distribusi.
Law of large number: semakin besar data yang diamati (n) maka akan
semakin mendekati normal.
2.
Inter Quartile Range (IQR)
Untuk mengukur penyebaran data tidak normal digunakan IQR yang dapat
diketahui secara langsung dengan menggunakan Boxplot. Box plot adalah
visualisasi rangkuman data numerik, digunakan untuk menjelaskan distribusi
dengan bentuk yang umum, seperti jika ingin membandingkan dua set data yang
berbeda. Boxplot tidak seakurat stemplot karena hanya merupakan kesimpulan,
akan tetapi lebih baik dibandingkan mean dan standar deviasi. Boxplot
memberikan informasi center (median) dan penyebaran (spread) serta beberapa
pencilan. Akan tetapi distribusi hanya dapat dijelaskan dengan stemplot atau
frequency histogram.
Ukuran penyebaran yang tidak terpengaruh dengan pencilan adalah IQR. IQR
berasal dari ide boxplot, sehingga penggunaan IQR untuk data bimodal tidak
akurat. Pencilan harus disikapi dengan bijaksana karena ditentukan oleh alasan
kenapa pencilan tersebut muncul. Jika merupakan kesalahan pengukuran maka
sebaiknya pencilan dihilangkan, tetapi jika tidak pencilan dapat menceritakan
kondisi yang sebenarnya.
Semakin
besar IQR semakin jauh gap data.
Fasilitator: Hendry Tandjung, Ph.D.
No comments:
Post a Comment