Saturday, September 28, 2013

PASCA: Ekonometrika (2) BAB 2 DISTRIBUSI, CENTER, DAN PENYEBARAN



Untuk lebih memahami data, cara yang banyak digunakan adalah dengan cara menyortir data terlebih dahulu. Dalam menyortir data, kita harus mengerti 3 hal berikut: distribusi, center, dan penyebaran data.
A.      Bentuk Distribusi
Distribusi unimodal adalah distribusi yang memiliki 1 modus. Contoh data dengan distribusi unimodal dan miring kekanan adalah:
Bin adalah kotak yang ingin kita buat, disebut juga kategori atau kelas. Kita dapat merubah bentuk histogram dan merubah modus dengan merubah ukuran bin.
B.      Tiga Metode untuk Mengukur Center Distribusi
1.       Mean / Rata-rata
Mean atau average adalah penjumlahan seluruh data dibagi dengan jumlah data. Mean dapat menjadi indikator kemiringan distribusi suatu data. Mean sangat sensitive terhadap angka, dengan menghilangkan satu data saja dapat merubah angka mean cukup banyak. Mean sangat dipengaruhi oleh outliers (pencilan). Mean merupakan alat pengukuran center yang baik jika data yang dihitung tidak memiliki outliers dan distribusinya normal, tidak miring.
2.       Median
Cara menghitung: diurutkan nilai terkecil sampai terbesar, diambil nilai yang ada di tengah. Contoh data: 8,8,9,10,12,12,20,20,20,20,20. Median di 12.
Median tidak sensitif terhadap outliers, jika data satu individual dirubah, maka angka median hanya akan berubah sedikit saja. Jika distribusi data simetris maka angka mean dan median tidak jauh berbeda, namun jika distribusi miring kekanan atau kekiri maka median merupakan alat ukur yang lebih akurat dalam menunjukkan center suatu data.
3.       Mode / Modus : nilai yang paling sering muncul
Jika datanya memiliki distribusi bimodal, maka mean dan median tidak dapat menggambarkan center dengan tepat, disinilah digunakan modus. Contoh data dengan distribusi bimodal adalah penggabungan data GDP 20 negara Afrika yang merupakan gabungan Negara-negara miskin dan 20 negara Eropa yang merupakan gabungan Negara-negara kaya.
C.      Dua Metode untuk Melihat Penyebaran Data
Spread, penyebaran data menjelaskan seberapa jauh data bergerak dari center. Pengukuran center saja dapat menimbulkan interpretasi yang menyesatkan atas suatu data, oleh karena itu harus digunakan spread juga. Salah satu pengukuran penyebaran data adalah range, yaitu perbedaan antara angka maksimum dan minimum dalam suatu data. Akan tetapi penggunaan range akan menyesatkan jika terdapat outliers. Satu saja angka outliers muncul akan mengubah range menjadi sangat lebar. Metode yang lebih sering digunakan dalam mengukur penyebaran data adalah SD (Standard Deviation) untuk yang sebarannya normal dan IQR (Inter Quartile Range) untuk yang sebarannya tidak normal.

1.       Standard Deviation (Standar Deviasi)
Metode standar dalam mengukur penyebaran data adalah Standar Deviasi, yang dihitung melalui 4 langkah berikut:
-          Hitung deviasi individual dari mean (X-)
-          Pangkatkan (X-)2
-          Hitung rata-ratanya (X-)2 /n, disebut variance
-          Akarkan (X-)2 /n. Ini adalah angka standar deviasi
Standar deviasi hanya digunakan jika nilai center yang digunakan adalah mean, data yang digunakan tidak memiliki outliers dan tidak miring, memiliki distribusi normal.
Contoh data yang memiliki distribusi normal:
Jika data yang diamati penyebarannya semakin jauh dari center, maka standar deviasi akan semakin besar.
Semakin besar nilai SD (standar deviasi) semakin datar/landai gambarnya.
a.       Situasi dimana Standar Deviasi bukan alat ukur yang bagus
Standar deviasi akan menghasilkan angka yang tidak sesuai dengan data sebenarnya jika data yang digunakan tidak simetris dan tidak unimodal, serta distribusinya tidak normal. Contohnya jika data yang digunakan miring kekanan karena banyak outliers / pencilan disebelah kanan distribusi.
Law of large number: semakin besar data yang diamati (n) maka akan semakin mendekati normal.
2.       Inter Quartile Range (IQR)
Untuk mengukur penyebaran data tidak normal digunakan IQR yang dapat diketahui secara langsung dengan menggunakan Boxplot. Box plot adalah visualisasi rangkuman data numerik, digunakan untuk menjelaskan distribusi dengan bentuk yang umum, seperti jika ingin membandingkan dua set data yang berbeda. Boxplot tidak seakurat stemplot karena hanya merupakan kesimpulan, akan tetapi lebih baik dibandingkan mean dan standar deviasi. Boxplot memberikan informasi center (median) dan penyebaran (spread) serta beberapa pencilan. Akan tetapi distribusi hanya dapat dijelaskan dengan stemplot atau frequency histogram.
Ukuran penyebaran yang tidak terpengaruh dengan pencilan adalah IQR. IQR berasal dari ide boxplot, sehingga penggunaan IQR untuk data bimodal tidak akurat. Pencilan harus disikapi dengan bijaksana karena ditentukan oleh alasan kenapa pencilan tersebut muncul. Jika merupakan kesalahan pengukuran maka sebaiknya pencilan dihilangkan, tetapi jika tidak pencilan dapat menceritakan kondisi yang sebenarnya.
Semakin besar IQR semakin jauh gap data.



Fasilitator: Hendry Tandjung, Ph.D.

No comments: