[Lengkap] Uji data statistik: data yang hilang (missing value) dan penjelasannya

Statistical data test: missing data and how to explain it

Hallo sahabat yang sehat dan bahagia selalu, jumpa lagi dengan penulis. Tulisan kali ini penulis membagikan tutorial uji data missing value. Penulis menjelaskan semua tahapan proses serta kesimpulan dari hasil pengukuran.

Definisi missing value

Missing value termasuk hal yang sering muncul dalam data statistik. Hanya saja kita kadang-kadang mengabaikannya. Kemudian menganggap hal itu kurang penting. Pada hal jika tidak ditangani dengan baik maka dapat mempengaruhi kemampuan menjelaskan dari hasil uji suatu data analisis atau pun teknik analisis tertentu.

Pada dasarnya missing value menurut Santoso (2012) merupakan informasi yang tak tesedia sebagai sebuah subjek atau kasus. Kemudian dalam terminologi SPSS sesungguhnya adalah sel-sel yang kosong pada satu atau sejumlah variabel.

Menurut (Marissa; Makar; Akhriza, 2021) bahwa missing value adalah kondisi yang menunjukkan adanya data yang hilang atau tidak lengkap dalam suatu basis data.

Penyebab munculnya missing value

Munculnya missing value menurut Santoso (2012) karena informasi pada suatu objek tidak diberikan, sukar dicari atau memang informasi tersebut tidak ada.

Contoh kasus

Bagaimana mengetahui keacakan missing value dalam basis data kita? Hal ini tentu perlu diuji. Dalam pengujian ini penulis menggunakan panduan Santoso (2012)
Terdapat data-data konsumen sebanyak 30 orang yang digolongkan berdasarkan minat membeli produk A dengan ketentuan sebagai berikut:
a. (Rendah) Memiliki minat yang rendah terhadap produk A dengan kode 0 (nol)
b. (Tinggi) Memiliki minat yang tinggi terhadap produk A dengan kode 1 (satu)
Adapun data lainnya yang bertipe rasio yaitu umur, berat badan, tinggi badan, penghasilan dan jam kerja. Berdasarkan kasus tersebut akan dilihat apakah missing value yang terjadi pada data di atas bersifat random (acak) atau tidak. Kemudian bagaimana penjelasannya. Untuk itu dilakukan uji keacakan missing value sebagai berikut:

Membangun basis data

1. Double klik SPSS sehingga tampil lembar kerja, penulis menggunakan SPSS versi 20.
2. Membangun basis data dengan klik Variabel View
3. Pada kolom name isikan nama variabel: nama responden, minat, umur, berat badan, tinggi badan, penghasilan, jam kerja
4. Pada kolom type aktifkan string pada baris nama. Selebihnya kosongkan karena merupakan data numeric.
5. Pada kolom width isikan angka 20 pada baris nama. Ini untuk menampung jumlah karakter nama
6. Pada kolom decimal isikan saja angka 2 agar data memiliki dua decimal. Jika tidak ingin mengisinya juga tidak masalah.
7. Pada kolom label ketikan nama variabel secara lengkap. Biasanya ini penting juga untuk mengenali variabel dan terlihat profesional pada summary out.
8. Pada kolom values klik pada sel yang sebaris dengan variabel minat kemudian pada kolom value isikan angka angka 1 dan pada kolom label isikan “tinggi” lalu klik add. Ulangi lagi tetapi kali ini pada kolom value isikan angka angka 0 dan pada kolom label isikan “rendah” lalu klik add.
9. Pada kolom missing, columns, align, measure, role abaikan saja
10. Setelah semuanya siap lalu klik data view isikan atau lakukan entri data yang berasal dari kuesioner.
11. Hasilnya berupa tabulasi data seperti ini:

Tampilan di atas merupakan ringkasan saja. Jumlah responden sebenarnya sebanyak 30 responden hanya saja tidak ditampilkan secara keseluruhan.

Uji keacakan missing value

Pengujian keacakan missing value untuk melihat apakah missing value tersebut terjadi secara random (acak) atau tidak. Berikut tahapannya:

1. Tampilkan data view yang sudah dibuat

2. Klik menu Analyze-Missing value analysis…seperti ini:

3. Masukan variabel umur, berat badan, tinggi badan, penghasilan, jam kerja ke kotak Quantitative variabels
4. Masukan variabel minat kekotak Categorical variabels
5. Masukan variabel nama (nama responden) kekotak case labels
6. Pada kotak Estimation klik kotak Listwise, Pairwise, EM
7. Klik ikon Patterns aktifkan Tabulated cases… dan Cases with missing values…biarkan yang lain lalu Continue
8. Klik ikon Descriptive pada bagian Indicator variable statistics aktifkan Percent mismatch dan Crosstabulation of….
9. Klik Continue abaikan yang lain lalu Ok
10. Hasil uji keacakan missing value ditampilkan hanya pada bagian yang relevan saja sebagai berikut:

Berdasarkan hasil di atas, jika di deskripsikan masing-masing variabel berdasarkan missing value menunjukkan pada kolom N terlihat ada variasi angka berdasarkan data yang hilang (missing). Pada variabel umur dari 30 responden hanya ada 27 yang terisi. Ini artnya ada 3 data yang missing pada variabel usia. Kemudian berat badan dan tinggi badan hanya ada 26 dan 27 yang terisi.

Begitu pun pada variabel penghasilan dan jam kerja hanya ada 27 dan 26 yang terisi. Adapun data minat semuanya terisi lengkap. Informasi ini dapat juga diliht pada kolom missing (count) yang menunjukka banyaknya data yang hilang dari masing-masing variabel. Persentase data yang hilang dapat dilihat pada kolom percent misalnya ada 10% data usia yang hilang dan seterusnya.

Pada kolom mean dan std. deviation merupakan nilai statistik dasar. Terlihat rata-rata dan deviasi standar pada masing-masing variabel. Angka tersebut dihitung berdasarkan jumlah data yang valid (tidak missing). Pada variabel umur rata-rata umur konsumen berkisar 36,93 tahun dengan standar deviasi 6,53 tahun demkian seterusnya.

Tabel di atas adalah pengembangan dari perhitungan rata-rata pada tabel sebelumnya.
a. Jika menggunakan metode Listwise maka umur konsumen secara rata-rata menjadi 36,23 tahun. Kemudian berat badan menjadi 73,93 tahun, tinggi badan menjadi 158,36 cm dan demikian seterusnya.
b. Jika menggnakan metode all value maka nilai sama dengan hasil pada tabel sebelumnya. Misalnya pada variabel umur 36,93 tahun sama dengan tabel sebelumnya demikian seterusnya.
c. Jika enggunakan metode EM menunjukkan rata-rata umur menjadi 36,92 tahun dan berat badan 59,79 tahun, begitupun untuk variabel lainnya.

Berdasarkan hasil di atas bentuk tabulasi silang pada data kategori yaitu:

Pada variabel umur dari 27 data yang valid (tersedia) ada 12 responden yang memiliki minat rendah membeli dan 15 responden memiliki minat yang tinggi. Dalam persentase missing value sebanyak 14,3 persen data yang missing terdapat pada minat yang rendah dan 6,3 persen data yang missing ada pada minat yang tinggi. Pada angka total merupakan rata-rata 10 persen dari angka 14,3 persen dan 6,3 persen. Begitupun seterusnya untuk variabel yang lain.

Terlihat pada tabel di atas semua variabel di tampilkan. Hal ini menunjukkan secara keseluruhan variabel memiliki missing value yang banyak lebih dari 5 persen dari total 30 data. Jika ada variabel dengan missing value kurang dari 5 persen maka tak akan di tampilkan dalam hasil tesebut.

Penyebaran missing data dapat dilihat dari hasil di bawah ini:

Pola penyebaran di atas hanya untuk konsumen yang memiliki data missing. Contohnya untuk konsumen bernama Anita tidak ada dalam tabel di atas karena tidak memiliki data missing (data lengkap). Adapun pada tabel di atas juga menunjukkan konsumen bernama Moh. Arif nampak pada kolom #missing memiliki 1 missing data yaitu pada variabel penghasilan. Karena memiliki 1 missing data dari 6 variabel yang ada maka jika di hitung persentasenya 1/6 x 100% = 16,7% seperti pada kolom % missing.

Pada konsumen bernama Nazma memiliki 2 missing data terdapat pada variabel jam kerja dan berat badan. Persentasenya adalah 2/6 x 100% = 33,3% seperti yang terdapat pada kolom % missing.

Adapun jika ingin melihat missing value dari sisi lain yang dinyatakan per-variabel di tunjukkan dalam tabel sebagai berikut:

Berdasarkan tabel di atas menunjukkan ada 14 data konsumen yang lengkap atau tidak terdapat missing value di semua variabel. Kondisi ini yang dimaksudkan pada pengukuran secara listwise. Terlihat ada angka 3 pada kolom number of casus artinya ada sebanyak 3 data missing value pada variabel penghasilan. Hal ini bisa dibuktikan pada tabel missing patterns data konsumen yang mengandung missing value adalah Moh.Arif, Rizkiyanto dan Azmil. Begitupun seterusnya.

Sebagaimana menggunakan metode listwise dimana semua data yang mengandung missing value akan dihilangkan. Jadi hanya ada 14 data dari 30 data konsumen yang dinilai layak karena tidak ada data missing. Baru kemudian menghitung korelasi antar variabel pada 14 data konsumen. Sebagai pedoman (Santoso, 2012) menyatakan bahwa jika korelasi dibawah 0,5 maka ada sedikit pengaruh missing data suatu variabel terhadap terjadinya missing data dari variabel ainnya.

Misalnya pada angka 0,236 menunjukkan besarnya korelasi antara variabel penghasilan dengan variabel umur. Angka korelasi ini menunjukkan bahwa terjadinya missing value pada variabel penghasilan berpengaruh lemah terhadap terjadinya missing value pada variabel umur. Hal ini pada dasarnya "baik" karena menunjukkan tingginya keacakan missing value.

Pada metode pairwise variabel yang memiliki data lengkap akan dipasangkan dan tidak menghilangkan baris. Jadi jumlah data bisa berbeda tegantung kelengkapan data dari dua varabel yang diasangkan. Misalnya apabila umur dan berat badan dipasangkan maka ada 23 data yang valid sedangkan sisanya 7 data (30-23) dalam kondisi tidak valid. Selanjutnya jika yang dipasangkan adalah umur dan tinggi badan maka ada 24 data yang valid dan 6 data tidak valid. Begitu pun seterusnya.

Pada dasarnya tabel di atas sama dengan penjelasan sebelumnya pada tabel analisis korelasi antar variabel dengan metode listwise. Tidak ada data yang memiliki angka korelasi di atas 0,5 sehingga dapat dikatakan pola missing value pada data konsumen adalah random (acak).

Hasil di atas nampak memiliki pola yang hampir sama dengan dua metode korelasi sebelumnya yaitu metode listwise dan metode pairwise. Nampak bahwa tidak ada angka di atas 0,5 sehingga dapat dikatakan penyebaran pola missing value pada data konsumen bersifat random (acak).

Kelebihan lain dari metode EM yaitu menyediakan alat uji MCAR seperti pada pedoman yang diberikan Santoso (2012):
a. Angka signifikan MCAR (Prob)>0,05, missing value adalah random (acak)
b. Angka signifikan MCAR (Prob)<0,05, missing value adalah tidak random (tidak acak)
Terlihat pada hasil di atas menunjukkan nilai MCAR yang ditunjukkan melalui alat analisis Chi-Square sebesar 15,675 dengan angka signifikansi (prob) sebesar 0,869 yang jauh di atas 0,05. Dengan demikian membuktikan missing value yang terjadi pada data konsumen dalam contoh kasus ini adalah bersifat random (acak). Oleh karena tidak memiliki pola tertentu maka menurut Santoso (2012) dapat dilakukan berbagai perlakuan lanjutan.

Sahabat sekalian. Penulis mohon maaf ya, tulisannya jadi kepanjangan. Hal ini semata-mata supaya memberikan pemahaman yang lebih sederhana kepada pembaca. Mudah-mudahan tulisan tersebut bermanfaat bagi yang membutuhkannya. Terima kasih sudah membaca tulisan di atas. Semoga sahabat diberikan kesehatan dan bahagia selalu.