🏆 MA1420 · DATA SAINS · SESI 08

Ujian Tengah Semester

Saatnya mengukur pemahaman Anda terhadap materi sesi 1–7. Halaman ini berisi kisi-kisi ujian, rangkuman rumus penting, dan 10 soal latihan dengan pembahasan lengkap.

BOBOT

30%

DURASI

90 menit

JUMLAH SOAL

25–30

SIFAT

Tutup buku

MATERI

Sesi 1–7

Kisi-Kisi Ujian Tengah Semester

TOPIK

% SOAL

SESI 1

Pengantar Data Sains

Definisi, pipeline, skill, library Python dasar

10%

SESI 2

Statistik Deskriptif I

Mean, median, modus, variance, std, IQR, outlier

20%

SESI 3

Statistik Deskriptif II — Visualisasi

Pilih chart yang tepat, skewness, kurtosis, distribusi normal, Q-Q plot

15%

SESI 4

Statistik Inferensi I — Estimasi & CI

Populasi vs sampel, CLT, confidence interval, interpretasi CI

20%

SESI 5

Statistik Inferensi II — Uji Hipotesis

H₀ vs H₁, p-value, uji t, error tipe I & II, chi-square

20%

SESI 6

Tipe Data I — Klasifikasi

Nominal, ordinal, diskrit, kontinu, skala Stevens, operasi yang diizinkan

10%

SESI 7

Tipe Data II — Penanganan Khusus

Datetime, missing values (MCAR/MAR/MNAR), imputasi, encoding

Rumus-Rumus Penting yang Perlu Dikuasai

MEAN & VARIANCE x̄ = Σxᵢ / n s² = Σ(xᵢ − x̄)² / (n−1) Pembagi (n−1) untuk variansi sampel (Bessel's correction)

DETEKSI OUTLIER (IQR) IQR = Q3 − Q1 Batas Bawah = Q1 − 1.5×IQR Batas Atas = Q3 + 1.5×IQR Nilai di luar batas = outlier

CONFIDENCE INTERVAL (MEAN) CI = x̄ ± z* × (s / √n) z*(90%)=1.645 z*(95%)=1.960 z*(99%)=2.576 SE = s/√n = standard error

UJI t SATU SAMPEL t = (x̄ − μ₀) / (s / √n) df = n − 1 Tolak H₀ jika p-value ≤ α (atau |t| > t_kritis)

PAIRED t-TEST d_i = x_sesudah_i − x_sebelum_i t = d̄ / (s_d / √n) H₀: d̄ = 0 (tidak ada perubahan)

CHI-SQUARE χ² = Σ (O−E)² / E E = (total baris × total kolom) / N df = (r−1)(c−1) Untuk data kategorikal

Peta Materi Sesi 1–7

Pengantar Data SainsPipeline 5 langkah, library Python, role data scientist

Statistik Deskriptif IMean/median/modus, variance, std, IQR, outlier

Visualisasi & DistribusiPilih chart, skewness ±, kurtosis, normalitas

Estimasi & CICLT, CI = x̄ ± z*SE, interpretasi benar CI

Uji HipotesisH₀/H₁, p-value, uji-t, error I & II, chi-square

Tipe Data INominal/ordinal/diskrit/kontinu, skala Stevens

Tipe Data IIDatetime, MCAR/MAR/MNAR, imputasi, OHE

Soal Latihan UTS — 10 Soal Pilihan Ganda

SKOR LATIHAN ANDA 0 / 10

Jawab semua soal untuk melihat evaluasi Anda.

SOAL 01 Sesi 2 · Statistik Deskriptif I

Data nilai UAS: 70, 75, 80, 80, 85, 90, 92, 95, 100, 200. Ukuran pemusatan mana yang PALING TEPAT digunakan dan mengapa?

✓ Benar! B. Dengan adanya outlier 200 (jauh di atas nilai lain), mean menjadi 96.7 — sangat menyesatkan karena 9 dari 10 mahasiswa nilainya di bawah 95. Median = 87.5 (rata-rata nilai ke-5 dan ke-6: (85+90)/2) lebih representatif karena tidak terpengaruh nilai ekstrem. Ini adalah kasus klasik kapan memilih median daripada mean.

SOAL 02 Sesi 2 · IQR & Outlier

Data berikut: 12, 15, 18, 20, 22, 25, 28, 30, 35, 80. Q1 = 17, Q3 = 29. Berapakah batas atas deteksi outlier dengan metode IQR?

IQR = Q3 − Q1 = 29 − 17 = 12 Batas Bawah = Q1 − 1.5 × IQR = ? Batas Atas = Q3 + 1.5 × IQR = ?

✓ Benar! B. Perhitungan: IQR = 29 − 17 = 12. Batas Atas = Q3 + 1.5×IQR = 29 + 1.5×12 = 29 + 18 = 47. Karena 80 > 47, maka 80 adalah outlier. Batas Bawah = 17 − 18 = −1 (tidak ada nilai di bawahnya). Nilai 80 jelas sangat jauh dari rentang normal data lainnya (12–35).

SOAL 03 Sesi 3 · Visualisasi

Seorang analis ingin membandingkan distribusi nilai ujian antara tiga angkatan mahasiswa sekaligus, termasuk melihat outlier masing-masing. Visualisasi apa yang PALING TEPAT?

✓ Benar! C. Boxplot berdampingan adalah pilihan terbaik karena: (1) bisa menampilkan distribusi beberapa kelompok sekaligus, (2) menampilkan median, Q1, Q3, dan outlier dalam satu gambar, (3) mudah dibandingkan antar kelompok. Pie chart hanya untuk proporsi, line chart untuk tren waktu, scatter plot untuk hubungan dua variabel numerik.

SOAL 04 Sesi 3 · Skewness

Sebuah histogram nilai ujian menunjukkan puncak di sebelah kiri dan ekor panjang ke arah kanan. Pernyataan mana yang BENAR?

✓ Benar! B. Ekor panjang ke kanan = skewed positif (+). Nilai-nilai besar yang jarang muncul (di ekor kanan) menarik mean ke kanan, sehingga Mean > Median. Puncak (modus) ada di kiri, median di tengah, mean paling kanan. Ini berbeda dengan skewed negatif yang ekornya ke kiri dan Mean < Median.

SOAL 05 Sesi 4 · Confidence Interval

Sampel 64 mahasiswa memberikan rata-rata tinggi badan x̄ = 168 cm dengan standar deviasi s = 8 cm. Hitung 95% Confidence Interval untuk rata-rata tinggi badan populasi.

Diketahui: n = 64, x̄ = 168, s = 8, z*(95%) = 1.960 SE = s / √n = ? CI = x̄ ± z* × SE = ?

✓ Benar! B. Langkah: SE = 8/√64 = 8/8 = 1. ME = z* × SE = 1.960 × 1 = 1.96. CI = [168 − 1.96, 168 + 1.96] = [166.04, 169.96]. Perhatikan: SE = 1 (sangat kecil) karena n=64 cukup besar — sesuai CLT, sampel besar menghasilkan estimasi yang lebih presisi (CI lebih sempit).

SOAL 06 Sesi 4 · Interpretasi CI

Peneliti menghasilkan 95% CI = [72, 84] untuk rata-rata nilai matematika. Mana interpretasi yang PALING BENAR?

✓ Benar! C. Ini adalah interpretasi frekuentis yang benar untuk CI. CI mengacu pada prosedur/metode, bukan probabilitas dari satu interval spesifik. Pilihan A terdengar benar tapi teknisnya keliru — μ sudah memiliki nilai tetap, bukan berprobabilitas. Pilihan C menjelaskan bahwa yang "95%" adalah metode-nya, bukan interval yang sudah dihasilkan.

SOAL 07 Sesi 5 · Uji Hipotesis

Peneliti menguji apakah metode belajar baru meningkatkan rata-rata nilai UAS (sebelumnya μ = 70). Dari sampel 30 mahasiswa didapat x̄ = 74, s = 10, α = 0.05. Nilai t-hitung = 2.19 dan t-kritis (df=29, α=0.05, 1-arah) = 1.699. Keputusannya?

✓ Benar! A. t-hitung = 2.19 > t-kritis = 1.699 → Tolak H₀. Ini uji satu arah (H₁: μ > 70) karena peneliti spesifik ingin membuktikan peningkatan. Perlu diingat: menolak H₀ bukan karena x̄ > μ semata (pilihan C salah logikanya) — keputusan berbasis statistik uji, bukan perbandingan nilai mentah. Pilihan D salah: uji-t valid untuk n berapa pun selama asumsi terpenuhi.

SOAL 08 Sesi 5 · Error Tipe I & II

Sebuah algoritma deteksi kanker diuji. H₀: "pasien sehat". Dokter memperketat ambang batas (α dari 0.05 menjadi 0.001) agar mengurangi "alarm palsu". Konsekuensinya?

✓ Benar! B. Trade-off antara Error Tipe I (α) dan Tipe II (β) adalah fundamental — menurunkan satu akan menaikkan yang lain (untuk ukuran sampel tetap). Dengan α=0.001, ambang penolakan H₀ jauh lebih ketat → lebih sedikit positif → lebih banyak kanker lolos tidak terdeteksi (Error Tipe II ↑). Cara mengurangi keduanya sekaligus: perbesar ukuran sampel n.

SOAL 09 Sesi 6 · Skala Pengukuran

Empat variabel berikut: (1) Nomor telepon, (2) Peringkat kepuasan 1–5, (3) Suhu dalam °Celsius, (4) Berat badan dalam kg. Pasangkan masing-masing dengan skala pengukuran yang tepat.

✓ Benar! A. (1) Nomor telepon = Nominal — hanya label, tidak ada urutan/makna matematis. (2) Peringkat 1–5 = Ordinal — ada urutan, jarak tidak pasti. (3) Suhu °C = Interval — ada urutan & jarak sama, tapi 0°C bukan "tidak ada suhu" (nol relatif). (4) Berat badan = Rasio — ada nol absolut (0 kg = tidak ada), 80 kg memang 2× 40 kg.

SOAL 10 Sesi 7 · Missing Values

Dataset survei gaji memiliki 25% nilai missing pada kolom "pendapatan_bulanan". Analisis menunjukkan responden dengan pendapatan rendah lebih banyak yang tidak mengisi. Tindakan TERBAIK adalah?

✓ Benar! C. Ini adalah kasus MNAR (Missing Not At Random) — pendapatan rendah adalah penyebab data missing. Mengisi dengan mean/median dari yang mengisi akan overestimate rata-rata pendapatan karena yang mengisi cenderung bergaji lebih tinggi. Menghapus 25% baris juga memperparah bias. Solusi terbaik: gunakan model yang mengakui MNAR, atau upayakan pengumpulan data ulang untuk yang missing.

SKOR AKHIR ANDA 0 / 10

Selesaikan semua soal untuk evaluasi lengkap.

Tips Menghadapi UTS

📖

Review Rumus Kunci

Hafalkan rumus CI, uji-t, IQR outlier, dan chi-square. Latih menghitung manual tanpa kalkulator.

🎯

Prioritas Materi

Sesi 4 (CI) dan Sesi 5 (Uji Hipotesis) masing-masing 20% soal — kuasai keduanya dengan baik.

🔍

Baca Soal Teliti

Perhatikan: apakah uji satu arah atau dua arah? σ diketahui atau tidak? n besar atau kecil?

📊

Konteks Interpretasi

Selalu terjemahkan hasil statistik ke konteks nyata. "p=0.03" → "ada bukti signifikan bahwa..."

⏱️

Manajemen Waktu

90 menit untuk ~28 soal ≈ 3 menit/soal. Lewati soal sulit, kerjakan yang mudah dulu, kembali lagi.

🧠

Hindari Jebakan Umum

Jangan bilang "H₀ terbukti benar" (hanya gagal tolak). Jangan pakai mean untuk data ordinal atau saat outlier dominan.

🌟 PESAN SEMANGAT

UTS bukan akhir perjalanan — ini titik tengah untuk mengukur seberapa jauh kita sudah melangkah. Setelah UTS, materi berlanjut ke topik yang lebih praktis dan menarik: pembersihan data, transformasi, korelasi, dan machine learning.

Selamat mengerjakan UTS. Semoga sukses, Mahasiswa MA1420! 🎓

← Sesi 7: Tipe Data II Sesi 9: Pembersihan Data →