🏆
MA1420 · DATA SAINS · SESI 08
Ujian Tengah Semester
Saatnya mengukur pemahaman Anda terhadap materi sesi 1–7. Halaman ini berisi kisi-kisi ujian, rangkuman rumus penting, dan 10 soal latihan dengan pembahasan lengkap.
BOBOT
30%
DURASI
90 menit
JUMLAH SOAL
25–30
SIFAT
Tutup buku
MATERI
Sesi 1–7
Kisi-Kisi Ujian Tengah Semester
#
TOPIK
% SOAL
1
SESI 1
Pengantar Data Sains
Definisi, pipeline, skill, library Python dasar
10%
2
SESI 2
Statistik Deskriptif I
Mean, median, modus, variance, std, IQR, outlier
20%
3
SESI 3
Statistik Deskriptif II — Visualisasi
Pilih chart yang tepat, skewness, kurtosis, distribusi normal, Q-Q plot
15%
4
SESI 4
Statistik Inferensi I — Estimasi & CI
Populasi vs sampel, CLT, confidence interval, interpretasi CI
20%
5
SESI 5
Statistik Inferensi II — Uji Hipotesis
H₀ vs H₁, p-value, uji t, error tipe I & II, chi-square
20%
6
SESI 6
Tipe Data I — Klasifikasi
Nominal, ordinal, diskrit, kontinu, skala Stevens, operasi yang diizinkan
10%
7
SESI 7
Tipe Data II — Penanganan Khusus
Datetime, missing values (MCAR/MAR/MNAR), imputasi, encoding
5%
Rumus-Rumus Penting yang Perlu Dikuasai
MEAN & VARIANCE
x̄ = Σxᵢ / n
s² = Σ(xᵢ − x̄)² / (n−1)
Pembagi (n−1) untuk variansi sampel (Bessel's correction)
DETEKSI OUTLIER (IQR)
IQR = Q3 − Q1
Batas Bawah = Q1 − 1.5×IQR
Batas Atas = Q3 + 1.5×IQR
Nilai di luar batas = outlier
CONFIDENCE INTERVAL (MEAN)
CI = x̄ ± z* × (s / √n)
z*(90%)=1.645 z*(95%)=1.960
z*(99%)=2.576
SE = s/√n = standard error
UJI t SATU SAMPEL
t = (x̄ − μ₀) / (s / √n)
df = n − 1
Tolak H₀ jika p-value ≤ α (atau |t| > t_kritis)
PAIRED t-TEST
d_i = x_sesudah_i − x_sebelum_i
t = d̄ / (s_d / √n)
H₀: d̄ = 0 (tidak ada perubahan)
CHI-SQUARE
χ² = Σ (O−E)² / E
E = (total baris × total kolom) / N
df = (r−1)(c−1)
Untuk data kategorikal
Peta Materi Sesi 1–7
S1
Pengantar Data SainsPipeline 5 langkah, library Python, role data scientist
S2
Statistik Deskriptif IMean/median/modus, variance, std, IQR, outlier
S3
Visualisasi & DistribusiPilih chart, skewness ±, kurtosis, normalitas
S4
Estimasi & CICLT, CI = x̄ ± z*SE, interpretasi benar CI
S5
Uji HipotesisH₀/H₁, p-value, uji-t, error I & II, chi-square
S6
Tipe Data INominal/ordinal/diskrit/kontinu, skala Stevens
S7
Tipe Data IIDatetime, MCAR/MAR/MNAR, imputasi, OHE
Soal Latihan UTS — 10 Soal Pilihan Ganda
SKOR LATIHAN ANDA
0 / 10
Jawab semua soal untuk melihat evaluasi Anda.
SOAL 01
Data nilai UAS: 70, 75, 80, 80, 85, 90, 92, 95, 100, 200.
Ukuran pemusatan mana yang PALING TEPAT digunakan dan mengapa?
✓ Benar! B. Dengan adanya outlier 200 (jauh di atas nilai lain), mean menjadi 96.7 — sangat menyesatkan karena 9 dari 10 mahasiswa nilainya di bawah 95. Median = 87.5 (rata-rata nilai ke-5 dan ke-6: (85+90)/2) lebih representatif karena tidak terpengaruh nilai ekstrem. Ini adalah kasus klasik kapan memilih median daripada mean.
SOAL 02
Data berikut: 12, 15, 18, 20, 22, 25, 28, 30, 35, 80.
Q1 = 17, Q3 = 29. Berapakah batas atas deteksi outlier dengan metode IQR?
IQR = Q3 − Q1 = 29 − 17 = 12
Batas Bawah = Q1 − 1.5 × IQR = ?
Batas Atas = Q3 + 1.5 × IQR = ?
✓ Benar! B. Perhitungan: IQR = 29 − 17 = 12. Batas Atas = Q3 + 1.5×IQR = 29 + 1.5×12 = 29 + 18 = 47. Karena 80 > 47, maka 80 adalah outlier. Batas Bawah = 17 − 18 = −1 (tidak ada nilai di bawahnya). Nilai 80 jelas sangat jauh dari rentang normal data lainnya (12–35).
SOAL 03
Seorang analis ingin membandingkan distribusi nilai ujian antara tiga angkatan mahasiswa sekaligus, termasuk melihat outlier masing-masing. Visualisasi apa yang PALING TEPAT?
✓ Benar! C. Boxplot berdampingan adalah pilihan terbaik karena: (1) bisa menampilkan distribusi beberapa kelompok sekaligus, (2) menampilkan median, Q1, Q3, dan outlier dalam satu gambar, (3) mudah dibandingkan antar kelompok. Pie chart hanya untuk proporsi, line chart untuk tren waktu, scatter plot untuk hubungan dua variabel numerik.
SOAL 04
Sebuah histogram nilai ujian menunjukkan puncak di sebelah kiri dan ekor panjang ke arah kanan. Pernyataan mana yang BENAR?
✓ Benar! B. Ekor panjang ke kanan = skewed positif (+). Nilai-nilai besar yang jarang muncul (di ekor kanan) menarik mean ke kanan, sehingga Mean > Median. Puncak (modus) ada di kiri, median di tengah, mean paling kanan. Ini berbeda dengan skewed negatif yang ekornya ke kiri dan Mean < Median.
SOAL 05
Sampel 64 mahasiswa memberikan rata-rata tinggi badan x̄ = 168 cm dengan standar deviasi s = 8 cm. Hitung 95% Confidence Interval untuk rata-rata tinggi badan populasi.
Diketahui: n = 64, x̄ = 168, s = 8, z*(95%) = 1.960
SE = s / √n = ?
CI = x̄ ± z* × SE = ?
✓ Benar! B. Langkah: SE = 8/√64 = 8/8 = 1. ME = z* × SE = 1.960 × 1 = 1.96. CI = [168 − 1.96, 168 + 1.96] = [166.04, 169.96]. Perhatikan: SE = 1 (sangat kecil) karena n=64 cukup besar — sesuai CLT, sampel besar menghasilkan estimasi yang lebih presisi (CI lebih sempit).
SOAL 06
Peneliti menghasilkan 95% CI = [72, 84] untuk rata-rata nilai matematika. Mana interpretasi yang PALING BENAR?
✓ Benar! C. Ini adalah interpretasi frekuentis yang benar untuk CI. CI mengacu pada prosedur/metode, bukan probabilitas dari satu interval spesifik. Pilihan A terdengar benar tapi teknisnya keliru — μ sudah memiliki nilai tetap, bukan berprobabilitas. Pilihan C menjelaskan bahwa yang "95%" adalah metode-nya, bukan interval yang sudah dihasilkan.
SOAL 07
Peneliti menguji apakah metode belajar baru meningkatkan rata-rata nilai UAS (sebelumnya μ = 70). Dari sampel 30 mahasiswa didapat x̄ = 74, s = 10, α = 0.05. Nilai t-hitung = 2.19 dan t-kritis (df=29, α=0.05, 1-arah) = 1.699. Keputusannya?
✓ Benar! A. t-hitung = 2.19 > t-kritis = 1.699 → Tolak H₀. Ini uji satu arah (H₁: μ > 70) karena peneliti spesifik ingin membuktikan peningkatan. Perlu diingat: menolak H₀ bukan karena x̄ > μ semata (pilihan C salah logikanya) — keputusan berbasis statistik uji, bukan perbandingan nilai mentah. Pilihan D salah: uji-t valid untuk n berapa pun selama asumsi terpenuhi.
SOAL 08
Sebuah algoritma deteksi kanker diuji. H₀: "pasien sehat". Dokter memperketat ambang batas (α dari 0.05 menjadi 0.001) agar mengurangi "alarm palsu". Konsekuensinya?
✓ Benar! B. Trade-off antara Error Tipe I (α) dan Tipe II (β) adalah fundamental — menurunkan satu akan menaikkan yang lain (untuk ukuran sampel tetap). Dengan α=0.001, ambang penolakan H₀ jauh lebih ketat → lebih sedikit positif → lebih banyak kanker lolos tidak terdeteksi (Error Tipe II ↑). Cara mengurangi keduanya sekaligus: perbesar ukuran sampel n.
SOAL 09
Empat variabel berikut: (1) Nomor telepon, (2) Peringkat kepuasan 1–5, (3) Suhu dalam °Celsius, (4) Berat badan dalam kg. Pasangkan masing-masing dengan skala pengukuran yang tepat.
✓ Benar! A. (1) Nomor telepon = Nominal — hanya label, tidak ada urutan/makna matematis. (2) Peringkat 1–5 = Ordinal — ada urutan, jarak tidak pasti. (3) Suhu °C = Interval — ada urutan & jarak sama, tapi 0°C bukan "tidak ada suhu" (nol relatif). (4) Berat badan = Rasio — ada nol absolut (0 kg = tidak ada), 80 kg memang 2× 40 kg.
SOAL 10
Dataset survei gaji memiliki 25% nilai missing pada kolom "pendapatan_bulanan". Analisis menunjukkan responden dengan pendapatan rendah lebih banyak yang tidak mengisi. Tindakan TERBAIK adalah?
✓ Benar! C. Ini adalah kasus MNAR (Missing Not At Random) — pendapatan rendah adalah penyebab data missing. Mengisi dengan mean/median dari yang mengisi akan overestimate rata-rata pendapatan karena yang mengisi cenderung bergaji lebih tinggi. Menghapus 25% baris juga memperparah bias. Solusi terbaik: gunakan model yang mengakui MNAR, atau upayakan pengumpulan data ulang untuk yang missing.
SKOR AKHIR ANDA
0 / 10
Selesaikan semua soal untuk evaluasi lengkap.
Tips Menghadapi UTS
Review Rumus Kunci
Hafalkan rumus CI, uji-t, IQR outlier, dan chi-square. Latih menghitung manual tanpa kalkulator.
Prioritas Materi
Sesi 4 (CI) dan Sesi 5 (Uji Hipotesis) masing-masing 20% soal — kuasai keduanya dengan baik.
Baca Soal Teliti
Perhatikan: apakah uji satu arah atau dua arah? σ diketahui atau tidak? n besar atau kecil?
Konteks Interpretasi
Selalu terjemahkan hasil statistik ke konteks nyata. "p=0.03" → "ada bukti signifikan bahwa..."
Manajemen Waktu
90 menit untuk ~28 soal ≈ 3 menit/soal. Lewati soal sulit, kerjakan yang mudah dulu, kembali lagi.
Hindari Jebakan Umum
Jangan bilang "H₀ terbukti benar" (hanya gagal tolak). Jangan pakai mean untuk data ordinal atau saat outlier dominan.
🌟 PESAN SEMANGAT
UTS bukan akhir perjalanan — ini titik tengah untuk mengukur seberapa jauh kita sudah melangkah. Setelah UTS, materi berlanjut ke topik yang lebih praktis dan menarik: pembersihan data, transformasi, korelasi, dan machine learning.
Selamat mengerjakan UTS. Semoga sukses, Mahasiswa MA1420! 🎓