← INDEX
IF1603 — KEAMANAN SCADA
SESI 13 / 16
■ SESI 13 — KULIAH TEORI

Business Continuity Planning &
Disaster Recovery untuk SCADA/ICS

Perancangan dan implementasi rencana keberlangsungan bisnis (BCP) dan pemulihan bencana (DRP) khusus untuk sistem industri. Meliputi Business Impact Analysis (BIA), penetapan RTO/RPO, strategi backup konfigurasi PLC, dan prosedur failover yang aman untuk infrastruktur kritis.

BCP / DRPBIA — BUSINESS IMPACT ANALYSIS RTO / RPOHOT / WARM / COLD STANDBY BACKUP PLC CONFIGFAILOVER OTTABLETOP EXERCISE
13.1BCP vs DRP — Perbedaan dan Hubungan

BCP (Business Continuity Plan) dan DRP (Disaster Recovery Plan) adalah dua dokumen berbeda namun saling melengkapi. Keduanya wajib dimiliki oleh operator infrastruktur kritis sesuai regulasi Indonesia (PP 82/2012 dan Perpres 82/2022).

ASPEKBCP — BUSINESS CONTINUITY PLANDRP — DISASTER RECOVERY PLAN
FokusKeberlangsungan operasi bisnis/layanan selama gangguanPemulihan sistem teknis (IT/OT) setelah bencana
ScopeSeluruh organisasi: proses, orang, fasilitas, komunikasiSistem teknologi: server, jaringan, SCADA, database
Pertanyaan utama"Bagaimana layanan tetap berjalan saat sistem down?""Bagaimana sistem dipulihkan ke kondisi normal?"
Contoh aksi ICSJalankan proses manual (operator valve fisik), pengurangan kapasitas, komunikasi ke pelangganRestore SCADA dari backup, rebuild HMI, restore konfigurasi PLC
Waktu berlakuAktif saat insiden terjadi hingga sistem pulihAktif setelah keputusan disaster declaration hingga full restore
OwnerPlant Manager / COO / Business Continuity ManagerIT/OT Manager / Technical Recovery Team
📌 SKENARIO KHAS: RANSOMWARE DI SCADA INFRASTRUKTUR LISTRIK
  • BCP aktif saat itu juga: Operator beralih ke kontrol manual panel lokal, komunikasi ke BUMN induk bahwa kapasitas berkurang, PLN mengaktifkan supply cadangan dari pembangkit lain, notifikasi ke konsumen prioritas.
  • DRP aktif paralel: Tim teknis restore SCADA server dari clean backup, rebuild HMI workstation, restore konfigurasi PLC dari backup offline, validasi integritas sebelum kembali online.
  • Target: BCP memastikan listrik tetap menyala (degraded capacity). DRP memastikan SCADA pulih penuh dalam RTO yang ditetapkan.
13.2Business Impact Analysis (BIA) untuk Sistem ICS

BIA adalah proses mengidentifikasi fungsi bisnis kritis dan menentukan dampak kuantitatif dari gangguan pada masing-masing fungsi. Hasil BIA menjadi dasar penetapan prioritas pemulihan dan investasi continuity.

Untuk ICS, BIA harus memasukkan dimensi yang tidak ada di IT biasa: dampak keselamatan, lingkungan, dan layanan publik — bukan hanya finansial.

SISTEM / FUNGSIMTPDRTORPOCRITICALITYDAMPAK JIKA GAGAL
Sistem kontrol turbin PLTU 15 menit 10 menit 0 detik KRITIS-1 Blackout, kerusakan turbin Rp 50M+, potensi ledakan
Sistem dosis klorin PDAM 30 menit 20 menit 5 menit KRITIS-1 Air tidak aman dikonsumsi, potensi wabah penyakit
SCADA distribusi gas alam 1 jam 30 menit 5 menit KRITIS-1 Gangguan pasokan industri, risiko kebocoran/ledakan
HMI monitoring proses 4 jam 2 jam 1 jam KRITIS-2 Operator buta — harus switch ke panel lokal manual
Process Historian / logging 8 jam 4 jam 1 jam PENTING Kehilangan data historis, masalah compliance audit
Sistem laporan manajemen SCADA 72 jam 24 jam 8 jam NORMAL Laporan terlambat — tidak ada dampak operasional langsung

MTPD = Maximum Tolerable Period of Disruption | RTO = Recovery Time Objective | RPO = Recovery Point Objective

13.3RTO dan RPO — Konsep dan Penerapan di Sistem OT

RTO (Recovery Time Objective) adalah waktu maksimum yang dapat ditoleransi dari saat gangguan hingga sistem kembali beroperasi. RPO (Recovery Point Objective) adalah toleransi kehilangan data — berapa lama data yang boleh hilang.

◈ VISUALISASI RTO DAN RPO ◈
OPERASI NORMAL
💥
SISTEM DOWN / DEGRADED
PEMULIHAN
T-∞ ← RPO → T=0 (Disaster) ← RTO → Full Recovery
RPO
≤ 5 min
Toleransi kehilangan data untuk sistem kontrol kritis (setpoint, alarm)
RTO
≤ 30 min
Waktu maksimum downtime sistem SCADA infrastruktur kritis
MTPD
≤ 1 jam
Batas maksimum operasi manual sebelum dampak permanen tidak dapat dihindari
⚠ RTO ICS JAUH LEBIH KETAT DARI IT BIASA

Sistem SCADA infrastruktur kritis memiliki RTO yang sangat pendek karena proses fisik terus berjalan. Turbin PLTU tidak bisa "pause" menunggu sistem SCADA dipulihkan — operator harus beralih ke kontrol manual dalam menit, bukan jam. Ini berarti strategi recovery harus benar-benar dipersiapkan dan diuji, bukan hanya terdokumentasi.

TIPE SISTEM OTRTO TIPIKALRPO TIPIKALJUSTIFIKASI
Sistem kontrol safety (SIS/ESD)≤ 1 menit0 (no data loss)Kegagalan SIS saat proses tidak aman = bencana
Kontrol proses utama (PLC/DCS)≤ 10 menit≤ 1 menitProses berlanjut di manual, tapi terbatas kapasitas
SCADA / HMI operator≤ 2 jam≤ 15 menitOperator bisa kerja manual sementara
Historian / reporting≤ 8 jam≤ 1 jamDampak terbatas pada compliance dan analisis
Sistem bisnis (ERP, billing)≤ 24 jam≤ 4 jamTidak ada dampak operasional langsung
13.4Strategi Backup Konfigurasi OT

Backup konfigurasi OT adalah fondasi DRP. Tanpa backup yang valid dan teruji, recovery tidak mungkin dilakukan dalam RTO yang ditetapkan. Backup OT mencakup lebih dari sekadar data — juga program PLC, konfigurasi HMI, dan parameter proses.

STRATEGI BACKUP KONFIGURASI OT — KOMPREHENSIF
APA YANG HARUS DI-BACKUP (OT-SPECIFIC):

  PLC / RTU / IED:
     Program ladder logic / function block / structured text
     Data blocks (konfigurasi parameter, setpoint default)
     Hardware configuration (GSD, rack, module layout)
     Firmware version + hash (untuk deteksi modifikasi)
     IP address, node ID, Profibus address

  HMI / SCADA Server:
     Project file SCADA (WinCC, iFIX, Ignition, Wonderware)
     Tag database dan alarm configuration
     Graphic screens / faceplates
     User accounts dan RBAC configuration
     OS image (system state backup) — untuk rapid restore

  Jaringan OT:
     Konfigurasi firewall (rules, policies, objects)
     Switch configuration (VLAN, ACL, port config)
     Router / managed switch config
     Network diagram terkini (as-built)

ATURAN BACKUP 3-2-1 (ADAPTASI UNTUK OT):
  3 salinan backup (1 aktif + 2 backup)
  2 media berbeda (HDD + USB terenkripsi / tape)
  1 salinan offsite/offline — tidak terhubung ke jaringan OT
  +1 salinan immutable — tidak bisa diubah/dihapus (WORM media)

JADWAL BACKUP YANG DIREKOMENDASIKAN:
  PLC program         : Setiap kali ada perubahan program + bulanan otomatis
  SCADA project       : Setiap kali ada perubahan + mingguan otomatis
  OS image HMI        : Bulanan atau setelah patch/update mayor
  Konfigurasi jaringan: Setiap kali ada perubahan + mingguan
  Historian database  : Harian (incremental) + bulanan (full)

VERIFIKASI BACKUP (KRITIS!):
   Test restore ke environment lab setiap kuartal
   Hash verification setiap backup selesai
   Enkripsi backup (AES-256) — backup plaintext = risiko exfiltration
   Catat versi yang di-backup — jangan restore versi yang salah
13.5Strategi Site Recovery: Hot, Warm, dan Cold Standby

Pemilihan strategi recovery site ditentukan oleh RTO yang ditetapkan dalam BIA. Semakin pendek RTO, semakin mahal biaya infrastruktur yang dibutuhkan.

TIER 1 — RTO < 15 MENIT
Hot Standby Site
Karakteristik:
• Sistem identik berjalan paralel
• Data sync real-time (mirroring)
• Failover otomatis atau 1-click
• Operator bisa langsung switch

Cocok untuk:
Sistem kontrol kritis: SIS, DCS, SCADA distribusi listrik

Biaya: Sangat tinggi (2x infrastruktur)
TIER 2 — RTO 1–8 JAM
Warm Standby Site
Karakteristik:
• Hardware tersedia, software terinstal
• Data sync periodik (tiap 15-60 menit)
• Perlu konfigurasi manual sebelum aktif
• Failover manual oleh tim teknis

Cocok untuk:
SCADA server, HMI operator, Historian

Biaya: Sedang-tinggi
TIER 3 — RTO 8–72 JAM
Cold Standby Site
Karakteristik:
• Ruang dan utilitas tersedia
• Hardware perlu diadakan/dikirim
• Install dari awal dengan backup
• Membutuhkan waktu signifikan

Cocok untuk:
Sistem non-kritis, reporting, billing

Biaya: Relatif rendah
ℹ️ HOT STANDBY UNTUK SISTEM KONTROL KRITIS — TEKNIK IMPLEMENTASI

Untuk sistem kontrol proses yang memerlukan RTO <15 menit, hot standby biasanya diimplementasikan dengan redundant PLC controller (misalnya Siemens S7-400H atau Schneider Quantum Hot Standby) yang berjalan dalam mode sinkron. Saat primary controller gagal, secondary mengambil alih dalam <1 scan cycle (~10ms) tanpa gangguan proses. Ini berbeda dari hot standby site-level yang membutuhkan failover menit-an.

13.6Prosedur Failover yang Aman untuk Sistem ICS

Failover pada ICS harus dieksekusi dengan hati-hati. Berbeda dari IT, perpindahan traffic ke server backup bisa dilakukan transparan — di ICS, perpindahan kendali proses dari primary ke backup harus dikoordinasikan dengan operator dan divalidasi sebelum dan sesudah.

PROSEDUR FAILOVER SCADA SERVER — WARM STANDBY
KONDISI: SCADA Primary Server gagal / dikompromis
TARGET: Aktifkan Warm Standby dalam RTO 2 jam

PRE-FAILOVER CHECKLIST:
  □ Konfirmasi Primary Server memang gagal (bukan false alarm)
  □ Notifikasi Plant Manager dan Safety Officer
  □ Pastikan semua operator tahu akan ada transisi HMI
  □ Pastikan proses dalam kondisi stabil sebelum switch
  □ Verifikasi backup terbaru tersedia di Warm Standby Server

LANGKAH FAILOVER (harus dilakukan berurutan):

  T+0 — ISOLASI PRIMARY
  1. Putus Primary Server dari jaringan OT (jika dikompromis)
  2. Dokumentasikan waktu failover dimulai

  T+10 — RESTORE BACKUP KE WARM STANDBY
  3. Restore SCADA project dari backup terakhir yang verified clean
  4. Verifikasi hash backup sebelum restore
  5. Restore user database dan RBAC config
  6. Verifikasi koneksi ke PLC/RTU dari Warm Standby Server

  T+60 — VALIDASI SEBELUM GO-LIVE
  7. Engineer OT verifikasi semua tag terhubung dan nilai benar
  8. Uji alarm: trigger test alarm, pastikan muncul di HMI baru
  9. Uji kontrol: kirim perintah test ke I/O non-kritis, verifikasi respons
  10. Sign-off dari Plant Manager sebelum operator mulai gunakan

  T+90 — OPERASI DARI WARM STANDBY
  11. Operator shift beralih ke HMI baru
  12. Monitoring intensif 4 jam pertama
  13. Catat semua anomali untuk investigasi

YANG HARUS DIHINDARI:
  ✗ Restore backup tanpa verifikasi integritas (bisa restore malware)
  ✗ Go-live tanpa sign-off operator dan engineering
  ✗ Failover saat proses dalam kondisi tidak stabil
13.7Tabletop Exercise dan Drills — Uji Kesiapan BCP/DRP

BCP/DRP yang tidak pernah diuji sama dengan tidak punya BCP/DRP. Dokumen yang bagus tidak berguna jika tim tidak pernah mempraktikkannya. Setidaknya satu kali setahun harus dilakukan exercise untuk setiap level kritis.

TIPE EXERCISEDESKRIPSIPESERTAFREKUENSI
Tabletop ExerciseDiskusi skenario di ruang rapat. Tim mendiskusikan respons terhadap skenario insiden tanpa aksi nyata. Murah dan efektif untuk mengidentifikasi gap prosedur.Semua tim (IT, OT, Safety, Manajemen)2x per tahun
Walk-through DrillTim walkthrough setiap langkah prosedur secara verbal dan fisik — tanpa benar-benar mengeksekusi. Verifikasi bahwa prosedur masuk akal secara teknis.Tim teknis OT + IT1x per tahun
Functional ExerciseSimulasi penuh di lab/test environment. Benar-benar eksekusi failover ke sistem backup di environment non-produksi untuk validasi teknis.Tim IT + OT teknis1x per tahun
Full-scale DrillSimulasi nyata di produksi — planned maintenance window. Benar-benar failover ke warm/cold standby, ukur RTO aktual vs target.Semua tim + manajemen1x per 2 tahun
CONTOH SKENARIO TABLETOP — INFRASTRUKTUR LISTRIK
SKENARIO: "OPERATION DARK GRID"

Inject 1 (T=0):
  NOC menerima laporan: beberapa RTU substation tidak merespons.
  SIEM alert: multiple failed login ke SCADA server dari IP asing.
  → Pertanyaan: Langkah pertama? Siapa yang dihubungi? Triage severity?

Inject 2 (T+20 menit):
  Konfirmasi: SCADA server terinfeksi ransomware. File SCADA di-encrypt.
  2 unit pembangkit tidak bisa dikontrol dari SCADA.
  → Pertanyaan: Apakah BCP diaktifkan? Bagaimana komunikasi ke operator manual?

Inject 3 (T+45 menit):
  Media memberitakan "sistem listrik Kota X terganggu."
  Pelanggan industri menelpon menanyakan kapan normal.
  → Pertanyaan: Siapa yang bicara ke media? Apa yang boleh diungkap?

Inject 4 (T+2 jam):
  Tim berhasil restore SCADA dari backup ke warm standby server.
  Tapi backup berumur 6 jam — data setpoint terbaru hilang.
  → Pertanyaan: Bagaimana validasi setpoint sebelum kembali online? Siapa yang sign-off?

PERTANYAAN EVALUASI AKHIR:
  1. Berapa RTO aktual vs target?
  2. Gap prosedur apa yang ditemukan?
  3. Komunikasi mana yang tidak berjalan baik?
  4. Apa yang perlu diperbaiki dalam BCP/DRP?
Latihan Soal — Sesi 13
■ PERTANYAAN 1 / 5
1. Apa perbedaan utama antara BCP (Business Continuity Plan) dan DRP (Disaster Recovery Plan)?
ABCP dan DRP adalah istilah berbeda untuk dokumen yang sama
BBCP fokus pada keberlangsungan operasi bisnis/layanan selama gangguan (termasuk mode manual), sementara DRP fokus pada pemulihan sistem teknologi (IT/OT) ke kondisi normal
CBCP hanya untuk bencana alam, DRP hanya untuk serangan siber
DDRP dibuat oleh tim IT, BCP dibuat oleh tim OT
Benar! BCP menjawab "bagaimana layanan tetap berjalan?" (termasuk operasi manual, pengurangan kapasitas, komunikasi ke stakeholder). DRP menjawab "bagaimana sistem teknis dipulihkan?" (restore server, rebuild HMI, restore konfigurasi PLC). Keduanya aktif bersamaan saat bencana — BCP memastikan layanan tidak terputus total sementara DRP bekerja untuk pemulihan penuh.
■ PERTANYAAN 2 / 5
2. RPO (Recovery Point Objective) pada konteks sistem ICS mengacu pada...
AWaktu maksimum yang dibutuhkan untuk memulihkan sistem ke kondisi operasional
BToleransi kehilangan data — berapa lama data boleh hilang saat recovery. RPO 5 menit berarti maksimum kehilangan data 5 menit terakhir sebelum disaster.
CTitik dalam arsitektur jaringan di mana recovery dimulai
DJumlah minimum staf yang harus hadir saat proses recovery
Benar! RPO mendefinisikan seberapa sering backup harus dilakukan. RPO = 5 menit artinya backup harus dilakukan setiap 5 menit (atau kurang) agar kehilangan data tidak melebihi 5 menit. Untuk sistem kontrol kritis ICS, RPO bisa mendekati 0 (memerlukan mirroring real-time), karena kehilangan data setpoint/konfigurasi dapat berbahaya saat proses dilanjutkan.
■ PERTANYAAN 3 / 5
3. Mengapa backup konfigurasi PLC harus disimpan dalam kondisi OFFLINE dan terenkripsi?
AKarena penyimpanan online terlalu mahal untuk backup PLC
BBackup offline mencegah backup ikut terenkripsi saat ransomware menyerang, dan enkripsi mencegah attacker mendapatkan program PLC (yang bisa digunakan untuk reverse-engineer proses atau merencanakan serangan)
CRegulasi IEC 62443 mewajibkan backup offline untuk semua sistem OT
DBackup offline lebih cepat diakses saat proses recovery
Benar! Dua alasan kritis: (1) Ransomware modern mencari semua drive yang terhubung ke jaringan — backup online akan ikut di-encrypt, membuat recovery tidak mungkin. Backup offline/air-gapped tidak bisa dijangkau ransomware; (2) Program PLC mengandung intellectual property dan informasi detail proses industri — enkripsi mencegah exfiltration yang bisa digunakan attacker untuk merencanakan sabotase lebih efektif.
■ PERTANYAAN 4 / 5
4. Strategi recovery site manakah yang tepat untuk sistem SCADA dengan RTO 30 menit?
ACold Standby — ruang kosong dengan hardware yang perlu diadakan
BHot Standby — sistem identik berjalan paralel dengan data sync real-time, failover dapat dilakukan dalam menit
CWarm Standby — hardware siap tapi perlu restore backup manual 1-2 jam
DCloud backup — restore dari cloud dalam 4-8 jam
Benar! RTO 30 menit membutuhkan Hot Standby: sistem yang sudah berjalan dengan data terkini. Warm Standby membutuhkan 1-8 jam untuk restore dan konfigurasi, Cold Standby bahkan lebih lama. Hot Standby mahal (duplikasi infrastruktur penuh) tapi satu-satunya cara memenuhi RTO yang sangat pendek untuk sistem kritis. Contoh: redundant DCS controller yang sync setiap scan cycle.
■ PERTANYAAN 5 / 5
5. Mengapa uji coba (exercise/drill) BCP/DRP harus dilakukan secara berkala, bukan hanya disimpan sebagai dokumen?
AKarena regulasi ISO 22301 mewajibkan frekuensi drill tertentu
BKarena BCP/DRP yang tidak diuji tidak bisa diandalkan — prosedur mungkin tidak akurat setelah perubahan sistem, tim mungkin tidak familiar, dan RTO aktual mungkin jauh melebihi target yang ditetapkan
CKarena drill adalah cara terbaik melatih karyawan baru
DKarena asuransi siber mensyaratkan bukti drill untuk klaim
Benar! BCP/DRP adalah dokumen "hidup" yang harus divalidasi secara berkala karena: (1) Sistem berubah — prosedur yang ditulis 2 tahun lalu mungkin mengacu software/hardware yang sudah diganti; (2) Tim berputar — orang baru tidak mengenal prosedur; (3) RTO aktual sering berbeda dari estimasi awal — hanya drill yang membuktikan apakah 30 menit benar-benar achievable; (4) Gap prosedur hanya terlihat saat dipraktikkan, bukan saat dibaca.
← SESI 12
SESI 13 / 16 — BCP & DRP UNTUK SCADA/ICS
SESI 14 →