4.1Prinsip Desain Sistem Fault-Tolerant SCADA

Merancang sistem SCADA yang tahan gangguan bukan sekadar menambahkan hardware cadangan — ini adalah proses desain sistematis yang mempertimbangkan setiap titik kegagalan (Single Point of Failure / SPOF) dan strategi eliminasinya.

📌 PRINSIP UTAMA DESAIN FAULT-TOLERANT
  • Eliminate SPOF — Identifikasi setiap komponen yang jika gagal akan menghentikan seluruh sistem, lalu tambahkan redundansi
  • Defense in Depth — Berlapis: hardware redundant + software watchdog + network redundant + power backup
  • Graceful Degradation — Sistem harus tetap berfungsi sebagian meskipun komponen gagal, bukan langsung total shutdown
  • Independent Failure Domains — Komponen redundan harus benar-benar independen (power berbeda, lokasi berbeda, jaringan berbeda)
  • Automatic vs Manual Recovery — Tentukan apa yang auto-recover dan apa yang butuh konfirmasi operator
Peta SPOF pada Sistem SCADA Tipikal
ANALISIS SINGLE POINT OF FAILURE
╔══════════════════════════════════════════════════════════════╗
║           IDENTIFIKASI SPOF — SISTEM SCADA TIPIKAL            ║
╚══════════════════════════════════════════════════════════════╝

LEVEL 0 — FIELD:
  [SPOF] Sensor tunggal → Solusi: Sensor duplikat + voting logic
  [SPOF] Kabel field tunggal → Solusi: Dual cable path

LEVEL 1 — CONTROL:
  [SPOF] Single PLC → Solusi: Hot Standby PLC pair
  [SPOF] Single I/O Module → Solusi: Redundant I/O modules
  [SPOF] Single PSU → Solusi: Dual redundant PSU

LEVEL 2 — SUPERVISORY:
  [SPOF] Single SCADA Server → Solusi: Primary + Standby server
  [SPOF] Single HMI workstation → Solusi: Multiple HMI workstations
  [SPOF] Single switch core → Solusi: Dual core switches (ring)

INFRASTRUKTUR:
  [SPOF] Single power feed → Solusi: Dual feed + UPS + Generator
  [SPOF] Single fiber path → Solusi: Ring topology fiber
  [SPOF] Single site → Solusi: Disaster Recovery Site

TARGET: Zero SPOF pada sistem tier kritis (safety / availability > 99.99%)
4.2Arsitektur Redundansi Server — Dual-Server SCADA

Arsitektur dual-server adalah fondasi High Availability pada lapisan supervisory (Level 2 Purdue Model). Dua SCADA server beroperasi secara terkoordinasi untuk memastikan layanan tidak terputus saat salah satu gagal.

◈ ARSITEKTUR DUAL-SERVER SCADA — PRIMARY / STANDBY ◈
CLIENT LAYER
HMI WS-1
Operator Workstation
CLIENT LAYER
HMI WS-2
Engineering WS
CLIENT LAYER
Historian
Data Logging Server
OT LAN
(VLAN 10)
PRIMARY SERVER
SCADA-SRV-1
Active — IP: 192.168.10.10
⇅ HEARTBEAT
+ DATA SYNC
STANDBY SERVER
SCADA-SRV-2
Standby — IP: 192.168.10.11
VIRTUAL IP
VIP: .10.100
Client selalu connect ke VIP
OT LAN
(VLAN 20)
FIELD DEVICE
PLC-A (M580)
Modbus TCP
FIELD DEVICE
PLC-B (M340)
Modbus TCP
FIELD DEVICE
RTU-1
DNP3/TCP
Mekanisme Sinkronisasi Data antar Server
TIPE DATAMETODE SYNCFREKUENSILATENCY TOLERANSI
Real-time Process Data (tag values) In-memory replication via dedicated sync interface Setiap scan cycle (100ms–1s) < 100ms
Application State (alarm states, setpoints) State machine replication Event-driven (saat ada perubahan) < 500ms
Historical Data (trend, logs) Database log shipping / replication 1–5 menit < 5 menit data loss
Configuration (tag database, graphics) File synchronization (rsync/robocopy) Saat ada perubahan config Tidak real-time
⚠️ VIRTUAL IP (VIP) — KUNCI TRANSPARENT FAILOVER

Semua client (HMI workstation, historian, PLC driver) harus dikonfigurasi untuk terhubung ke Virtual IP Address (VIP), bukan ke IP fisik server. VIP "berpindah" dari server primary ke server standby saat failover — sehingga client tidak perlu dikonfigurasi ulang.

Teknologi: Windows Server Failover Clustering, Linux Keepalived/VRRP, atau mekanisme built-in SCADA software seperti Ignition Redundancy atau Wonderware InBatch.

4.3Redundansi Jaringan — Ring Topology & RSTP

Jaringan komunikasi adalah urat nadi sistem SCADA. Gangguan pada satu switch atau kabel bisa memutus komunikasi antara SCADA server dengan PLC/RTU di lapangan. Topologi ring dengan protokol redundansi adalah solusi standar industri.

◈ PERBANDINGAN TOPOLOGI JARINGAN SCADA ◈
TOPOLOGI BUS (TIDAK DIREKOMENDASIKAN):
  [Switch] ─── [PLC-1] ─── [PLC-2] ─── [PLC-3] ─── [PLC-4]
  Jika kabel putus di tengah → semua PLC setelahnya tidak terhubung!

TOPOLOGI STAR (TERBATAS):
         [Core Switch]
        /    |    \    \
  [PLC-1] [PLC-2] [PLC-3] [PLC-4]
  Jika Core Switch gagal → SELURUH JARINGAN MATI! (SPOF)

TOPOLOGI RING — DUAL CORE (DIREKOMENDASIKAN):

  [SCADA Server 1] ─ [Core Switch A] ─────────────── [Core Switch B] ─ [SCADA Server 2]
                          │                                  │
                    [Switch Dist-1]                    [Switch Dist-4]
                          │                                  │
                    [PLC-A / M580]                     [PLC-D / M580]
                          │                                  │
                    [Switch Dist-2]                    [Switch Dist-3]
                          │                                  │
                    [PLC-B / M340]──────────────────[PLC-C / M251]
                     (RING CLOSED)

  RSTP: Jika SATU link putus → recovery dalam < 1 detik!
  HSR/PRP: Zero recovery time — frame dikirim ke 2 jalur bersamaan
Perbandingan Protokol Redundansi Jaringan
PROTOKOLSTANDARRECOVERY TIMECARA KERJACOCOK UNTUK
STP IEEE 802.1D 30–60 detik Memblokir port untuk mencegah loop. Recovery sangat lambat. Tidak direkomendasikan OT
RSTP IEEE 802.1w < 1 detik Rapid convergence. Semua switch bernegosiasi cepat untuk jalur alternatif. SCADA standar, Modbus TCP
HSR IEC 62439-3 Kls A 0ms (Zero) Setiap frame dikirim ke dua arah ring bersamaan. Penerima pakai yang datang pertama. IEC 61850 Substation, safety-critical
PRP IEC 62439-3 Kls B 0ms (Zero) Dua LAN paralel penuh. Frame dikirim ke kedua LAN. Receiver ambil yang tiba pertama. Substation, pembangkit kritis
MRP IEC 62439-2 (PROFINET) < 200ms Khusus untuk ring topology Profinet Siemens. Master mendeteksi break dan reconfig. Siemens PROFINET automation
ℹ️ HSR vs PRP — KAPAN MEMILIH YANG MANA?

HSR: Semua device harus mendukung HSR (ada HSR node di setiap device). Cocok saat semua device baru dan mendukung HSR. Membentuk ring fisik.

PRP: Dua jaringan LAN sepenuhnya terpisah (A dan B). Device tidak perlu tahu tentang PRP — terhubung ke dua LAN biasa. Lebih mudah diimplementasi saat device legacy. Lebih mahal (dua kali infrastructure).

4.4Redundansi PLC dan Modul I/O

Pada level kontrol, PLC adalah komponen kritis yang jika gagal dapat menghentikan proses secara tiba-tiba. Redundansi PLC memastikan kontrol proses tetap berjalan meskipun CPU atau modul I/O mengalami kegagalan.

Arsitektur Hot Standby PLC — Schneider Modicon M580
MODICON M580 HOT STANDBY ARCHITECTURE
╔════════════════════════════════════════════════════════════╗
║        HOT STANDBY PLC — SCHNEIDER MODICON M580             ║
╚════════════════════════════════════════════════════════════╝

CHASSIS PRIMARY (Rack A):
  ┌─────────────────────────────────────┐
  │ [PSU-A1] [CPU-M580-A] [BMENOC0301] │ ← Ethernet Comm Module
  │ [DI-32ch] [DO-32ch] [AI-8ch] [AO]  │ ← I/O Modules
  └──────────────┬──────────────────────┘
                 │ SYNC CABLE (dedicated)
                 │ + HSBY ETHERNET LINK
                 │
CHASSIS STANDBY (Rack B):
  ┌─────────────────────────────────────┐
  │ [PSU-B1] [CPU-M580-B] [BMENOC0301] │
  │ [DI-32ch] [DO-32ch] [AI-8ch] [AO]  │ ← Identical hardware
  └──────────────┬──────────────────────┘
                 │
           [Field Devices]
        (Sensor, Valve, Motor)

MEKANISME SYNC:
  Setiap scan cycle (mis. 20ms):
  1. CPU-A menyelesaikan scan cycle
  2. CPU-A mengirim current state ke CPU-B via sync link
     (Output values, Internal registers, Timer status, Counter values)
  3. CPU-B update state-nya untuk siap ambil alih kapan saja

SAAT KEGAGALAN CPU-A:
  Waktu deteksi   : 1–3 scan cycles (20–60ms)
  Waktu switchover: < 1 scan cycle
  Output behavior : Seamless — output tidak berubah
  Operator notice : Alarm "PRIMARY FAILED, STANDBY ACTIVE"

LED STATUS DISPLAY:
  CPU-A Active    : PRIM LED: Hijau Solid
  CPU-B Standby   : STBY LED: Hijau Berkedip
  CPU-A Failed    : ERR LED: Merah Solid
  CPU-B Active    : PRIM LED: Hijau Solid (after takeover)
Redundansi Modul I/O
TIPE REDUNDANSI I/ODESKRIPSIKELEBIHANKELEMAHAN
Simplex I/O Satu modul I/O per group sinyal. Tidak ada redundansi. Murah, sederhana SPOF — modul gagal = sinyal hilang
Redundant I/O Modules Dua modul I/O identik per channel. Jika satu gagal, yang lain ambil alih. Tidak ada data loss saat modul gagal Biaya 2x, butuh wiring ganda
Dual I/O Bus Dua bus backplane terpisah. Setiap modul terhubung ke dua bus. Proteksi dari kegagalan backplane Hanya beberapa platform PLC mendukung
Triple Modular Redundancy (TMR) Tiga modul identik. Keputusan berdasarkan majority vote (2-of-3). Sangat andal, deteksi kegagalan tunggal tanpa shutdown Biaya 3x, kompleks. Digunakan di safety systems (SIL 3–4)
📌 TMR — TRIPLE MODULAR REDUNDANCY UNTUK SAFETY CRITICAL

TMR (Triple Modular Redundancy) menggunakan tiga modul identik yang berjalan paralel. Voter circuit membandingkan output ketiganya:

  • 3 dari 3 setuju → output normal
  • 2 dari 3 setuju → output berdasarkan majority, alarm kegagalan satu modul
  • Semua berbeda → sistem failsafe — trigger emergency shutdown

Digunakan di: Emergency Shutdown System (ESD) pada kilang migas, reaktor nuklir, sistem proteksi turbin pembangkit listrik.

4.5Disaster Recovery Planning (DRP) untuk SCADA

DRP adalah rencana terstruktur untuk memulihkan sistem SCADA setelah bencana besar yang tidak dapat ditangani dengan redundansi lokal — seperti kebakaran gedung control room, banjir, gempa bumi, atau serangan siber masif.

⚠️ SKENARIO BENCANA YANG MEMBUTUHKAN DRP
  • Bencana Alam — Kebakaran, banjir, gempa bumi yang merusak site primer
  • Serangan Siber Masif — Ransomware yang mengenkripsi seluruh server SCADA (seperti Colonial Pipeline 2021)
  • Kegagalan Infrastruktur — Blackout berkepanjangan, kerusakan fiber backbone
  • Sabotase Fisik — Terorisme, vandalisme pada infrastruktur kritis
Tahapan Penyusunan DRP SCADA
FASE 1 — ASSESSMENT
Business Impact Analysis (BIA)
Identifikasi proses bisnis kritis yang bergantung pada SCADA. Hitung dampak finansial dan operasional dari downtime. Tentukan RTO dan RPO untuk setiap sistem. Prioritaskan sistem berdasarkan kritikalitas.
FASE 2 — STRATEGY
Penentuan Strategi Recovery
Pilih pendekatan: Hot Site (site siap seketika), Warm Site (siap dalam jam), Cold Site (siap dalam hari). Tentukan manual fallback procedure (operasi manual jika SCADA tidak tersedia). Alokasikan anggaran sesuai target RTO/RPO.
FASE 3 — IMPLEMENTATION
Pembangunan DR Site & Backup Infrastructure
Bangun DR Site dengan infrastruktur yang cukup. Setup replikasi data (database, konfigurasi PLC, SCADA project). Konfigurasi komunikasi alternatif (radio backup, satellite link). Dokumentasi semua prosedur recovery.
FASE 4 — TESTING
Pengujian dan Simulasi Recovery WAJIB RUTIN
Tabletop exercise — simulasi skenario di ruang meeting. Functional test — uji prosedur recovery di DR site tanpa mengganggu produksi. Full DR test — simulasi penuh perpindahan ke DR site (dilakukan saat planned maintenance window).
FASE 5 — MAINTENANCE
Pemeliharaan Berkelanjutan
Update DRP saat ada perubahan sistem atau proses. Review dan perbarui prosedur minimal setahun sekali. Pastikan backup data selalu ter-update dan dapat dipulihkan. Training rutin untuk semua personel terkait.
4.6RTO dan RPO — Metrik Kunci Disaster Recovery

RTO dan RPO adalah dua metrik paling penting dalam DRP yang menentukan seberapa cepat sistem harus pulih dan berapa banyak data yang boleh hilang.

◈ VISUALISASI RTO dan RPO ◈
OPERASI NORMAL
INSIDEN
TERJADI
PROSES
RECOVERY
SISTEM
PULIH
Backup terakhir
T₀
Diagnosis + Action
Service Restored
RPO — RECOVERY POINT OBJECTIVE
Waktu antara backup terakhir dan saat insiden. Berapa banyak data yang boleh hilang? Makin kecil RPO → backup makin sering → biaya makin tinggi.
RTO — RECOVERY TIME OBJECTIVE
Waktu maksimal yang diizinkan dari insiden hingga layanan pulih. Berapa lama downtime yang ditoleransi? Makin kecil RTO → infrastruktur lebih mahal.
Target RTO/RPO Berdasarkan Tipe Sistem SCADA
SISTEMRPO (DATA LOSS)RTO (RECOVERY TIME)STRATEGI DR
Safety System (ESD/F&G) 0 detik < 1 menit TMR redundansi, Hot Standby, tidak ada single DR site — selalu redundan lokal
SCADA Pembangkit Listrik < 1 menit < 15 menit Hot DR Site, real-time replication, dedicated fiber backbone ke DR site
SCADA Distribusi Air < 15 menit < 1 jam Warm DR Site, periodik backup + sync, manual operation capability
SCADA Manufaktur < 1 jam < 4 jam Warm/Cold DR Site, daily backup, spare hardware on-site
SCADA Non-Kritis < 24 jam < 24 jam Cold DR Site, offsite backup, cloud backup
4.7Studi Kasus: Desain Fault-Tolerant SCADA Pembangkit Listrik (PLTU)

Berikut adalah studi kasus komprehensif desain arsitektur SCADA yang aman dan tahan gangguan untuk Pembangkit Listrik Tenaga Uap (PLTU) kapasitas 350 MW.

ARSITEKTUR LENGKAP SCADA PLTU 350 MW
╔═════════════════════════════════════════════════════════════════╗
║           DESAIN SCADA FAULT-TOLERANT — PLTU 350 MW             ║
╚═════════════════════════════════════════════════════════════════╝

TARGET AVAILABILITY: 99.999% (Five Nines)
RTO: < 15 menit | RPO: < 1 menit

═══ LAYER 0: FIELD INSTRUMENTATION ═══
  Sensor Suhu (PT100/Thermocouple):
    → Dual sensor per titik kritis + voting logic di DCS
  Sensor Tekanan (Pressure Transmitter):
    → Redundant 2oo3 (2-out-of-3) pada steam line utama
  Flow Meter: Coriolis primary + DP transmitter backup

═══ LAYER 1: CONTROL SYSTEM ═══
  DCS Utama (Boiler + Turbine):
    → Emerson DeltaV + Redundant Controller (CHARMS I/O)
    → Hot Standby CPU pair, recovery < 1 scan cycle
    → Redundant I/O modules (1:1)
    → Redundant power supply modules
  PLC Safety System (ESD + F&G):
    → Schneider Triconex TMR PLC (SIL 3)
    → Triple Modular Redundancy — 3 CPU + 3 I/O per channel
  PLC Auxiliary (Balance of Plant):
    → Schneider Modicon M580 Hot Standby

═══ LAYER 2: CONTROL NETWORK ═══
  Topology    : Dual Ring (HSR — IEC 62439-3)
  Protocol    : EtherNet/IP + Modbus TCP + OPC UA
  Switches    : Redundant Industrial Managed Switches
  Recovery    : Zero switchover time (HSR)

═══ LAYER 3: SUPERVISORY SYSTEM ═══
  SCADA Platform : Wonderware System Platform (AVEVA)
  Server Config  : Active/Standby dengan Virtual IP
    Server-1 (Primary): Dell PowerEdge R750, Windows Server 2022
    Server-2 (Standby): Identik, Data sync setiap 100ms
    Historian        : OSIsoft PI Server (Redundant)
  HMI Workstations : 4 unit (2 operator, 1 engineering, 1 supervisor)
  Failover Time      : < 30 detik

═══ LAYER 4: POWER INFRASTRUCTURE ═══
  Primary Power  : PLN 20kV via 2 feeder terpisah
  UPS            : 2 × 40kVA UPS (parallel redundant)
  Battery Backup : 30 menit minimum runtime
  Genset         : 2 × 200kVA Diesel Generator (auto-start <10 detik)
  DUPS           : Diesel-rotary UPS (untuk critical control panel)

═══ DISASTER RECOVERY SITE ═══
  Lokasi     : Site terpisah 50 km dari main site
  Connection : Dedicated 100 Mbps fiber (+ 4G LTE backup)
  Platform   : Warm DR SCADA Server (sync setiap 5 menit)
  RTO target : 15 menit | RPO target: < 5 menit

HASIL PERHITUNGAN AVAILABILITY:
  MTBF (dengan redundansi) ≈ 87,600 jam (10 tahun)
  MTTR (dengan hot standby) ≈ 0.5 jam
  A = 87600 / (87600 + 0.5) = 99.9994% ≈ Five Nines ✓
📋 CHECKLIST DESAIN FT-SCADA — VERIFIKASI
AREAITEM CEKSTATUS
ServerDual SCADA server dengan VIP failover✓ OK
NetworkRing topology dengan HSR/RSTP✓ OK
PLCHot standby atau TMR untuk safety critical✓ OK
PowerDual feed + UPS + Genset dengan auto-transfer✓ OK
DataReal-time replication + offsite backup✓ OK
DR SiteWarm/Hot DR site dengan tested procedures✓ OK
TestingJadwal DR drill minimal 2x per tahun⚠ Perlu dijadwalkan
DocsDRP dokumen terdokumentasi dan up-to-date⚠ Review tahunan
Latihan Soal — Sesi 4
■ PERTANYAAN 1 / 5
1. Dalam arsitektur dual-server SCADA, mengapa client (HMI workstation) harus terhubung ke Virtual IP Address (VIP) daripada IP fisik server?
A VIP lebih cepat dari IP fisik
B Agar client tidak perlu dikonfigurasi ulang saat failover — VIP berpindah otomatis ke server standby yang jadi primary baru
C Untuk keamanan jaringan agar IP server tidak diketahui
D VIP memungkinkan client terhubung ke kedua server sekaligus
Benar! VIP adalah IP "mengambang" yang secara logika berpindah dari server primary ke server standby saat failover. Semua client yang terhubung ke VIP otomatis dialihkan ke server aktif yang baru tanpa perlu konfigurasi ulang — inilah kunci transparent failover.
■ PERTANYAAN 2 / 5
2. Protokol redundansi jaringan yang memberikan zero switchover time (0ms recovery) pada topologi ring industrial adalah...
A STP (Spanning Tree Protocol)
B RSTP (Rapid STP) — recovery < 1 detik
C HSR (High-availability Seamless Redundancy) — IEC 62439-3
D VLAN Trunking
Benar! HSR (High-availability Seamless Redundancy) dan PRP (Parallel Redundancy Protocol) keduanya memberikan zero recovery time. HSR mengirim setiap frame ke dua arah ring secara bersamaan — jika satu jalur putus, frame dari jalur lain sudah diterima. Tidak ada switching, tidak ada delay.
■ PERTANYAAN 3 / 5
3. TMR (Triple Modular Redundancy) pada Safety System menggunakan prinsip voting 2-out-of-3. Jika modul A mengeluarkan output "0" (OFF) dan modul B dan C mengeluarkan "1" (ON), maka output sistem adalah...
A "0" karena modul A berbeda, sistem langsung shutdown
B "1" (ON) berdasarkan majority vote (B dan C setuju), disertai alarm bahwa modul A bermasalah
C Undefined — TMR tidak bisa memutuskan jika ada konflik
D "0" karena sistem mengutamakan safety dengan memilih output yang lebih aman
Benar! Voter circuit TMR mengambil keputusan berdasarkan mayoritas (2-of-3). B dan C setuju output "1" → output sistem "1". Modul A dianggap fault → alarm dihasilkan untuk tindak lanjut maintenance. Sistem tetap beroperasi normal sambil menunggu perbaikan modul A.
■ PERTANYAAN 4 / 5
4. Perbedaan antara RTO (Recovery Time Objective) dan RPO (Recovery Point Objective) dalam konteks Disaster Recovery SCADA adalah...
A Keduanya mengukur hal yang sama — lamanya waktu downtime yang ditoleransi
B RTO = berapa lama sistem boleh down (waktu recovery maksimal); RPO = berapa banyak data yang boleh hilang (waktu dari backup terakhir)
C RTO mengukur kehilangan data, RPO mengukur waktu recovery
D RTO dan RPO hanya relevan untuk sistem IT, tidak untuk SCADA
Benar! RTO = Recovery Time Objective — berapa lama maksimum sistem boleh tidak beroperasi (misal <15 menit untuk SCADA pembangkit). RPO = Recovery Point Objective — berapa banyak data yang boleh hilang, diukur sebagai jarak waktu dari backup terakhir ke saat insiden (misal <1 menit untuk data proses kritis).
■ PERTANYAAN 5 / 5
5. Dalam skenario Colonial Pipeline Ransomware Attack 2021, sistem SCADA pipeline dimatikan sebagai langkah pencegahan meskipun SCADA sendiri tidak terinfeksi. Hal ini menunjukkan bahwa DRP SCADA harus mencakup...
A Hanya prosedur pemulihan hardware dan software
B Prosedur operasi manual saat SCADA tidak tersedia, serta protokol isolasi sistem jika jaringan IT terkompromi untuk melindungi OT
C Hanya backup data dan prosedur restore database
D Penggantian semua hardware dengan yang baru setelah serangan
Benar! Colonial Pipeline dimatikan bukan karena SCADA-nya terinfeksi, melainkan karena khawatir IT network yang terinfeksi ransomware bisa menyebar ke OT network. DRP harus mencakup: (1) prosedur operasi manual/darurat tanpa SCADA, (2) protokol segmentasi OT dari IT saat insiden siber, dan (3) prosedur verifikasi integritas SCADA sebelum kembali online.