Merancang sistem SCADA yang tahan gangguan bukan sekadar menambahkan hardware cadangan — ini adalah proses desain sistematis yang mempertimbangkan setiap titik kegagalan (Single Point of Failure / SPOF) dan strategi eliminasinya.
- Eliminate SPOF — Identifikasi setiap komponen yang jika gagal akan menghentikan seluruh sistem, lalu tambahkan redundansi
- Defense in Depth — Berlapis: hardware redundant + software watchdog + network redundant + power backup
- Graceful Degradation — Sistem harus tetap berfungsi sebagian meskipun komponen gagal, bukan langsung total shutdown
- Independent Failure Domains — Komponen redundan harus benar-benar independen (power berbeda, lokasi berbeda, jaringan berbeda)
- Automatic vs Manual Recovery — Tentukan apa yang auto-recover dan apa yang butuh konfirmasi operator
╔══════════════════════════════════════════════════════════════╗ ║ IDENTIFIKASI SPOF — SISTEM SCADA TIPIKAL ║ ╚══════════════════════════════════════════════════════════════╝ LEVEL 0 — FIELD: [SPOF] Sensor tunggal → Solusi: Sensor duplikat + voting logic [SPOF] Kabel field tunggal → Solusi: Dual cable path LEVEL 1 — CONTROL: [SPOF] Single PLC → Solusi: Hot Standby PLC pair [SPOF] Single I/O Module → Solusi: Redundant I/O modules [SPOF] Single PSU → Solusi: Dual redundant PSU LEVEL 2 — SUPERVISORY: [SPOF] Single SCADA Server → Solusi: Primary + Standby server [SPOF] Single HMI workstation → Solusi: Multiple HMI workstations [SPOF] Single switch core → Solusi: Dual core switches (ring) INFRASTRUKTUR: [SPOF] Single power feed → Solusi: Dual feed + UPS + Generator [SPOF] Single fiber path → Solusi: Ring topology fiber [SPOF] Single site → Solusi: Disaster Recovery Site TARGET: Zero SPOF pada sistem tier kritis (safety / availability > 99.99%)
Arsitektur dual-server adalah fondasi High Availability pada lapisan supervisory (Level 2 Purdue Model). Dua SCADA server beroperasi secara terkoordinasi untuk memastikan layanan tidak terputus saat salah satu gagal.
(VLAN 10)
+ DATA SYNC
(VLAN 20)
| TIPE DATA | METODE SYNC | FREKUENSI | LATENCY TOLERANSI |
|---|---|---|---|
| Real-time Process Data (tag values) | In-memory replication via dedicated sync interface | Setiap scan cycle (100ms–1s) | < 100ms |
| Application State (alarm states, setpoints) | State machine replication | Event-driven (saat ada perubahan) | < 500ms |
| Historical Data (trend, logs) | Database log shipping / replication | 1–5 menit | < 5 menit data loss |
| Configuration (tag database, graphics) | File synchronization (rsync/robocopy) | Saat ada perubahan config | Tidak real-time |
Semua client (HMI workstation, historian, PLC driver) harus dikonfigurasi untuk terhubung ke Virtual IP Address (VIP), bukan ke IP fisik server. VIP "berpindah" dari server primary ke server standby saat failover — sehingga client tidak perlu dikonfigurasi ulang.
Teknologi: Windows Server Failover Clustering, Linux Keepalived/VRRP, atau mekanisme built-in SCADA software seperti Ignition Redundancy atau Wonderware InBatch.
Jaringan komunikasi adalah urat nadi sistem SCADA. Gangguan pada satu switch atau kabel bisa memutus komunikasi antara SCADA server dengan PLC/RTU di lapangan. Topologi ring dengan protokol redundansi adalah solusi standar industri.
TOPOLOGI BUS (TIDAK DIREKOMENDASIKAN): [Switch] ─── [PLC-1] ─── [PLC-2] ─── [PLC-3] ─── [PLC-4] Jika kabel putus di tengah → semua PLC setelahnya tidak terhubung! TOPOLOGI STAR (TERBATAS): [Core Switch] / | \ \ [PLC-1] [PLC-2] [PLC-3] [PLC-4] Jika Core Switch gagal → SELURUH JARINGAN MATI! (SPOF) TOPOLOGI RING — DUAL CORE (DIREKOMENDASIKAN): [SCADA Server 1] ─ [Core Switch A] ─────────────── [Core Switch B] ─ [SCADA Server 2] │ │ [Switch Dist-1] [Switch Dist-4] │ │ [PLC-A / M580] [PLC-D / M580] │ │ [Switch Dist-2] [Switch Dist-3] │ │ [PLC-B / M340]──────────────────[PLC-C / M251] (RING CLOSED) RSTP: Jika SATU link putus → recovery dalam < 1 detik! HSR/PRP: Zero recovery time — frame dikirim ke 2 jalur bersamaan
| PROTOKOL | STANDAR | RECOVERY TIME | CARA KERJA | COCOK UNTUK |
|---|---|---|---|---|
| STP | IEEE 802.1D | 30–60 detik | Memblokir port untuk mencegah loop. Recovery sangat lambat. | Tidak direkomendasikan OT |
| RSTP | IEEE 802.1w | < 1 detik | Rapid convergence. Semua switch bernegosiasi cepat untuk jalur alternatif. | SCADA standar, Modbus TCP |
| HSR | IEC 62439-3 Kls A | 0ms (Zero) | Setiap frame dikirim ke dua arah ring bersamaan. Penerima pakai yang datang pertama. | IEC 61850 Substation, safety-critical |
| PRP | IEC 62439-3 Kls B | 0ms (Zero) | Dua LAN paralel penuh. Frame dikirim ke kedua LAN. Receiver ambil yang tiba pertama. | Substation, pembangkit kritis |
| MRP | IEC 62439-2 (PROFINET) | < 200ms | Khusus untuk ring topology Profinet Siemens. Master mendeteksi break dan reconfig. | Siemens PROFINET automation |
HSR: Semua device harus mendukung HSR (ada HSR node di setiap device). Cocok saat semua device baru dan mendukung HSR. Membentuk ring fisik.
PRP: Dua jaringan LAN sepenuhnya terpisah (A dan B). Device tidak perlu tahu tentang PRP — terhubung ke dua LAN biasa. Lebih mudah diimplementasi saat device legacy. Lebih mahal (dua kali infrastructure).
Pada level kontrol, PLC adalah komponen kritis yang jika gagal dapat menghentikan proses secara tiba-tiba. Redundansi PLC memastikan kontrol proses tetap berjalan meskipun CPU atau modul I/O mengalami kegagalan.
╔════════════════════════════════════════════════════════════╗ ║ HOT STANDBY PLC — SCHNEIDER MODICON M580 ║ ╚════════════════════════════════════════════════════════════╝ CHASSIS PRIMARY (Rack A): ┌─────────────────────────────────────┐ │ [PSU-A1] [CPU-M580-A] [BMENOC0301] │ ← Ethernet Comm Module │ [DI-32ch] [DO-32ch] [AI-8ch] [AO] │ ← I/O Modules └──────────────┬──────────────────────┘ │ SYNC CABLE (dedicated) │ + HSBY ETHERNET LINK │ CHASSIS STANDBY (Rack B): ┌─────────────────────────────────────┐ │ [PSU-B1] [CPU-M580-B] [BMENOC0301] │ │ [DI-32ch] [DO-32ch] [AI-8ch] [AO] │ ← Identical hardware └──────────────┬──────────────────────┘ │ [Field Devices] (Sensor, Valve, Motor) MEKANISME SYNC: Setiap scan cycle (mis. 20ms): 1. CPU-A menyelesaikan scan cycle 2. CPU-A mengirim current state ke CPU-B via sync link (Output values, Internal registers, Timer status, Counter values) 3. CPU-B update state-nya untuk siap ambil alih kapan saja SAAT KEGAGALAN CPU-A: Waktu deteksi : 1–3 scan cycles (20–60ms) Waktu switchover: < 1 scan cycle Output behavior : Seamless — output tidak berubah Operator notice : Alarm "PRIMARY FAILED, STANDBY ACTIVE" LED STATUS DISPLAY: CPU-A Active : PRIM LED: Hijau Solid CPU-B Standby : STBY LED: Hijau Berkedip CPU-A Failed : ERR LED: Merah Solid CPU-B Active : PRIM LED: Hijau Solid (after takeover)
| TIPE REDUNDANSI I/O | DESKRIPSI | KELEBIHAN | KELEMAHAN |
|---|---|---|---|
| Simplex I/O | Satu modul I/O per group sinyal. Tidak ada redundansi. | Murah, sederhana | SPOF — modul gagal = sinyal hilang |
| Redundant I/O Modules | Dua modul I/O identik per channel. Jika satu gagal, yang lain ambil alih. | Tidak ada data loss saat modul gagal | Biaya 2x, butuh wiring ganda |
| Dual I/O Bus | Dua bus backplane terpisah. Setiap modul terhubung ke dua bus. | Proteksi dari kegagalan backplane | Hanya beberapa platform PLC mendukung |
| Triple Modular Redundancy (TMR) | Tiga modul identik. Keputusan berdasarkan majority vote (2-of-3). | Sangat andal, deteksi kegagalan tunggal tanpa shutdown | Biaya 3x, kompleks. Digunakan di safety systems (SIL 3–4) |
TMR (Triple Modular Redundancy) menggunakan tiga modul identik yang berjalan paralel. Voter circuit membandingkan output ketiganya:
- 3 dari 3 setuju → output normal
- 2 dari 3 setuju → output berdasarkan majority, alarm kegagalan satu modul
- Semua berbeda → sistem failsafe — trigger emergency shutdown
Digunakan di: Emergency Shutdown System (ESD) pada kilang migas, reaktor nuklir, sistem proteksi turbin pembangkit listrik.
DRP adalah rencana terstruktur untuk memulihkan sistem SCADA setelah bencana besar yang tidak dapat ditangani dengan redundansi lokal — seperti kebakaran gedung control room, banjir, gempa bumi, atau serangan siber masif.
- Bencana Alam — Kebakaran, banjir, gempa bumi yang merusak site primer
- Serangan Siber Masif — Ransomware yang mengenkripsi seluruh server SCADA (seperti Colonial Pipeline 2021)
- Kegagalan Infrastruktur — Blackout berkepanjangan, kerusakan fiber backbone
- Sabotase Fisik — Terorisme, vandalisme pada infrastruktur kritis
RTO dan RPO adalah dua metrik paling penting dalam DRP yang menentukan seberapa cepat sistem harus pulih dan berapa banyak data yang boleh hilang.
| SISTEM | RPO (DATA LOSS) | RTO (RECOVERY TIME) | STRATEGI DR |
|---|---|---|---|
| Safety System (ESD/F&G) | 0 detik | < 1 menit | TMR redundansi, Hot Standby, tidak ada single DR site — selalu redundan lokal |
| SCADA Pembangkit Listrik | < 1 menit | < 15 menit | Hot DR Site, real-time replication, dedicated fiber backbone ke DR site |
| SCADA Distribusi Air | < 15 menit | < 1 jam | Warm DR Site, periodik backup + sync, manual operation capability |
| SCADA Manufaktur | < 1 jam | < 4 jam | Warm/Cold DR Site, daily backup, spare hardware on-site |
| SCADA Non-Kritis | < 24 jam | < 24 jam | Cold DR Site, offsite backup, cloud backup |
Berikut adalah studi kasus komprehensif desain arsitektur SCADA yang aman dan tahan gangguan untuk Pembangkit Listrik Tenaga Uap (PLTU) kapasitas 350 MW.
╔═════════════════════════════════════════════════════════════════╗ ║ DESAIN SCADA FAULT-TOLERANT — PLTU 350 MW ║ ╚═════════════════════════════════════════════════════════════════╝ TARGET AVAILABILITY: 99.999% (Five Nines) RTO: < 15 menit | RPO: < 1 menit ═══ LAYER 0: FIELD INSTRUMENTATION ═══ Sensor Suhu (PT100/Thermocouple): → Dual sensor per titik kritis + voting logic di DCS Sensor Tekanan (Pressure Transmitter): → Redundant 2oo3 (2-out-of-3) pada steam line utama Flow Meter: Coriolis primary + DP transmitter backup ═══ LAYER 1: CONTROL SYSTEM ═══ DCS Utama (Boiler + Turbine): → Emerson DeltaV + Redundant Controller (CHARMS I/O) → Hot Standby CPU pair, recovery < 1 scan cycle → Redundant I/O modules (1:1) → Redundant power supply modules PLC Safety System (ESD + F&G): → Schneider Triconex TMR PLC (SIL 3) → Triple Modular Redundancy — 3 CPU + 3 I/O per channel PLC Auxiliary (Balance of Plant): → Schneider Modicon M580 Hot Standby ═══ LAYER 2: CONTROL NETWORK ═══ Topology : Dual Ring (HSR — IEC 62439-3) Protocol : EtherNet/IP + Modbus TCP + OPC UA Switches : Redundant Industrial Managed Switches Recovery : Zero switchover time (HSR) ═══ LAYER 3: SUPERVISORY SYSTEM ═══ SCADA Platform : Wonderware System Platform (AVEVA) Server Config : Active/Standby dengan Virtual IP Server-1 (Primary): Dell PowerEdge R750, Windows Server 2022 Server-2 (Standby): Identik, Data sync setiap 100ms Historian : OSIsoft PI Server (Redundant) HMI Workstations : 4 unit (2 operator, 1 engineering, 1 supervisor) Failover Time : < 30 detik ═══ LAYER 4: POWER INFRASTRUCTURE ═══ Primary Power : PLN 20kV via 2 feeder terpisah UPS : 2 × 40kVA UPS (parallel redundant) Battery Backup : 30 menit minimum runtime Genset : 2 × 200kVA Diesel Generator (auto-start <10 detik) DUPS : Diesel-rotary UPS (untuk critical control panel) ═══ DISASTER RECOVERY SITE ═══ Lokasi : Site terpisah 50 km dari main site Connection : Dedicated 100 Mbps fiber (+ 4G LTE backup) Platform : Warm DR SCADA Server (sync setiap 5 menit) RTO target : 15 menit | RPO target: < 5 menit HASIL PERHITUNGAN AVAILABILITY: MTBF (dengan redundansi) ≈ 87,600 jam (10 tahun) MTTR (dengan hot standby) ≈ 0.5 jam A = 87600 / (87600 + 0.5) = 99.9994% ≈ Five Nines ✓
| AREA | ITEM CEK | STATUS |
|---|---|---|
| Server | Dual SCADA server dengan VIP failover | ✓ OK |
| Network | Ring topology dengan HSR/RSTP | ✓ OK |
| PLC | Hot standby atau TMR untuk safety critical | ✓ OK |
| Power | Dual feed + UPS + Genset dengan auto-transfer | ✓ OK |
| Data | Real-time replication + offsite backup | ✓ OK |
| DR Site | Warm/Hot DR site dengan tested procedures | ✓ OK |
| Testing | Jadwal DR drill minimal 2x per tahun | ⚠ Perlu dijadwalkan |
| Docs | DRP dokumen terdokumentasi dan up-to-date | ⚠ Review tahunan |