認識 RPO (Recovery Point Objective) 與 RTO (Recovery Time Objective)

「復原點目標」 (Recovery Point Objective, RPO) 和「復原時間目標」 (Recovery Time Objective, RTO) 是災難復原或資料保護計劃中最重要的兩個參數。這兩個目標可以用來指導企業選擇最佳的資料備份計劃。而 RPO/RTO 二者與「營運衝擊分析」 (Business Impact Analysis, BIS) 一起,可作為識別和分析可行性策略的基礎,並將其納入「企業營運持續計畫」 (Business Continuity Plan, BCP) 之中。

可行的策略選項包括任何能夠在 RPO/RTO 或接近的時間範圍內,恢復營運作業流程的選項。初看之下,這兩個術語似乎非常相似。我們理解它們之間區別的最佳方法,可將 RPO 中的「RP」 理解成備份資料被覆蓋的「重寫參數 (Rewrite Parameter) 」,而將 RTO 中的 「RT」理解成資料備份被還原時,所需要的 「實際時間 (Real Time) 」。

我們在為工作負載選取適用的災難復原 (Disaster Recovery, DR) 策略時, RTO 和 RPO 這兩個值,是重要的考慮因素。這些目標是由企業決定,然後由技術團隊用來選取和實作 DR 策略。

RPO: Recovery Point Objective

RPO 描述了在災難發生中斷期間可能經過的時間間隔,在此期間內資料遺失的數量,可被 BCP 接受的最大允許「閾值」 (Threshold) 或「容忍度」 (Tolerance) 。

舉例來說:如果在停電時,最後一份可用的良好資料備份是 18 小時前製作的,而該業務的 RPO 是 20 小時,那麼我們仍然在 BCP 的 RPO 參數可被接受的範圍之內。換句話說, RPO 回答了下面這個問題 — 「在災難中遺失資料的情況下,商業營運流程所需資料的復原,可以容忍到什麼時間點?」

RTO: Recovery Time Objective

RTO 是指在災難發生後,必須在多長時間內以及在什麼服務級別 (Service Level) 下恢復企業營運流程,以避免因連續性中斷而產生不可接受的後果。換句話說, RTO 回答下面這個問題 — 「在收到商業營運流程中斷的通知後,需要多長時間才能恢復?」

RPO 指定了在災難停機期間,將遺失或需要重新載入的資料量。 RTO 指定了在災難開始後,導致嚴重且無法避免地阻礙正常商業營運流程之前,可被允許經過的「實際時間」。

討論

實際復原時間 (Recovery Time Actual, RTA) 和實際復原點 (Recovery Point Actual, RPA) ,無論是通過各種手動和自動步驟引入的手段,來讓企業營運應用系統恢復運作,他們與 RTO/RPO 的目標值之間,總是存在差距。而實際發生時的情況,只能通過災防演習和企業營運流程中斷演習等演練過程,來揭示目標與實際二者的差距,進一步改善缺失,朝理想前進。

參考資料

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料