當前位置:編程學習大全網 - 熱門推薦 - 運維行為準則

運維行為準則

圍繞運維核心價值和工作四大方向:安全 穩定 高效 低成本,談壹談運維人員應該具備的行為準則和專業意識。

壹,敬畏線上環境 :

未經授權,不得私自在生產環境進行調測性質的操作;

未經授權,不得私自在生產環境做任何變更操作。

99%以上的人為事故都源於以上兩條,很多事故都往往發生在執行未經驗證過的指令或者做了自認為不會導致線上故障的操作的情況下。

二,關於故障:

1,故障診斷第壹原則:優先恢復業務,而不是定位問題。

2,不以發生故障為恥,以快速恢復為榮,以人為事故為恥。

三,關於如何進行故障casestudy :

1,回顧故障發生、發現、解決全過程。

2,故障根因分析。

3,ask why。需要反思並反問至少3個為什麽並找到答案,通過周邊跡象發現潛在問題和問題背後的問題。

4,故障整改計劃。需要針對上面的why說明如何舉壹反三地從根本上解決所有問題。

四,關於變更:

SRE的經驗告訴我們,70%以上的生產事故都是由變更引發,那麽每壹次變更操作如何避免出現變更事故,要從變更單說起,壹個完整而且專業的變更單我認為需要五大要素:

1,遵循灰度發布原則。

2,事前做好數據備份和影響通告。

3,操作步驟命令或者工具化,是可執行的,而不是文字描述。

4,要有效果和回歸驗證。

5,要有回滾步驟,效果和回歸驗證不符合預期立即回滾。

五,關於輪值

1,在on-call輪值期間,保證7*24小時待命和報警的隨時響應,電腦和網絡隨時可用,缺壹不可。

2, 做好值班期間的問題處理記錄,定時發送值班周報,用於定期總結和優化。

3, 做好跨值班的工作交接,值班期間未處理完的事務交接給下壹周期的值班人跟進。

六,關於業務接手

1, 弄明白壹個系統如何工作不能讓妳成為專家,能快速診斷問題和修復它才是。

2, 故障預案:凡是沒有演練過的故障預案都不作數。

安全是運維工作開展的前提和必要條件,有同行描述這是壹種唇亡齒寒的關系,實為貼切。安全上出了問題,造成的影響以及後續的修復工作都將有運維來承擔。公司到了壹定規模都會將安全和運維劃分為兩個獨立團隊,這樣做事更專註,也容易做好。

1,安全無小事。

2,運維應該主動與安全合作,***建安全體系而不是被動響應。

1,有效率優化意識。瑣事不可避免,但要盡可能減少瑣事。對重復性、手工性的操作有天然的排斥感。

2,平臺或者體系建設要標準化先行,降低系統難度和復雜度。

3,要有成本意識。運維的壹個核心價值在於,雖然決定不了產品營收多少,但可以通過資源整合、彈性伸縮、服務混部、架構優化等手段將有限資源最大化利用,節省基礎設施資源成本。同時,通過效率的提升也可以優化人力資源成本。

  • 上一篇:趕集網和百姓網哪個好
  • 下一篇:刀郎懷念戰友原唱
  • copyright 2024編程學習大全網