運維人員對公司互聯(lián)網(wǎng)業(yè)務所依賴的基礎(chǔ)設施、基礎(chǔ)服務、線上業(yè)務進行穩(wěn)定性加強,進行日常巡檢發(fā)現(xiàn)服務可能存在的隱患,對整體架構(gòu)進行優(yōu)化以屏蔽常見的運行故障,多數(shù)據(jù)中接入提高業(yè)務的容災能力,通過監(jiān)控、日志分析等技術(shù)手段,及時發(fā)現(xiàn)和響應服務故障,減少服務中斷的時間,使公司的互聯(lián)網(wǎng)業(yè)務符合預期的可用性要求,持續(xù)穩(wěn)定地為用戶提供務。
運維工作分類
運維的工作方向比較多,隨著業(yè)務規(guī)模的不斷發(fā)展,越成熟的互聯(lián)網(wǎng)公司,運維崗位會劃分得越細。當前很多大型的互聯(lián)網(wǎng)公司,在初創(chuàng)時期只有系統(tǒng)運維,隨著規(guī)模、服務質(zhì)量的 要求,也逐漸進行了工作細分。一般情況下運維團隊的工作分類和職責如下。

(圖為運維團隊的工作分類)
運維工作發(fā)展過程
早期的運維團隊在人員較少的情況下,主要是進行數(shù)據(jù)中心建設、基礎(chǔ)網(wǎng)絡建設、服務器采購和服務器安裝交付工作。幾乎很少涉及線上服務的變更、監(jiān)控、管理等工作。所以根據(jù)運維的發(fā)展,我們將運維劃分為4個階段,下圖所示。

(圖為運維發(fā)展過程)
這里我們著重說一下系統(tǒng)自調(diào)度階段,本階段含有更大規(guī)模的服務數(shù)量、更復雜的服務關(guān)聯(lián)關(guān)系、各個運維平臺的林立,原有的將批量操作轉(zhuǎn)化成平臺操作的方式已經(jīng)不再適合,需要對服務變更進行更高一層的抽象。將每一臺服務器抽象成一個容器,由調(diào)度系統(tǒng)根據(jù)資源使用情況,將服務調(diào)度、部署到合適的服務器上,自動化完成與周邊各個運維系統(tǒng)的聯(lián)動,比如監(jiān)控系統(tǒng)、日志系統(tǒng)、備份系統(tǒng)等。通過自調(diào)度系統(tǒng),根據(jù)服務運行情況動態(tài)伸縮容量,能夠自動化處理常見的服務故障。運維人員的工作也會前置到產(chǎn)品設計階段,協(xié)助研發(fā)人員改造服務使其可以接入到自調(diào)度系統(tǒng)中。
在整個運維的發(fā)展過程中,我們都希望所有的工作都自動化起來,減少人的重復工作,降低知識傳遞的成本,使我們的運維交付更高效、更安全,使產(chǎn)品運行更穩(wěn)定。對于故障的處理,也希望由事后處理變成提前發(fā)現(xiàn),由人工處理變成系統(tǒng)自動容災。