一、工作職責(zé)
1、平臺高可用運(yùn)維與監(jiān)控:
負(fù)責(zé)平臺基于Kubernetes的容器化微服務(wù)架構(gòu)的日常巡檢、監(jiān)控、故障排查與性能優(yōu)化。
維護(hù)和管理平臺核心組件(如GitLab、Harbor、Nexus、SonarQube、Tekton流水線等)的穩(wěn)定運(yùn)行。
通過監(jiān)控系統(tǒng)(如Prometheus/Grafana)和日志系統(tǒng),主動發(fā)現(xiàn)并解決潛在問題,確保平臺SLA。
2、用戶支持與問題解決:
作為平臺技術(shù)專家,響應(yīng)用戶(項目經(jīng)理、開發(fā)者、測試人員等)在使用過程中遇到的技術(shù)問題,提供及時、準(zhǔn)確的解決方案。
處理用戶關(guān)于項目創(chuàng)建、流水線執(zhí)行、權(quán)限配置、賬戶管理等操作的咨詢和故障報修。
3、平臺配置與持續(xù)改進(jìn):
負(fù)責(zé)平臺管理后臺的配置工作,包括用戶與角色權(quán)限管理、廠商信息管理、系統(tǒng)配置等。
根據(jù)業(yè)務(wù)需求,維護(hù)和優(yōu)化CI/CD流水線模板、工程腳手架模板。
協(xié)助優(yōu)化和落地DevOps規(guī)范與流程,提升平臺的易用性和團(tuán)隊協(xié)作效率。
4、安全、備份與災(zāi)備:
執(zhí)行平臺的安全策略,定期進(jìn)行安全漏洞掃描和修復(fù),管理鏡像安全。
制定并實施平臺及數(shù)據(jù)的備份與恢復(fù)策略,定期進(jìn)行災(zāi)備演練。
5、文檔與知識沉淀:
編寫和維護(hù)平臺運(yùn)維手冊、故障處理手冊、用戶操作指南等文檔。
沉淀運(yùn)維知識,分享最佳實踐,幫助團(tuán)隊共同成長。
二、任職要求:
必備條件:
1、學(xué)歷與經(jīng)驗:? 計算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,擁有3年以上中大型軟件系統(tǒng)或云平臺運(yùn)維經(jīng)驗,有DevOps平臺運(yùn)維經(jīng)驗者優(yōu)先。
2、容器與編排技術(shù):? 精通Docker容器技術(shù),對Kubernetes有深入的了解和實戰(zhàn)經(jīng)驗,能夠熟練進(jìn)行集群的部署、運(yùn)維和排障。
Linux與網(wǎng)絡(luò):? 精通Linux操作系統(tǒng),掌握Shell/Python/Go等至少一種腳本語言用于自動化運(yùn)維。具備扎實的網(wǎng)絡(luò)知識(TCP/IP, DNS, 負(fù)載均衡等)。
3、DevOps工具鏈:? 熟悉并理解Git、CI/CD(如Jenkins, Tekton, GitLab CI等)、制品庫(如Harbor, Nexus)、代碼掃描(如SonarQube)等工具的原理和使用。
4、問題解決能力:? 具備強(qiáng)烈的責(zé)任心、縝密的邏輯思維和出色的故障排查能力,能承受一定的工作壓力。
溝通協(xié)作:? 具備良好的溝通能力和服務(wù)意識,能夠與開發(fā)、測試、項目管理等多個角色高效協(xié)作。
優(yōu)先考慮:
1、有大型企業(yè)級DevOps平臺或研發(fā)協(xié)同平臺建設(shè)或運(yùn)維經(jīng)驗者。
2、熟悉敏捷開發(fā)流程和項目管理(如Scrum、Kanban)者。
3、具備云平臺(如騰訊云TKE、AWS EKS、阿里云ACK)運(yùn)維經(jīng)驗者。
4、持有Kubernetes(CKA/CKAD)、Linux、網(wǎng)絡(luò)等相關(guān)認(rèn)證者。