核心職責(zé):
平臺設(shè)計與高可用保障:
基于Kubernetes和Docker,設(shè)計、構(gòu)建和維護高可用、可擴展的容器化平臺。
負(fù)責(zé)核心中間件(如MySQL, Redis)在Kubernetes上或云上的高可用架構(gòu)設(shè)計、部署與日常運維。
規(guī)劃和實施多可用區(qū)(Multi-AZ)、多區(qū)域(Multi-Region)的容災(zāi)方案。
可觀測性體系建設(shè):
運維和管理全鏈路可觀測性技術(shù)棧,包括Prometheus + Alertmanager(指標(biāo))、Loki + Fluent-Bit(日志)、Tempo(鏈路追蹤)。
基于Thanos/VictoriaMetrics等構(gòu)建全局的、長期存儲的監(jiān)控體系。
使用Grafana設(shè)計和開發(fā)統(tǒng)一的可視化儀表盤。
設(shè)計和優(yōu)化告警機制,確保告警的及時性、準(zhǔn)確性和有效性,減少告警疲勞。
基礎(chǔ)設(shè)施即代碼與自動化:
精通使用Terraform在AWS/騰訊云上進行基礎(chǔ)設(shè)施的生命周期管理。
使用Ansible進行系統(tǒng)配置管理和應(yīng)用部署。
建設(shè)和維護CI/CD流水線(Jenkins / GitHub Actions),實現(xiàn)從代碼到部署的完全自動化。
成本優(yōu)化:
持續(xù)監(jiān)控和分析云資源使用情況,識別成本浪費點。
通過資源規(guī)格優(yōu)化、Spot實例/Low-priority實例使用、自動擴縮容、存儲分層等策略,有效控制和優(yōu)化基礎(chǔ)設(shè)施成本。
為業(yè)務(wù)部門提供成本分?jǐn)偤蛢?yōu)化建議。
SRE實踐:
制定和優(yōu)化SLO/SLI,通過誤差預(yù)算驅(qū)動業(yè)務(wù)的穩(wěn)定性迭代。
參與制定容量規(guī)劃、應(yīng)急響應(yīng)和故障復(fù)盤流程。
任職要求:
1. 5年以上運維/SRE相關(guān)工作經(jīng)驗,其中至少2年專注于云原生和Kubernetes領(lǐng)域。
2. 有在生產(chǎn)環(huán)境大規(guī)模管理和運維Kubernetes集群的實戰(zhàn)經(jīng)驗。
3. 擁有在公有云(AWS或騰訊云至少精通其一)上設(shè)計和運維復(fù)雜高可用系統(tǒng)的成功經(jīng)驗。