工作內(nèi)容:
1.負(fù)責(zé)部署和維護(hù)多環(huán)境(研發(fā)/測試/現(xiàn)場)k8s集群,保障集群長期穩(wěn)定運(yùn)行
2.負(fù)責(zé)k8s集群故障排查、性能調(diào)優(yōu),定位pod、網(wǎng)絡(luò)、存儲等各種組件故障問題 (熟練使用kubectl debug、kube-apiserver日志分析等調(diào)試手段)
3.負(fù)責(zé)對接客戶不同云平臺的k8s環(huán)境(包括自建的k8s集群), 適配云原生數(shù)據(jù)庫產(chǎn)品的高效部署和穩(wěn)定運(yùn)行
4.k8s相關(guān)生態(tài)的二次開發(fā), 搭建基于k8s的可觀測性平臺(監(jiān)控Prometheus系統(tǒng)+日志ELK/Loki系統(tǒng))、鏡像倉庫平臺以及持久化存儲平臺等生態(tài)系統(tǒng)
任職要求:
1.掌握Kubernetes集群的基本工作原理與相關(guān)主要插件,能夠獨(dú)立負(fù)責(zé)Kubernetes集群的管理和維護(hù)工作,能夠分析處理常見的容器、網(wǎng)絡(luò)以及存儲方面的故障
2.熟悉容器技術(shù)及其理念,熟悉Docker/Kubernetes/Etcd等云原生技術(shù)棧的配置及管理,熟悉harbor、helm等容器生態(tài)系統(tǒng)
3.至少精通一門腳本語言(shell/python),有Go語言經(jīng)驗(yàn)更佳
4.熟悉Rancher/Ansible/Kubesphere等容器編排管理平臺,有大型分布式系統(tǒng)運(yùn)維經(jīng)驗(yàn)的優(yōu)先
5.熟悉Prometheus、Grafana、ELK等監(jiān)控(服務(wù)健康監(jiān)控,資源監(jiān)控,日志監(jiān)控等)自動化配置,能夠快速實(shí)現(xiàn)監(jiān)控的覆蓋和故障告警通知
6.具備k8s生產(chǎn)環(huán)境使用經(jīng)驗(yàn),主導(dǎo)過k8s業(yè)務(wù)落地或大規(guī)模集群運(yùn)維的優(yōu)先
7.有較強(qiáng)的動手實(shí)踐能力、良好的溝通、團(tuán)隊協(xié)作精神,具備一定的抗壓能力