崗位要求
1、計算機科學、信息技術(shù)或相關(guān)領(lǐng)域的本科及以上學歷,五年以上較大規(guī)模業(yè)務平臺維護經(jīng)驗;
2、精通Linux操作系統(tǒng)維護、內(nèi)核性能調(diào)優(yōu)、TCP/IP、HTTP等協(xié)議,有良好的網(wǎng)絡、數(shù)據(jù)存儲、計算機體系結(jié)構(gòu)方面的知識 ,具備的很強技術(shù)敏感度和故障排查經(jīng)驗;
3、熟練使用Python/Shell/Go等至少一種語言,可開發(fā)自動化運維腳本及工具。
4、熟悉網(wǎng)絡協(xié)議,熟悉常見的網(wǎng)絡問題分析和處理,熟悉主機路由、防火墻配置及維護;
5、有nginx、web server、分布式系統(tǒng)、Redis、RocketMQ、ELK、Mysql等主流應用組件的高可用架構(gòu)設(shè)計以及維護經(jīng)驗; 熟悉prometheus/ELK/全鏈路端到端監(jiān)控體系;熟悉騰訊云/阿里云/天翼云等云廠商產(chǎn)品的運維;
6、熟悉容器化(k8s/docker)架構(gòu)及常見云平臺運維技術(shù),有較大規(guī)模生產(chǎn)環(huán)境的k8s容器集群部署和維護經(jīng)驗者優(yōu)先;
7、工作細致、善于思考,有很強的問題分析和解決的能力;強烈的責任心、良好的溝通和協(xié)調(diào)能力、極強的業(yè)務推動能力、勇于接受挑戰(zhàn);具備較強的文檔編寫能力。
8、愿意接受7*24小時根據(jù)監(jiān)控系統(tǒng)或人工報障信息,隨時處理線上系統(tǒng)故障,保障系統(tǒng)穩(wěn)定運行。
崗位職責
1. 主導故障與風險全流程管控:根據(jù)公司運維管理辦法,組織運維、研發(fā)等跨團隊排查定位現(xiàn)網(wǎng)故障、性能瓶頸及安全風險,推動快速恢復;負責故障根因分析并輸出報告,提煉改進措施形成閉環(huán)管理。
2. 負責隱患治理與架構(gòu)優(yōu)化:定期開展系統(tǒng)隱患巡檢與容量評估,制定并推動架構(gòu)瓶頸、資源冗余等問題的優(yōu)化方案落地;參與服務可運維性設(shè)計評審和運維架構(gòu)迭代,推動高可用、容器化、彈性伸縮等技術(shù)落地提升系統(tǒng)穩(wěn)定性和擴展性。
3. 完善監(jiān)控與指標體系:持續(xù)完善端到端全鏈路監(jiān)控體系,整合日志、鏈路追蹤等工具實現(xiàn)早發(fā)現(xiàn)早預警;制定SLI/SLO/SLA核心指標,設(shè)計定制化監(jiān)控看板及告警策略。
4. 推進跨團隊協(xié)同攻堅:與產(chǎn)品、研發(fā)、測試等團隊的常態(tài)化協(xié)作,提前介入運維需求評估;提前發(fā)現(xiàn)設(shè)備長連接、升級、高并發(fā)等核心并發(fā)場景中,可能引入的風險,并協(xié)同研發(fā)規(guī)避。
5. 保障變更與事件管理:組織平臺變更管理,覆蓋申請、評審、灰度、回滾及復盤全環(huán)節(jié);按事件管理流程分級處置現(xiàn)網(wǎng)事件,確保SLA內(nèi)閉環(huán)并優(yōu)化流程。
備注:合同主體為第三方外包公司。