【崗位職責(zé)】
1、負(fù)責(zé)大數(shù)據(jù)集群核心組件的全生命周期運維,包括Ambari部署管理、Hadoop(HDFS/YARN)集群運維、Spark/Flink計算任務(wù)支持、Hive/HBase數(shù)據(jù)存儲管理,以及 Kylin、Doris、ES、Zookeeper、海豚調(diào)度器的日常巡檢、故障排查與版本升級,保障集群7×24小時穩(wěn)定運行。
2、參與大數(shù)據(jù)技術(shù)體系的信創(chuàng)適配落地與運維,針對飛騰、海光、鯤鵬芯片服務(wù)器,以及麒麟 V10SP2/3 操作系統(tǒng),解決組件兼容性問題(如 Hadoop與鯤鵬芯片驅(qū)動適配、Flink在麒麟系統(tǒng)的依賴庫沖突),沉淀信創(chuàng)環(huán)境運維手冊與故障處理預(yù)案。
3、基于 RedHat、CentOS、麒麟 V10SP2/3 操作系統(tǒng),通過Shell腳本實現(xiàn)運維任務(wù)自動化,如集群狀態(tài)批量檢查、日志定期清理、配置跨節(jié)點同步;同時利用Python或Go 語言研發(fā)運維工具,提升運維效率(如歷史故障自動分析工具、組件配置校驗工具)。
4、參與集群容量規(guī)劃、性能調(diào)優(yōu)與監(jiān)控告警體系迭代,結(jié)合業(yè)務(wù)數(shù)據(jù)增長與計算需求,輸出資源擴(kuò)容建議;針對慢查詢、任務(wù)阻塞等問題,聯(lián)合業(yè)務(wù)團(tuán)隊優(yōu)化SQL語句、調(diào)整組件參數(shù)。
5、負(fù)責(zé)運維文檔沉淀,包括集群架構(gòu)圖、組件部署手冊、故障處理案例、信創(chuàng)適配指南等,配合團(tuán)隊完成新人帶教與技術(shù)分享。
6、完成領(lǐng)導(dǎo)安排的其他工作。
【任職要求】
1、本科及以上學(xué)歷,計算機(jī)、大數(shù)據(jù)、軟件工程相關(guān)專業(yè)優(yōu)先,3年及以上大數(shù)據(jù)集群運維經(jīng)驗,有金融、互聯(lián)網(wǎng)等大規(guī)模集群(50節(jié)點以上)運維經(jīng)驗者優(yōu)先。
2、精通Hadoop生態(tài)組件原理與運維,能獨立解決HDFS塊丟失、YARN資源死鎖、Hive元數(shù)據(jù)損壞、Flink任務(wù)背壓等復(fù)雜故障;熟悉Spark/Flink任務(wù)提交、資源配置與調(diào)優(yōu),了解Kylin/Doris的預(yù)計算邏輯與查詢優(yōu)化。
3、熟練使用RedHat/CentOS系統(tǒng)命令,精通Shell腳本編程;具備Python或Go語言開發(fā)能力,有實際大數(shù)據(jù)運維工具開發(fā)案例(如自動化部署工具、巡檢工具)者優(yōu)先。
4、熟悉監(jiān)控告警工具(如 Prometheus、Grafana、夜鶯),能獨立搭建組件監(jiān)控面板、配置告警規(guī)則;具備容量規(guī)劃、性能調(diào)優(yōu)經(jīng)驗,了解云原生技術(shù)(Docker、K8s)者優(yōu)先。
5、具備較強(qiáng)的問題分析與應(yīng)急處理能力,責(zé)任心強(qiáng),能接受節(jié)假日值班與突發(fā)故障應(yīng)急響應(yīng)。