崗位職責(zé):
大數(shù)據(jù)平臺運(yùn)維管理:負(fù)責(zé)云端數(shù)據(jù)中心底層鏈路規(guī)劃、部署建設(shè),確保數(shù)據(jù)中心的基礎(chǔ)設(shè)施穩(wěn)定可靠。
數(shù)據(jù)鏈路和服務(wù)監(jiān)控:負(fù)責(zé)數(shù)據(jù)鏈路、服務(wù)監(jiān)視運(yùn)維,進(jìn)行性能調(diào)優(yōu)和故障排查,同時撰寫相關(guān)資料輸出。
監(jiān)控治理與用戶對接:負(fù)責(zé)云端數(shù)據(jù)中心監(jiān)視治理、高級功能業(yè)務(wù)運(yùn)維,保證系統(tǒng)的高可用性,及時處理用戶反饋和需求。
數(shù)據(jù)處理與調(diào)度管理:維護(hù)和優(yōu)化大數(shù)據(jù)產(chǎn)品的ETL流程、數(shù)據(jù)調(diào)度任務(wù),保證數(shù)據(jù)處理任務(wù)的高效執(zhí)行。
系統(tǒng)自動化管理:編寫和維護(hù)自動化運(yùn)維腳本,提升系統(tǒng)管理效率。
資源調(diào)配與容量規(guī)劃:根據(jù)業(yè)務(wù)需求進(jìn)行資源規(guī)劃和調(diào)配,合理利用集群資源,保證系統(tǒng)性能。
問題解決與故障恢復(fù):及時發(fā)現(xiàn)并解決系統(tǒng)運(yùn)行中的問題,快速響應(yīng)緊急故障并提供恢復(fù)方案。
日志分析與性能優(yōu)化:通過日志分析、監(jiān)控?cái)?shù)據(jù)等手段,對系統(tǒng)進(jìn)行性能分析和優(yōu)化。
協(xié)作與技術(shù)支持:與開發(fā)團(tuán)隊(duì)和數(shù)據(jù)分析團(tuán)隊(duì)協(xié)作,提供技術(shù)支持,推動產(chǎn)品迭代和改進(jìn)。
文檔編寫與知識管理:編寫和維護(hù)運(yùn)維相關(guān)文檔,整理技術(shù)方案與常見問題處理方法。
招聘條件:
工作經(jīng)驗(yàn):兩年以上大數(shù)據(jù)產(chǎn)品(數(shù)據(jù)庫、大數(shù)據(jù)等)運(yùn)維工作經(jīng)驗(yàn)。
技術(shù)能力:
熟練掌握主流數(shù)據(jù)庫產(chǎn)品、大數(shù)據(jù)產(chǎn)品的運(yùn)行原理。
熟悉相關(guān)編程語言,熟悉至少一種Linux操作系統(tǒng)版本,能夠看懂簡單的Shell或Python腳本。
熟悉至少一種大數(shù)據(jù)產(chǎn)品(如Hadoop、Spark等)的部署、調(diào)優(yōu)、升級擴(kuò)容、性能監(jiān)控等。
運(yùn)維技能:
熟練掌握大數(shù)據(jù)產(chǎn)品整體監(jiān)視鏈路及運(yùn)維流程,能夠進(jìn)行熟練部署。
能夠?qū)收项悊栴}進(jìn)行快速定位排查并解決。
客戶需求優(yōu)化:根據(jù)客戶的具體業(yè)務(wù)需求,配合完成相關(guān)數(shù)據(jù)產(chǎn)品的優(yōu)化工作。
軟技能:具備責(zé)任心、良好的溝通能力、學(xué)習(xí)能力及團(tuán)隊(duì)合作能力,具有很好的客戶服務(wù)意識。