平臺(tái)運(yùn)維工程師
崗位職責(zé)
1.負(fù)責(zé)HPC集群及大數(shù)據(jù)平臺(tái)的全程運(yùn)維,包括硬件監(jiān)控、性能調(diào)優(yōu)、故障處理
2.負(fù)責(zé)維護(hù)和管理軟件license服務(wù)器,解決許可證調(diào)度問題
3.維護(hù)Linux系統(tǒng)及作業(yè)調(diào)度系統(tǒng),保障計(jì)算資源高效分配
4.管理MySQL/ClickHouse等數(shù)據(jù)庫集群,設(shè)計(jì)高可用與數(shù)據(jù)遷移方案
5.構(gòu)建Docker/Kubernetes容器化環(huán)境,支持CAE軟件容器化部署與運(yùn)行
6.開發(fā)運(yùn)維自動(dòng)化工具(Python/Shell+Ansible),完善監(jiān)控與告警體系
7.制定運(yùn)維文檔及應(yīng)急預(yù)案,提高故障響應(yīng)效率。
技能要求
1.本科及以上學(xué)歷,3年+HPC/大數(shù)據(jù)運(yùn)維經(jīng)驗(yàn),扎實(shí)的Linux及Shell能力
2.精通MySQL運(yùn)維(高可用/數(shù)據(jù)遷移),熟悉Nginx配置與安全優(yōu)化
3.掌握容器化技術(shù)(Docker/K8s),有自動(dòng)化運(yùn)維工具(Ansible/SaltStack)實(shí)戰(zhàn)經(jīng)驗(yàn)
4.了解HPC并行計(jì)算(MPI/OpenMP)及作業(yè)調(diào)度系統(tǒng)(Slurm/LSF)
5.了解Python/Shell自動(dòng)化腳本,通過腳本實(shí)現(xiàn)簡易的自動(dòng)化功"
知識(shí)要求
1.熟悉CAE軟件(LS-DYNA/STAR-CCM+/Abaqus等)或License管理(FlexLM/RLM)
2.有數(shù)據(jù)庫跨平臺(tái)同步、Lustre/InfiniBand性能優(yōu)化經(jīng)驗(yàn)