1、智算平臺運維:負責大規(guī)模GPU集群平臺的日常運維與監(jiān)控,確保平臺穩(wěn)定運行(N卡/國內GPU卡);
2、系統(tǒng)部署與管理:協(xié)助進行服務器、存儲設備及網絡設備的上架、部署、配置、管理與維護;
3、故障排除與性能調優(yōu):及時響應GPU集群軟硬件、網絡及操作系統(tǒng)故障,進行排查與處理,優(yōu)化系統(tǒng)性能,保障平臺的高效運行;
4、巡檢:定期對智算平臺GPU節(jié)點及網絡設備軟硬件、服務等進行巡檢,按時提交高質量日常報告;
5、文檔維護:編寫與更新運維文檔,包括配置文件、操作手冊和故障排查記錄;
任職要求:
1、熟悉 Linux 系統(tǒng)管理與操作(如 CentOS、Ubuntu 等)及排障;
2、熟悉常見的云平臺(如阿里云、騰訊云、AWS)及虛擬化技術
3、熟悉容器化技術,如docker/k8s等,有cka證書優(yōu)先; ---重點
4、具備一定的監(jiān)控工具使用經驗(如 Prometheus、Grafana、Zabbix 等);
5、熟悉Python、Shell、Go等一種或多種編程語言;