崗位要求:
1.負責搭建和維護基于VictoriaMetrics/Prometheus的監(jiān)控系統(tǒng),實現(xiàn)指標采集、存儲和可視化;
2.開發(fā)Loki日志收集與分析管道,優(yōu)化日志查詢性能;
3.設計Grafana監(jiān)控看板,制定業(yè)務/系統(tǒng)級監(jiān)控指標標準;
4.維護node-exporter等數(shù)據(jù)采集組件,適配k8s/k3s容器化環(huán)境;
5.研究NPU等異構計算資源的監(jiān)控方案,開發(fā)定制化Exporter;
6.構建多級告警體系,實現(xiàn)智能閾值判定與告警降噪。
任職要求:
1. 本科及以上學歷,計算機相關專業(yè),3年以上相關工作經(jīng)驗;
2.3年以上監(jiān)控系統(tǒng)開發(fā)經(jīng)驗,精通PromQL/VictoriaMetrics查詢語言;
3.熟練掌握Loki日志棧和Grafana可視化配置,有Dashboard模板開發(fā)經(jīng)驗;
4.熟悉k8s/k3s監(jiān)控體系,了解ServiceMonitor/PodMonitor等CRD配置;
5.具備Go/Python開發(fā)能力,能編寫定制化Exporter和告警插件;
6.有NPU/GPU等硬件監(jiān)控經(jīng)驗者優(yōu)先,熟悉DCGM工具鏈更佳;
7.熟悉OpenTelemetry等可觀測性標準者加分;
8. 有較強的學習能力,能夠快速學習工作相關的新技術,并運用于相關項目中;
9. 工作態(tài)度認真負責,敢于接受挑戰(zhàn)。