职位描述
1、负责相关业务平台的容量管理、监控、发布、故障处理等日常运营事项,保障业务稳定性;
2、负责运维基础设施运维及中间件组件等日常运维事项;
3、负责在线服务的 7*24监控响应,解决运营中遇到的各种问题;
4、不断研发与探索运维自动化及各类创新途径,实现运维全流程自动化,缩短运维响应时间,减低运维成本;
5、负责各类运维文档及相关工作技术文档的撰写工作。
职位要求
1、3年以上互联网大厂运维经验;具有一定的运维开发基本功,精通linux操作系统,有网络基础;
2、能够熟练使用Shell/Python/golang等语言编写自动化工具,提升日常运维效率;
3、有Ansible, salt-stack等批量管理运维工具实际使用经验(集群规模不限);
4、了解云原生发展动向,熟悉容器编排,有Kubernetes/docker生产运维经验;
5、熟悉Prometheus+Grafana监控体系,有exporter编写经验优先;
6、熟悉阿里云/腾讯云/AWS/Azure等国内、外主流云平台,有生产经验优先;
7、有一定的业务运维经验和常见中间件的运维管理经验优先,包括不限于:redis、elasticsearch、Rocketmq、kafka、Rabbitmq等;
8、有高度的责任感和良好的团队精神,有较强学习能力和抗压能力。