Azu's blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
SRE-Google运维解密-第十一章on-call轮值

SRE-Google运维解密-第十一章on-call轮值

前言📖on-call是一种工作安排,指工程师在特定时间段内负责随时待命,以应对系统的突发事件或紧急情况。on-call工程师的职责是确保系统的高可用性,及时处理系统警报,进行故障排查和修复,以最小化服务中断的影响。 on-call 工作的日常📅on-call工程师需要24/7响应系统警报,保障系统的持续可靠性。主要任务包括:实时监控、故障排查、问题修复、和事后总结。 平衡工作量数量平
2024-10-14
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第十章基于时间序列数据进行有效报警

SRE-Google运维解密-第十章基于时间序列数据进行有效报警

前言📖首先,祝大家国庆快乐!🎉 最近由于工作的忙碌和个人的松懈,学习的进度有所拖延。因此,我希望在这个假期中补上进度。 本章主要讨论了如何利用时间序列数据构建高效且准确的报警系统(监控),以帮助团队在运维过程中快速识别问题并作出反应。🚨 报警的重要性报警是保障系统可用性和可靠性的核心工具。一个良好的报警系统可以在问题发生时及时通知相关人员,从而迅速采取行动,防止故障升级。⚠️ 报警系统的目标
2024-10-03
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第九章简单化

SRE-Google运维解密-第九章简单化

前言本章节讨论了系统设计中简单化的原则,其对系统的灵活性及稳定性的影响。Google的SRE工程师们发现,越简单的系统,其维护和管理成本就越低,同时稳定性会更高—基于此,SRE团队将简单化视为提高系统可靠性的重要策略。 系统的稳定性和灵活性Google的工程师们发现,通过保持系统简单,可以大幅提高其稳定性和易维护性,同时不会牺牲灵活性。✨虽然复杂的系统在短期内能提供大量功能或灵活性,但长期维护这种
2024-09-20
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第八章发布工程

SRE-Google运维解密-第八章发布工程

前言考虑到本书的内容较多,从本章节开始将尽量精简地表达每章的核心内容。(毕竟,阅读效率至关重要!😉) 本章详细讲述了 Google 如何通过发布工程来管理软件的发布过程,并介绍了发布工程师在这一过程中所扮演的关键角色。发布工程是 SRE 中非常重要的环节,确保软件能够稳定、快速且可控地从开发环境推向生产环境。🚀 发布工程师的角色 👨‍💻👩‍💻发布工程师在软件生命周期中扮演着至关重要的角
2024-09-19
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第七章Google的自动化系统的演进

SRE-Google运维解密-第七章Google的自动化系统的演进

前言本章是我读这本书以来最具挑战的一章,但也因此内容非常引人入胜。它讲述了Google随着规模扩大,从手动操作维护系统逐步演变为自动化系统,最终发展为自治系统的过程。除了“黑科技”,剩下的就是自动化与机械化了。对于SRE而言,自动化是一个力量倍增器,但不是万能药。 自动化的价值 💡自动化的价值主要体现在以下几点: 一致性 🤖随着系统规模的扩大,工程师们不得不进行一些机械性、重复性的操作来履行职
2024-09-10
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第六章分布式系统监控

SRE-Google运维解密-第六章分布式系统监控

前言在现代IT运维领域,监控系统可被视为运维的眼睛👀与耳朵👂,是IT基础设施不可或缺的重要组成部分。合理利用监控工具能够显著提高运维效率📈,降低故障发生率⚠️。结合服务质量目标的讨论,本章旨在强调监控在系统可用性保障中的重要性,并总结了Google内部对监控的见解与指导,供运维人员及相关从业者参考。 术语定义 📚由于缺乏统一的监控术语,本文提供了一些通用的定义,以便后续讨论。 监控(Mon
2024-08-29
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE-Google运维解密-第五章减少琐事

SRE-Google运维解密-第五章减少琐事

前言📖本章更像是在阐述一种广泛适用的世俗哲理,而非技术理论。其理念不仅可以应用于技术工作,还能延伸到生活的方方面面。 “如果系统在正常运转过程中需要人工干预,那么这应被视作一种缺陷(Bug)。” 琐事的定义 🤔书中指出,琐事并不仅仅意味着“我不喜欢做的工作”。在工程任务中,每个人或多或少都会遇到琐事,而每个人对工作内容的满意度和喜好亦各有不同。此外,一些管理类的琐事是必须承担的,这类工作被归
2024-08-28
SRE-Google运维解密
#基础IT架构 #SRE #google
SRE:Google运维解密_第四章服务质量目标

SRE:Google运维解密_第四章服务质量目标

SRE 实践解读:提高服务可靠性📖 前言对 SRE 的兴趣源于我的实习工作。在实习中,通过内部文档📜的技术视角拓展,我意识到不能止步于传统的网络技术。技术在不断进步,我也必须紧跟其步伐。SRE(站点可靠性工程,Site Reliability Engineering)作为现代运维的理念,能够帮助我们更好地解决工作中的实际挑战。 🤖 SRE 概述SRE 是 DevOps 的一种进化形式,它将
2024-08-16
SRE-Google运维解密
#基础IT架构 #SRE #google

Docker学习记录_3

使用镜像镜像是Docker的三大组件之一。运行容器前需要本地存在对应的镜像,如果本地不存在,则会从镜像仓库拉取镜像。 获取镜像12# 从Docker镜像仓库获取镜像$ docker pull [选项] [Docker Registry 地址[:端口号]/]仓库名[:标签] 可能会出现的问题:命令仅支持小写当前用户没有权限访问Docker守护进程使用sudo提升权限,或者将用户加入Docker用户组
2024-08-15
云计算
#Docker #基础IT架构 #虚拟化

Docker学习记录_2_补充

配置Docker镜像源加速因为不可抗因素,在国内Docker从仓库上pull镜像下来比较麻烦。这里提供一个解决该问题的方法,配置镜像源加速。 可用系统:Ubuntu、Debian、CentOS目前主流 Linux 发行版均已使用 systemd 进行服务管理,这里介绍如何在使用 systemd 的 Linux 发行版中配置镜像加速器。 请首先执行以下命令,查看是否在 docker.service
2024-08-15
云计算
#Docker #基础IT架构 #虚拟化
12

搜索

Hexo Fluid
总访问量 次 总访客数 人