陈日志 发布的文章

  1. 目标

    在短时间内恢复服务正常运营(满足 SLA [Service-Level Agreement]),将业务运营的负面影响降至最低。

  2. 范围

    包括:

    • 用户和技术人员报告的失效、问题或疑问
    • 事件监控工具的自动发现和报告
  3. 对企业的价值

    • 能够检测和解决故障
    • 能够将IT活动与实时业务优先级相关联
    • 能够发现潜在的服务改进方面
    • 服务台可以从中发现额外需要的服务或培训需求
    • 故障管理在企业中有很高的曝光率,更容易展示出流程价值所在,为争取投资提供支持。
  4. 基本概念

    • 处理时限:

      • 根据 SLA 中规定的整体故障响应与解决目标,在不同的故障处理阶段必须确定具体处理时限。要在 OLA [Operational Level Agreement] 和 UC [Underpinning Contract] 中作为目标明确规定
      • 所有支持小组必须清除了解这些处理时限
      • 可以借助服务管理工具用于自动执行处理时限,并根据预定义规则升级
    • 故障模型:

      • 预定的“标准”故障模型将有助于在故障发生时对应到合适的故障
      • 按故障模型要求将信息输入到故障处理支持工具中,之后该类工具可以自动进行流程的处理、管理与升级工作
    • 模型包括:

      • 处理故障应遵循的步骤
      • 这些步骤应遵循的时间顺序,相互依赖关系
      • 职责
      • 措施完成的时间表与阈值
      • 升级程序,应该联系谁,何时进行升级
      • 任何必要的证据保留
    • 重大故障:

      • 组织必须明确标识出哪类事件构成重大故障
      • 必要时可以动态成立一支重大故障处理团队
      • 如果需要调查故障原因,问题经理也需要参与其中
      • 服务台需确保所有活动均记录在案,且用户了解具体进展

- 阅读剩余部分 -

相信各界搞机人士都经历过磁盘损坏导致数据丢失的痛,博主家的 NAS 就曾经坏了一块 3T 硬盘,数据尽失,那个痛啊!此后,博主家的 NAS 就改成了 RAID 1。

Too young,too simple. RAID 1 虽然允许坏一块硬盘,但如果你都不知道它什么时候坏了,等两块都坏了那就真的无力回天了。

为了避免遇到这种困境,用户可以试用一款叫做 smartmontools 的软件包程序,它通过使用自我监控(Self-Monitoring)、分析(Analysis)和报告(Reporting)三种技术(缩写为S.M.A.R.T.或SMART)来管理和监控存储硬件。如今大部分的ATA/SATA、SCSI/SAS和固态硬盘都搭载内置的SMART系统。SMART的目的是监控硬盘的可靠性、预测磁盘故障和执行各种类型的磁盘自检。smartmontools由smartctl和smartd两部分工具程序组成,它们一起为Linux平台提供对磁盘退化和故障的高级警告。

安装 Smartmontools

[root@localhost ~]# yum install -y smartmontools

使用 smartctl 检测硬盘的健康状况

[root@localhost ~]# smartctl --info /dev/sdc

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.5.1.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST500DM002-1BD142
Serial Number:    W2AL00M0
LU WWN Device Id: 5 000c50 05ccf9cc4
Firmware Version: KC45
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Mar 18 15:03:42 2019 CST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

- 阅读剩余部分 -

控制节点部署见:OpenStack Rocky(R版) 部署手册 - 控制节点

部署环境

主机名IP系统部署模块
controller192.168.31.11CentOS 7 x86_64MySQL-server RabbitMQ-server memcached
etcd keystone glance nova-api placement neutron
node2192.168.31.12CentOS 7 x86_64nova-compute neutron-linuxbridge
node3192.168.31.13CentOS 7 x86_64nova-compute neutron-linuxbridge

环境准备

关闭防火墙

[root@node2 ~]# systemctl disable firewalld
[root@node2 ~]# systemctl stop firewalld

关闭 SELinux

[root@node2 ~]# sed -i 's/^SELINUX=enforcing/SELINUX=disabled' /etc/selinux/config
[root@node2 ~]# setenforce 0

时间同步

[root@node2 ~]# yum install -y chrony
[root@node2 ~]# systemctl enable chronyd
[root@node2 ~]# systemctl start chronyd

Host 解析

192.168.31.11    controller
192.168.31.12    node2
192.168.31.13    node3

更新系统

[root@node2 ~]# yum upgrade -y

以 node2 为例,加入其它计算节点操作一样。

- 阅读剩余部分 -

部署环境

主机名IP系统部署模块
controller192.168.31.11CentOS 7 x86_64MySQL-server RabbitMQ-server memcached
etcd keystone glance nova-api placement neutron horizon
node2192.168.31.12CentOS 7 x86_64nova-compute neutron-linuxbridge
node3192.168.31.13CentOS 7 x86_64nova-compute neutron-linuxbridge

环境准备

关闭防火墙

[root@controller ~]# systemctl disable firewalld
[root@controller ~]# systemctl stop firewalld

关闭 SELinux

[root@controller ~]# sed -i 's/^SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
[root@controller ~]# setenforce 0

时间同步

[root@controller ~]# yum install -y chrony
[root@controller ~]# systemctl enable chronyd
[root@controller ~]# systemctl start chronyd

Host 解析

192.168.31.11    controller
192.168.31.12    node2
192.168.31.13    node3

更新系统

[root@controller ~]# yum upgrade -y

- 阅读剩余部分 -

概述

关于XtraBackup

XtraBackup是由Percona公司开发的一款基于InnoDB的MySQL数据库备份工具,据官方介绍,这也是世界上惟一一款开源的能够对InnoDB和XtraDB数据库进行热备的工具。其有如下特点:

  1. 备份过程快速、可靠;
  2. 备份过程不会打断正在执行的事务;
  3. 能够基于压缩等功能节约磁盘空间和流量;
  4. 自动实现备份检验;
  5. 还原速度快;

XtraBackup功能

  • 热备份
  • 增量备份
  • 备份到另一台MySQL服务器
  • 在MySQL服务器之间在线迁移表
  • 轻松创建新的从服务器
  • 备份时,不占用服务器资源

XtraBackup工作原理

XtraBackup是基于InnoDB的crash恢复功能。复制InnoDB数据文件,但是数据是不一致的,然后使用crash恢复让数据文件一致。当InnoDB启动时会去检查数据文件和日志文件,然后重做已提交事务,执行未提交事务。

XtraBackup记下LSN(Log Sequence Number),然后启动,复制数据文件。同时XtraBackup启动一个后台进程用来监控日志文件,然后复制修改,这个进程在备份期间一直是运行的,因为日志文件时回绕的,避免数据被覆盖无法恢复。直到备份完成。

第二阶段就是预备阶段,XtraBackup通过执行crash恢复,应用日志文件到数据文件上。等待复制InnoDB结束,然后执行FLUSH TABLES WITH READ LOCK,停止对mysql数据的修改。复制非innodb引擎表,直到复制完成,然后释放锁。

这样在prepare阶段后,InnoDB和非InnoDB相互保持了一致性。InnoDB会一直redo,直到备份完成。这个时间刚刚好和FLUSH TABLES WITH READ LOCK时间一直,所以InnoDB和非InnoDB是保持同步的。

- 阅读剩余部分 -