AOSC OS 社区源服务器恢复服务2024-02-24
经抢修,服务器已恢复服务!以下是本次故障发生和修复的过程,以及反思和提问:
故障和排障过程
- 故障是由于 GRUB 引导器没有正确安装导致的
- 我们在通过 iLO(服务器为 HP ProLiant MicroServer Gen10 Plus)修复过程中键盘输入失灵,多次尝试无果后尝试重启了 iLO 固件
- iLO 固件由于默认配置了 DHCP,在重启后没有正确获取 IP 地址,导致无法远程访问
- 在与托管方沟通后,通过转发 Link Local 地址的方式恢复了访问
- 随后,我们通过 iLO 挂载 Debian mini.iso 启动,使用其修复功能 chroot 至 AOSC OS 系统根,重新安装了 GRUB 引导器
- 重启后故障排除,服务恢复
反思
- 托管的服务器原则上应该同托管方协调设定静态 IP,以防 iLO 重启后失联
- 应该研究 iPXE 镜像在 UEFI 上的可用性(iLO 的远程介质挂载启动功能也许也有问题)
- 在重启前应确保各关键组件的安装和配置情况
- 应记录关键服务和网络设备配置以便提高恢复服务的功能,常用服务原则上应使用 systemd 服务记录
- 应研究和验证 kexec 可用性及使用流程标准
- LiveKit(包括后续通过主 GRUB 引导器启动的 RescueKit 镜像)在这种情况下由于体积过大难以修复问题,也许应该考虑开发最小化镜像以便完成此类排障工作(Debian 的 60MiB 在这种情况下也许都太大,更何况几个 GiB 的 LiveKit)
提问
- iLO 2.55 的镜像挂载(远程上传或 URL)是否工作?
- 如 iLO 该版本的相关功能确实存在问题,是否应该考虑更新?
- AOSC 是否有必要维护自己的远程服务修复介质?