Proxmox 6. Аварийные ситуации

Продолжая тему Proxmox, рассмотрим, как можно удалить мертвую ноду из кластера, как восстановить работу сервиса через репликацию.

Вывод ноды из кластера

Нода PVE4 прекратила свое существование и было принято решение вывода из эксплуатации.

Прежде чем начать удаление ноды из кластера необходимо принять взвешенное решение с учетом того, что данная нода (с таким именем) более не вернется в кластер.

Если решение принято, то на любой рабочей ноде:

pvecm delnode <nodeName>

1. pvecm delnode pve4
2. удалить папку с названиями удаленной ноды из /etc/pve/nodes
3. удалить из файла /etc/pve/priv/authorized_keys строчки с ключами удаленной ноды
4. обновить страницу
Нода удалена
Кворум изменился

Подробнее — https://pve.proxmox.com/wiki/Proxmox_VE_2.0_Cluster#Remove_a_cluster_node

Восстановление виртуальной машины (контейнера) из репликации

Есть настроенная репликация контейнера (виртуальной машины) с одной ноды на другую.

На PVE3 работает контейнер (платформа форума на phpBB) и настроена репликация на PVE2 каждые 30 минут.

При отказе PVE3 сервисы, запущенные в контейнере, становятся недоступны. Необходимо восстановить работу контейнера на PVE2.

Выключим PVE3. Сервис, поднятый на контейнере более недоступен.

Восстановим работу контейнера. На любой работающей ноде в Shell:

Переносим конфигурацию на рабочую ноду
# mv /etc/pve/nodes/<nodeA>/qemu-server/<vmid>.conf /etc/pve/nodes/<nodeB>/qemu-server/<vmid>.conf
# mv /etc/pve/nodes/<nodeA>/lxc/<vmid>.conf /etc/pve/nodes/<nodeB>/lxc/<vmid>.conf

Где 
<nodeA> - откуда
<nodeB> - куда
<vmid> – идентификатор ВМ или контейнера
qemu-server – если это сервер
lxc – если контейнер

в нашем случае
mv /etc/pve/nodes/pve3/lxc/101.conf /etc/pve/nodes/pve2/lxc/101.conf

Запускаем
# qm start <vmid> - для ВМ
# pct start <vmid> - для контейнеров

pct start 101

Подробнее — https://pve.proxmox.com/wiki/Storage_Replication

Top