Failover management » История » Версия 1
Владимир Ипатов, 24.10.2012 20:53
1 | 1 | Владимир Ипатов | . |
---|---|---|---|
2 | 1 | Владимир Ипатов | |
3 | 1 | Владимир Ипатов | {{>toc}} |
4 | 1 | Владимир Ипатов | |
5 | 1 | Владимир Ипатов | h1. FAILOVER management |
6 | 1 | Владимир Ипатов | designations: |
7 | 1 | Владимир Ипатов | <pre> |
8 | 1 | Владимир Ипатов | gnt# - command exec on master node |
9 | 1 | Владимир Ипатов | gntX# - command exec on ordinary node |
10 | 1 | Владимир Ипатов | gntY# - command exec on other node |
11 | 1 | Владимир Ипатов | # - command exec on any node |
12 | 1 | Владимир Ипатов | </pre> |
13 | 1 | Владимир Ипатов | |
14 | 1 | Владимир Ипатов | h2. Start instances on one node where other is down |
15 | 1 | Владимир Ипатов | |
16 | 1 | Владимир Ипатов | When node starts and can't find other node, cluster management daemon ganeti-masterd don't start automatically, even on a master-node. |
17 | 1 | Владимир Ипатов | It is because of not able to find out if second node down or there is a link problem when instances on other node is still running. |
18 | 1 | Владимир Ипатов | Cluster management daemon start: |
19 | 1 | Владимир Ипатов | <pre> |
20 | 1 | Владимир Ипатов | gnt# ganeti-masterd --no-voting |
21 | 1 | Владимир Ипатов | </pre> |
22 | 1 | Владимир Ипатов | |
23 | 1 | Владимир Ипатов | h2. Normal change master node |
24 | 1 | Владимир Ипатов | |
25 | 1 | Владимир Ипатов | Both of the nodes are online, master node changing is in normal mode |
26 | 1 | Владимир Ипатов | On master-candidate (gntX): |
27 | 1 | Владимир Ипатов | <pre> |
28 | 1 | Владимир Ипатов | gntX# gnt-cluster master-failover |
29 | 1 | Владимир Ипатов | </pre> |
30 | 1 | Владимир Ипатов | |
31 | 1 | Владимир Ипатов | h2. Failure of master node |
32 | 1 | Владимир Ипатов | |
33 | 1 | Владимир Ипатов | Master node(in this example gnt1) is down by hardware failure. |
34 | 1 | Владимир Ипатов | |
35 | 1 | Владимир Ипатов | Start management daemon on master-candidate(gntX): |
36 | 1 | Владимир Ипатов | <pre> |
37 | 1 | Владимир Ипатов | gntX# ganeti-masterd --no-voting |
38 | 1 | Владимир Ипатов | </pre> |
39 | 1 | Владимир Ипатов | |
40 | 1 | Владимир Ипатов | Activate new master node: |
41 | 1 | Владимир Ипатов | <pre> |
42 | 1 | Владимир Ипатов | gntX# gnt-cluster master-failover --no-voting |
43 | 1 | Владимир Ипатов | </pre> |
44 | 1 | Владимир Ипатов | |
45 | 1 | Владимир Ипатов | +*Set broken node to offline so master node don't try to connect it.*+ |
46 | 1 | Владимир Ипатов | -С = master-candidate |
47 | 1 | Владимир Ипатов | -O = offline |
48 | 1 | Владимир Ипатов | <pre> |
49 | 1 | Владимир Ипатов | gnt# gnt-node modify -C no -O yes gntY |
50 | 1 | Владимир Ипатов | </pre> |
51 | 1 | Владимир Ипатов | |
52 | 1 | Владимир Ипатов | Запустить все виртуалки отключенного узла на резервном: |
53 | 1 | Владимир Ипатов | <pre> |
54 | 1 | Владимир Ипатов | gnt# gnt-node failover --ignore-consistency gnt1 |
55 | 1 | Владимир Ипатов | </pre> |
56 | 1 | Владимир Ипатов | |
57 | 1 | Владимир Ипатов | h2. Возврат основного узла в строй |
58 | 1 | Владимир Ипатов | |
59 | 1 | Владимир Ипатов | Старый основной узел не будет автоматически запускать управляющего демона. |
60 | 1 | Владимир Ипатов | * если не найдет парного узла, |
61 | 1 | Владимир Ипатов | * если найдет парный узел и узнает, что он стал новым master-ом. |
62 | 1 | Владимир Ипатов | |
63 | 1 | Владимир Ипатов | Если на узле сохранились данные, то для включения его обратно в кластер: |
64 | 1 | Владимир Ипатов | |
65 | 1 | Владимир Ипатов | Скопировать на него свежую конфигурацию с нового master-а |
66 | 1 | Владимир Ипатов | <pre> |
67 | 1 | Владимир Ипатов | gnt# gnt-cluster redist-conf |
68 | 1 | Владимир Ипатов | </pre> |
69 | 1 | Владимир Ипатов | |
70 | 1 | Владимир Ипатов | Запустить на нем ganeti-демоны |
71 | 1 | Владимир Ипатов | <pre> |
72 | 1 | Владимир Ипатов | gntX# /etc/init.d/ganeti restart |
73 | 1 | Владимир Ипатов | </pre> |
74 | 1 | Владимир Ипатов | |
75 | 1 | Владимир Ипатов | h2. Плановый вывод узла из эксплуатации |
76 | 1 | Владимир Ипатов | |
77 | 1 | Владимир Ипатов | Мигрируем виртуальные машины: |
78 | 1 | Владимир Ипатов | <pre> |
79 | 1 | Владимир Ипатов | gnt# gnt-instance migrate имя_машины |
80 | 1 | Владимир Ипатов | </pre> |
81 | 1 | Владимир Ипатов | |
82 | 1 | Владимир Ипатов | Если выводимый узел - мастер, то нужно назначить нового мастера(см. выше *Штатное переключение master узла*). |
83 | 1 | Владимир Ипатов | |
84 | 1 | Владимир Ипатов | Вывести узел из списка кандидатов на мастера и перевести его в режим offline (это предотвратит появление сообщений об "аварии"): |
85 | 1 | Владимир Ипатов | <pre> |
86 | 1 | Владимир Ипатов | gnt# gnt-node modify -C no -O yes УЗЕЛ |
87 | 1 | Владимир Ипатов | </pre> |
88 | 1 | Владимир Ипатов | |
89 | 1 | Владимир Ипатов | Далее узел можно просто выключить. |
90 | 1 | Владимир Ипатов | |
91 | 1 | Владимир Ипатов | h3. Возврат узла в кластер |
92 | 1 | Владимир Ипатов | |
93 | 1 | Владимир Ипатов | После включения узла нужно сообщить кластеру, что узел вернулся в строй: |
94 | 1 | Владимир Ипатов | <pre> |
95 | 1 | Владимир Ипатов | gnt# gnt-node modify -C yes -O no УЗЕЛ |
96 | 1 | Владимир Ипатов | </pre> |
97 | 1 | Владимир Ипатов | |
98 | 1 | Владимир Ипатов | Однако, если у вас имеются сомнения в том, что узел остался в рабочем состоянии, то лучше выполнить: |
99 | 1 | Владимир Ипатов | <pre> |
100 | 1 | Владимир Ипатов | gnt# gnt-node add --readd УЗЕЛ |
101 | 1 | Владимир Ипатов | </pre> |
102 | 1 | Владимир Ипатов | |
103 | 1 | Владимир Ипатов | В любом случае, после этого нужно подождать около 5 минут, чтобы демон watcher поднял drbd, либо инициировать процесс вручную: |
104 | 1 | Владимир Ипатов | <pre> |
105 | 1 | Владимир Ипатов | gnt# gnt-cluster verify-disks |
106 | 1 | Владимир Ипатов | </pre> |
107 | 1 | Владимир Ипатов | |
108 | 1 | Владимир Ипатов | |
109 | 1 | Владимир Ипатов | h2. Замена узла на новый |
110 | 1 | Владимир Ипатов | |
111 | 1 | Владимир Ипатов | Добавить узел в кластер |
112 | 1 | Владимир Ипатов | <pre> |
113 | 1 | Владимир Ипатов | gnt# gnt-node add --readd gntX |
114 | 1 | Владимир Ипатов | </pre> |
115 | 1 | Владимир Ипатов | |
116 | 1 | Владимир Ипатов | Для всех виртуалок, которые имеют secondary на подключенном узле: |
117 | 1 | Владимир Ипатов | <pre> |
118 | 1 | Владимир Ипатов | gnt# gnt-instance replace-disks --submit -s INSTANCE |
119 | 1 | Владимир Ипатов | </pre> |
120 | 1 | Владимир Ипатов | |
121 | 1 | Владимир Ипатов | Перерегистрировать узел в puppet |
122 | 1 | Владимир Ипатов | <pre> |
123 | 1 | Владимир Ипатов | gnt# gnt-instance console sci |
124 | 1 | Владимир Ипатов | sci# puppetca --clean gnt1.fqdn |
125 | 1 | Владимир Ипатов | </pre> |
126 | 1 | Владимир Ипатов | |
127 | 1 | Владимир Ипатов | <pre> |
128 | 1 | Владимир Ипатов | gntX# /var/lib/puppet/ssl/* |
129 | 1 | Владимир Ипатов | gntX# /etc/init.d/puppet restart |
130 | 1 | Владимир Ипатов | </pre> |
131 | 1 | Владимир Ипатов | |
132 | 1 | Владимир Ипатов | h2. Замена жесткого диска |
133 | 1 | Владимир Ипатов | |
134 | 1 | Владимир Ипатов | Скопировать разметку с существующего (только для дисков одной модели!) |
135 | 1 | Владимир Ипатов | <pre> |
136 | 1 | Владимир Ипатов | # sfdisk -d /dev/sda|sfdisk /dev/sdX |
137 | 1 | Владимир Ипатов | </pre> |
138 | 1 | Владимир Ипатов | Проверить |
139 | 1 | Владимир Ипатов | <pre> |
140 | 1 | Владимир Ипатов | # fdisk -l |
141 | 1 | Владимир Ипатов | </pre> |
142 | 1 | Владимир Ипатов | Добавить в RAID |
143 | 1 | Владимир Ипатов | <pre> |
144 | 1 | Владимир Ипатов | # mdadm --manage /dev/md0 --add /dev/sdX1 |
145 | 1 | Владимир Ипатов | # mdadm --manage /dev/md1 --add /dev/sdX2 |
146 | 1 | Владимир Ипатов | # mdadm --manage /dev/md2 --add /dev/sdX3 |
147 | 1 | Владимир Ипатов | </pre> |
148 | 1 | Владимир Ипатов | Проверить |
149 | 1 | Владимир Ипатов | <pre> |
150 | 1 | Владимир Ипатов | cat /proc/mdstat |
151 | 1 | Владимир Ипатов | </pre> |