Проект

Общее

Профиль

2017-Переключение мастера » История » Версия 6

Евгений Антонов, 15.09.2017 14:03

1 1 Евгений Антонов
h1. 2017-Переключение мастера
2 1 Евгений Антонов
3 1 Евгений Антонов
Master-узел -это узел кластера, с которого осуществяется управление всем кластером
4 1 Евгений Антонов
Бывают ситуации, когда необходимо перенести эту роль на другую ноду.
5 1 Евгений Антонов
Что-бы узнать,какая нода в данный момент является мастером выполните команду :
6 1 Евгений Антонов
<pre>
7 1 Евгений Антонов
gnt-cluster getmaster
8 1 Евгений Антонов
</pre>
9 1 Евгений Антонов
Такие ситуации :
10 1 Евгений Антонов
11 4 Евгений Антонов
h1.  Штатное переключение мастера
12 1 Евгений Антонов
13 1 Евгений Антонов
Оба узла запущены, смена master-узла производится в штатном режиме.
14 1 Евгений Антонов
На ноде-кандидате (gntX):
15 1 Евгений Антонов
<pre>
16 1 Евгений Антонов
gntX# gnt-cluster master-failover
17 1 Евгений Антонов
</pre>
18 1 Евгений Антонов
!masterfne.png!
19 1 Евгений Антонов
20 4 Евгений Антонов
h1.  Нештатное мереключение мастера
21 1 Евгений Антонов
Управляющая нода стала недоступна(любой аппаратный сбой,отключение света и пр.)
22 1 Евгений Антонов
23 1 Евгений Антонов
Основной узел (в примере - gnt1) оказывается выключен в результате аппаратной аварии.
24 1 Евгений Антонов
Запустить управляющий демон на узле master-candidate (gnt2):
25 1 Евгений Антонов
<pre>
26 1 Евгений Антонов
su - gnt-masterd -s /bin/bash -c "/usr/sbin/ganeti-masterd --no-voting" 
27 1 Евгений Антонов
</pre>
28 1 Евгений Антонов
29 1 Евгений Антонов
Пометить отключенный узел offline, чтобы master в него не долбился
30 1 Евгений Антонов
-С = master-candidate
31 1 Евгений Антонов
-O = offline
32 1 Евгений Антонов
<pre>
33 1 Евгений Антонов
gnt2# gnt-node modify -C no -O yes gnt1
34 1 Евгений Антонов
</pre>
35 1 Евгений Антонов
36 1 Евгений Антонов
Запустить все виртуалки отключенного узла на резервном:
37 1 Евгений Антонов
<pre>
38 1 Евгений Антонов
gnt-node failover --ignore-consistency gnt1
39 1 Евгений Антонов
</pre>
40 3 Евгений Антонов
41 4 Евгений Антонов
h1.  Возврат основного узла после отключения
42 3 Евгений Антонов
43 3 Евгений Антонов
Старый основной узел не будет автоматически запускать управляющего демона.
44 3 Евгений Антонов
-если не найдет парного узла,
45 3 Евгений Антонов
-если найдет парный узел и узнает, что он стал новым master-ом.
46 3 Евгений Антонов
Если при отключении узла он помечался как offline (см. выше), то надо вернуть его в строй:
47 3 Евгений Антонов
<pre>
48 3 Евгений Антонов
gnt2# gnt-node modify -C yes -O no gnt1
49 3 Евгений Антонов
</pre>
50 3 Евгений Антонов
Если на узле сохранились данные, то для включения его обратно в кластер:
51 3 Евгений Антонов
52 3 Евгений Антонов
Скопировать на него свежую конфигурацию с нового master-а
53 3 Евгений Антонов
<pre>
54 3 Евгений Антонов
gnt# gnt-cluster redist-conf
55 3 Евгений Антонов
</pre>
56 1 Евгений Антонов
Запустить на нем ganeti-демоны
57 1 Евгений Антонов
<pre>
58 1 Евгений Антонов
gntX# /etc/init.d/ganeti restart
59 4 Евгений Антонов
</pre>
60 4 Евгений Антонов
61 4 Евгений Антонов
h1. Плановый вывод узла из эксплуатации
62 4 Евгений Антонов
63 4 Евгений Антонов
Мигрируем виртуальные машины:
64 4 Евгений Антонов
65 4 Евгений Антонов
<pre>
66 4 Евгений Антонов
gnt# gnt-instance migrate имя_машины
67 4 Евгений Антонов
</pre>
68 4 Евгений Антонов
Если выводимый узел - мастер, то нужно назначить нового мастера(см. выше Штатное переключение master узла).
69 4 Евгений Антонов
70 4 Евгений Антонов
Вывести узел из списка кандидатов на мастера и перевести его в режим offline (это предотвратит появление сообщений об "аварии"):
71 4 Евгений Антонов
72 4 Евгений Антонов
<pre>
73 4 Евгений Антонов
gnt# gnt-node modify -C no -O yes УЗЕЛ
74 4 Евгений Антонов
</pre>
75 4 Евгений Антонов
Далее узел можно просто выключить.
76 4 Евгений Антонов
77 4 Евгений Антонов
78 4 Евгений Антонов
h1. Возврат узла в кластер
79 5 Евгений Антонов
80 4 Евгений Антонов
После включения узла нужно сообщить кластеру, что узел вернулся в строй:
81 4 Евгений Антонов
82 5 Евгений Антонов
<pre>
83 4 Евгений Антонов
gnt# gnt-node modify -C yes -O no УЗЕЛ
84 5 Евгений Антонов
</pre>
85 4 Евгений Антонов
Однако, если у вас имеются сомнения в том, что узел остался в рабочем состоянии, то лучше выполнить:
86 4 Евгений Антонов
87 4 Евгений Антонов
<pre>
88 4 Евгений Антонов
gnt# gnt-node add --readd УЗЕЛ
89 4 Евгений Антонов
</pre>
90 4 Евгений Антонов
В любом случае, после этого нужно подождать около 5 минут, чтобы демон watcher поднял drbd, либо инициировать процесс вручную:
91 4 Евгений Антонов
<pre>
92 4 Евгений Антонов
93 4 Евгений Антонов
gnt# gnt-cluster verify-disks
94 4 Евгений Антонов
</pre>
95 4 Евгений Антонов
96 4 Евгений Антонов
h1. Замена узла на новый
97 4 Евгений Антонов
Удалить старый узел из /root/.ssh/known_hosts
98 4 Евгений Антонов
99 4 Евгений Антонов
Добавить узел в кластер
100 4 Евгений Антонов
101 4 Евгений Антонов
<pre>
102 4 Евгений Антонов
gnt# gnt-node add --readd gntX
103 4 Евгений Антонов
104 4 Евгений Антонов
gnt# gnt-cluster redist-conf
105 4 Евгений Антонов
</pre>
106 4 Евгений Антонов
107 4 Евгений Антонов
Для всех виртуалок, которые имеют secondary на подключенном узле:
108 4 Евгений Антонов
<pre>
109 4 Евгений Антонов
gnt# gnt-instance replace-disks --auto INSTANCE
110 4 Евгений Антонов
</pre>
111 4 Евгений Антонов
Перерегистрировать узел в puppet
112 4 Евгений Антонов
113 4 Евгений Антонов
<pre>
114 4 Евгений Антонов
gnt# gnt-instance console sci
115 4 Евгений Антонов
sci# puppetca --clean gntX.fqdn
116 4 Евгений Антонов
gntX# rm -r /var/lib/puppet/ssl/*
117 4 Евгений Антонов
gntX# /etc/init.d/puppet restart
118 4 Евгений Антонов
</pre>
119 4 Евгений Антонов
120 4 Евгений Антонов
h1. Замена жесткого диска
121 4 Евгений Антонов
Скопировать разметку с существующего (только для дисков одной модели!)
122 4 Евгений Антонов
123 4 Евгений Антонов
<pre>
124 4 Евгений Антонов
# sfdisk -d /dev/sda|sfdisk /dev/sdX
125 4 Евгений Антонов
</pre>
126 4 Евгений Антонов
127 4 Евгений Антонов
Проверить
128 4 Евгений Антонов
<pre>
129 4 Евгений Антонов
# fdisk -l
130 4 Евгений Антонов
</pre>
131 4 Евгений Антонов
132 4 Евгений Антонов
Добавить в RAID
133 4 Евгений Антонов
<pre>
134 4 Евгений Антонов
# mdadm --manage /dev/md0 --add /dev/sdX1
135 4 Евгений Антонов
# mdadm --manage /dev/md1 --add /dev/sdX2
136 4 Евгений Антонов
# mdadm --manage /dev/md2 --add /dev/sdX3
137 4 Евгений Антонов
</pre>
138 4 Евгений Антонов
139 4 Евгений Антонов
Проверить
140 5 Евгений Антонов
<pre>
141 1 Евгений Антонов
cat /proc/mdstat
142 5 Евгений Антонов
</pre>
143 5 Евгений Антонов
144 5 Евгений Антонов
h1. Восстановление при split-brain:
145 5 Евгений Антонов
146 4 Евгений Антонов
Если при activate-disks или при команде запуска/фейловера drbd ругается следующим образом в dmesg:
147 4 Евгений Антонов
<pre>
148 4 Евгений Антонов
149 4 Евгений Антонов
[10893282.055705] block drbd21: Handshake successful: Agreed network protocol version 96
150 4 Евгений Антонов
[10893282.056003] block drbd21: Peer authenticated using 16 bytes of 'md5' HMAC
151 4 Евгений Антонов
[10893282.056008] block drbd21: conn( WFConnection -> WFReportParams ) 
152 4 Евгений Антонов
[10893282.056031] block drbd21: Starting asender thread (from drbd21_receiver [20355])
153 4 Евгений Антонов
[10893282.056303] block drbd21: data-integrity-alg: <not-used>
154 4 Евгений Антонов
[10893282.056319] block drbd21: drbd_sync_handshake:
155 4 Евгений Антонов
[10893282.056322] block drbd21: self 5323ED521900E1F9:FCBCCB0FBF14BA04:480CD30FE2A601EA:480BD30FE2A601EB bits:46 flags:0
156 4 Евгений Антонов
[10893282.056324] block drbd21: peer F3B949426796C7F8:FCBCCB0FBF14BA05:480CD30FE2A601EB:480BD30FE2A601EB bits:12288 flags:2
157 4 Евгений Антонов
[10893282.056326] block drbd21: uuid_compare()=100 by rule 90
158 4 Евгений Антонов
[10893282.056329] block drbd21: helper command: /bin/true initial-split-brain minor-21
159 4 Евгений Антонов
[10893282.073918] block drbd21: meta connection shut down by peer.
160 4 Евгений Антонов
[10893282.073976] block drbd21: conn( WFReportParams -> NetworkFailure ) 
161 4 Евгений Антонов
[10893282.073981] block drbd21: asender terminated
162 4 Евгений Антонов
[10893282.073983] block drbd21: Terminating drbd21_asender
163 4 Евгений Антонов
[10893282.080752] block drbd21: helper command: /bin/true initial-split-brain minor-21 exit code 0 (0x0)
164 4 Евгений Антонов
[10893282.080754] block drbd21: Split-Brain detected but unresolved, dropping connection!
165 4 Евгений Антонов
[10893282.080844] block drbd21: helper command: /bin/true split-brain minor-21
166 4 Евгений Антонов
[10893282.081481] block drbd21: helper command: /bin/true split-brain minor-21 exit code 0 (0x0)
167 4 Евгений Антонов
[10893282.081484] block drbd21: conn( NetworkFailure -> Disconnecting ) 
168 4 Евгений Антонов
[10893282.081487] block drbd21: error receiving ReportState, l: 4!
169 4 Евгений Антонов
[10893282.081577] block drbd21: Connection closed
170 4 Евгений Антонов
[10893282.081582] block drbd21: conn( Disconnecting -> StandAlone ) 
171 4 Евгений Антонов
[10893282.081603] block drbd21: receiver terminated
172 4 Евгений Антонов
[10893282.081604] block drbd21: Terminating drbd21_receiver
173 4 Евгений Антонов
[10893282.711704] block drbd22: Handshake successful: Agreed network protocol version 96
174 4 Евгений Антонов
[10893282.712019] block drbd22: Peer authenticated using 16 bytes of 'md5' HMAC
175 4 Евгений Антонов
[10893282.712024] block drbd22: conn( WFConnection -> WFReportParams ) 
176 4 Евгений Антонов
[10893282.712047] block drbd22: Starting asender thread (from drbd22_receiver [23709])
177 4 Евгений Антонов
[10893282.712301] block drbd22: data-integrity-alg: <not-used>
178 4 Евгений Антонов
[10893282.712332] block drbd22: drbd_sync_handshake:
179 4 Евгений Антонов
[10893282.712334] block drbd22: self CD794FB0989E2B95:DD71B308E6D3FE88:AD335B3ED83CE576:AD325B3ED83CE577 bits:7 flags:0
180 4 Евгений Антонов
[10893282.712336] block drbd22: peer 17B47E98FD204408:DD71B308E6D3FE89:AD335B3ED83CE577:AD325B3ED83CE577 bits:3072 flags:2
181 4 Евгений Антонов
[10893282.712338] block drbd22: uuid_compare()=100 by rule 90
182 4 Евгений Антонов
[10893282.712341] block drbd22: helper command: /bin/true initial-split-brain minor-22
183 4 Евгений Антонов
[10893282.713155] block drbd22: helper command: /bin/true initial-split-brain minor-22 exit code 0 (0x0)
184 4 Евгений Антонов
[10893282.713157] block drbd22: Split-Brain detected but unresolved, dropping connection!
185 4 Евгений Антонов
[10893282.713251] block drbd22: helper command: /bin/true split-brain minor-22
186 4 Евгений Антонов
[10893282.713820] block drbd22: meta connection shut down by peer.
187 4 Евгений Антонов
[10893282.713889] block drbd22: conn( WFReportParams -> NetworkFailure ) 
188 4 Евгений Антонов
[10893282.713895] block drbd22: asender terminated
189 4 Евгений Антонов
[10893282.713897] block drbd22: Terminating drbd22_asender
190 4 Евгений Антонов
[10893282.713945] block drbd22: helper command: /bin/true split-brain minor-22 exit code 0 (0x0)
191 4 Евгений Антонов
[10893282.713948] block drbd22: conn( NetworkFailure -> Disconnecting ) 
192 4 Евгений Антонов
[10893282.713952] block drbd22: error receiving ReportState, l: 4!
193 4 Евгений Антонов
[10893282.714046] block drbd22: Connection closed
194 4 Евгений Антонов
[10893282.714050] block drbd22: conn( Disconnecting -> StandAlone ) 
195 4 Евгений Антонов
[10893282.714070] block drbd22: receiver terminated
196 4 Евгений Антонов
[10893282.714072] block drbd22: Terminating drbd22_receiver
197 4 Евгений Антонов
[10893283.140310] block drbd21: conn( StandAlone -> Unconnected ) 
198 4 Евгений Антонов
[10893283.140323] block drbd21: Starting receiver thread (from drbd21_worker [23682])
199 4 Евгений Антонов
[10893283.140363] block drbd21: receiver (re)started
200 4 Евгений Антонов
[10893283.140366] block drbd21: conn( Unconnected -> WFConnection ) 
201 4 Евгений Антонов
[10893283.498632] block drbd22: conn( StandAlone -> Unconnected ) 
202 4 Евгений Антонов
[10893283.498646] block drbd22: Starting receiver thread (from drbd22_worker [23702])
203 4 Евгений Антонов
[10893283.498705] block drbd22: receiver (re)started
204 4 Евгений Антонов
[10893283.498710] block drbd22: conn( Unconnected -> WFConnection )
205 4 Евгений Антонов
</pre> 
206 4 Евгений Антонов
207 4 Евгений Антонов
Здесь мы видим:
208 4 Евгений Антонов
<pre>
209 4 Евгений Антонов
[10893282.713155] block drbd22: helper command: /bin/true initial-split-brain minor-22 exit code 0 (0x0)
210 4 Евгений Антонов
[10893282.713157] block drbd22: Split-Brain detected but unresolved, dropping connection!
211 4 Евгений Антонов
</pre>
212 4 Евгений Антонов
то, во-первых, нужно установить, где находятся актуальные данные.
213 4 Евгений Антонов
Когда когда точно установлено, где актуальные данные, мы идем на ноду, где данные битые, и там даем команду:
214 4 Евгений Антонов
215 4 Евгений Антонов
<pre>
216 4 Евгений Антонов
drbdsetup /dev/drbd23 invalidate
217 4 Евгений Антонов
</pre>
218 4 Евгений Антонов
219 4 Евгений Антонов
Затем на мастере дать activate-disks для этого инстанса, и проследить, что все drbd ресурсы отсинкались.
220 4 Евгений Антонов
221 4 Евгений Антонов
h1. Восстановление outdated диска
222 6 Евгений Антонов
223 4 Евгений Антонов
Ситуация: primary узел умер, диск на secondary узле считает себя outdated.
224 4 Евгений Антонов
Watcher пишет письма, содержащие в логе такую строку:
225 4 Евгений Антонов
<pre>
226 4 Евгений Антонов
227 4 Евгений Антонов
Error while assembling disk: drbd7: can't make drbd device primary:
228 4 Евгений Антонов
 /dev/drbd7: State change failed: (-2) Need access to UpToDate data\n
229 4 Евгений Антонов
</pre>
230 4 Евгений Антонов
Виртуалка не поднимается, диски не собираются (точнее собираются и отключаются обратно).
231 4 Евгений Антонов
Требуется собрать диск вручную и сказать ему что он primary
232 4 Евгений Антонов
233 4 Евгений Антонов
<pre>
234 4 Евгений Антонов
root@gnt1:~# gnt-instance info ИНСТАНС
235 4 Евгений Антонов
[skip]
236 4 Евгений Антонов
    - disk/0: drbd8, size 117.2G
237 4 Евгений Антонов
      access mode: rw
238 4 Евгений Антонов
      nodeA:       gnt2.XXXX.ru, minor=2
239 4 Евгений Антонов
      nodeB:       gnt3.XXXX.ru, minor=0
240 4 Евгений Антонов
      port:        11012
241 4 Евгений Антонов
      auth key:    06ca8046f1323d0b154c500f41c0d625cbd796c3
242 4 Евгений Антонов
      on primary:  /dev/drbd2 (147:2) in sync, status *DEGRADED*
243 4 Евгений Антонов
      child devices:
244 4 Евгений Антонов
        - child 0: lvm, size 117.2G
245 4 Евгений Антонов
          logical_id: xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data
246 4 Евгений Антонов
          on primary: /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data (253:11)
247 4 Евгений Антонов
        - child 1: lvm, size 128M
248 4 Евгений Антонов
          logical_id: xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta
249 4 Евгений Антонов
          on primary: /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta (253:12)
250 4 Евгений Антонов
251 4 Евгений Антонов
root@gnt2:~# drbdsetup /dev/drbd8 disk /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data \
252 4 Евгений Антонов
 /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta 0
253 4 Евгений Антонов
root@gnt2:~# drbd-overview 
254 4 Евгений Антонов
  0:??not-found??  Connected  Secondary/Primary UpToDate/UpToDate C      r----- 
255 4 Евгений Антонов
  8:??not-found??  StandAlone Secondary/Unknown Outdated/DUnknown r-----
256 4 Евгений Антонов
root@gnt2:~# drbdsetup /dev/drbd8 primary -f
257 4 Евгений Антонов
258 4 Евгений Антонов
root@gnt2:~# drbd-overview 
259 4 Евгений Антонов
  0:??not-found??  Connected  Secondary/Primary UpToDate/UpToDate C      r----- 
260 4 Евгений Антонов
  8:??not-found??  StandAlone Primary/Unknown   UpToDate/DUnknown r-----
261 4 Евгений Антонов
</pre>
262 4 Евгений Антонов
<pre>
263 3 Евгений Антонов
root@gnt2:~# drbdsetup /dev/drbd8 down
264 1 Евгений Антонов
</pre>