2017-Востановление после сбоя » История » Версия 1
Евгений Антонов, 15.09.2017 16:23
| 1 | 1 | Евгений Антонов | h1. 2017-Востановление после сбоя |
|---|---|---|---|
| 2 | 1 | Евгений Антонов | |
| 3 | 1 | Евгений Антонов | h1. Возврат основного узла после отключения |
| 4 | 1 | Евгений Антонов | |
| 5 | 1 | Евгений Антонов | Старый основной узел не будет автоматически запускать управляющего демона. |
| 6 | 1 | Евгений Антонов | -если не найдет парного узла, |
| 7 | 1 | Евгений Антонов | -если найдет парный узел и узнает, что он стал новым master-ом. |
| 8 | 1 | Евгений Антонов | Если при отключении узла он помечался как offline (см. выше), то надо вернуть его в строй: |
| 9 | 1 | Евгений Антонов | <pre> |
| 10 | 1 | Евгений Антонов | gnt2# gnt-node modify -C yes -O no gnt1 |
| 11 | 1 | Евгений Антонов | </pre> |
| 12 | 1 | Евгений Антонов | Если на узле сохранились данные, то для включения его обратно в кластер: |
| 13 | 1 | Евгений Антонов | |
| 14 | 1 | Евгений Антонов | Скопировать на него свежую конфигурацию с нового master-а |
| 15 | 1 | Евгений Антонов | <pre> |
| 16 | 1 | Евгений Антонов | gnt# gnt-cluster redist-conf |
| 17 | 1 | Евгений Антонов | </pre> |
| 18 | 1 | Евгений Антонов | Запустить на нем ganeti-демоны |
| 19 | 1 | Евгений Антонов | <pre> |
| 20 | 1 | Евгений Антонов | gntX# /etc/init.d/ganeti restart |
| 21 | 1 | Евгений Антонов | </pre> |
| 22 | 1 | Евгений Антонов | |
| 23 | 1 | Евгений Антонов | h1. Плановый вывод узла из эксплуатации |
| 24 | 1 | Евгений Антонов | |
| 25 | 1 | Евгений Антонов | Мигрируем виртуальные машины: |
| 26 | 1 | Евгений Антонов | |
| 27 | 1 | Евгений Антонов | <pre> |
| 28 | 1 | Евгений Антонов | gnt# gnt-instance migrate имя_машины |
| 29 | 1 | Евгений Антонов | </pre> |
| 30 | 1 | Евгений Антонов | Если выводимый узел - мастер, то нужно назначить нового мастера(см. выше Штатное переключение master узла). |
| 31 | 1 | Евгений Антонов | |
| 32 | 1 | Евгений Антонов | Вывести узел из списка кандидатов на мастера и перевести его в режим offline (это предотвратит появление сообщений об "аварии"): |
| 33 | 1 | Евгений Антонов | |
| 34 | 1 | Евгений Антонов | <pre> |
| 35 | 1 | Евгений Антонов | gnt# gnt-node modify -C no -O yes УЗЕЛ |
| 36 | 1 | Евгений Антонов | </pre> |
| 37 | 1 | Евгений Антонов | Далее узел можно просто выключить. |
| 38 | 1 | Евгений Антонов | |
| 39 | 1 | Евгений Антонов | |
| 40 | 1 | Евгений Антонов | h1. Возврат узла в кластер |
| 41 | 1 | Евгений Антонов | |
| 42 | 1 | Евгений Антонов | После включения узла нужно сообщить кластеру, что узел вернулся в строй: |
| 43 | 1 | Евгений Антонов | |
| 44 | 1 | Евгений Антонов | <pre> |
| 45 | 1 | Евгений Антонов | gnt# gnt-node modify -C yes -O no УЗЕЛ |
| 46 | 1 | Евгений Антонов | </pre> |
| 47 | 1 | Евгений Антонов | Однако, если у вас имеются сомнения в том, что узел остался в рабочем состоянии, то лучше выполнить: |
| 48 | 1 | Евгений Антонов | |
| 49 | 1 | Евгений Антонов | <pre> |
| 50 | 1 | Евгений Антонов | gnt# gnt-node add --readd УЗЕЛ |
| 51 | 1 | Евгений Антонов | </pre> |
| 52 | 1 | Евгений Антонов | В любом случае, после этого нужно подождать около 5 минут, чтобы демон watcher поднял drbd, либо инициировать процесс вручную: |
| 53 | 1 | Евгений Антонов | <pre> |
| 54 | 1 | Евгений Антонов | |
| 55 | 1 | Евгений Антонов | gnt# gnt-cluster verify-disks |
| 56 | 1 | Евгений Антонов | </pre> |
| 57 | 1 | Евгений Антонов | |
| 58 | 1 | Евгений Антонов | h1. Замена узла на новый |
| 59 | 1 | Евгений Антонов | Удалить старый узел из /root/.ssh/known_hosts |
| 60 | 1 | Евгений Антонов | |
| 61 | 1 | Евгений Антонов | Добавить узел в кластер |
| 62 | 1 | Евгений Антонов | |
| 63 | 1 | Евгений Антонов | <pre> |
| 64 | 1 | Евгений Антонов | gnt# gnt-node add --readd gntX |
| 65 | 1 | Евгений Антонов | |
| 66 | 1 | Евгений Антонов | gnt# gnt-cluster redist-conf |
| 67 | 1 | Евгений Антонов | </pre> |
| 68 | 1 | Евгений Антонов | |
| 69 | 1 | Евгений Антонов | Для всех виртуалок, которые имеют secondary на подключенном узле: |
| 70 | 1 | Евгений Антонов | <pre> |
| 71 | 1 | Евгений Антонов | gnt# gnt-instance replace-disks --auto INSTANCE |
| 72 | 1 | Евгений Антонов | </pre> |
| 73 | 1 | Евгений Антонов | Перерегистрировать узел в puppet |
| 74 | 1 | Евгений Антонов | |
| 75 | 1 | Евгений Антонов | <pre> |
| 76 | 1 | Евгений Антонов | gnt# gnt-instance console sci |
| 77 | 1 | Евгений Антонов | sci# puppetca --clean gntX.fqdn |
| 78 | 1 | Евгений Антонов | gntX# rm -r /var/lib/puppet/ssl/* |
| 79 | 1 | Евгений Антонов | gntX# /etc/init.d/puppet restart |
| 80 | 1 | Евгений Антонов | </pre> |
| 81 | 1 | Евгений Антонов | |
| 82 | 1 | Евгений Антонов | h1. Замена жесткого диска |
| 83 | 1 | Евгений Антонов | Скопировать разметку с существующего (только для дисков одной модели!) |
| 84 | 1 | Евгений Антонов | |
| 85 | 1 | Евгений Антонов | <pre> |
| 86 | 1 | Евгений Антонов | # sfdisk -d /dev/sda|sfdisk /dev/sdX |
| 87 | 1 | Евгений Антонов | </pre> |
| 88 | 1 | Евгений Антонов | |
| 89 | 1 | Евгений Антонов | Проверить |
| 90 | 1 | Евгений Антонов | <pre> |
| 91 | 1 | Евгений Антонов | # fdisk -l |
| 92 | 1 | Евгений Антонов | </pre> |
| 93 | 1 | Евгений Антонов | |
| 94 | 1 | Евгений Антонов | Добавить в RAID |
| 95 | 1 | Евгений Антонов | <pre> |
| 96 | 1 | Евгений Антонов | # mdadm --manage /dev/md0 --add /dev/sdX1 |
| 97 | 1 | Евгений Антонов | # mdadm --manage /dev/md1 --add /dev/sdX2 |
| 98 | 1 | Евгений Антонов | # mdadm --manage /dev/md2 --add /dev/sdX3 |
| 99 | 1 | Евгений Антонов | </pre> |
| 100 | 1 | Евгений Антонов | |
| 101 | 1 | Евгений Антонов | Проверить |
| 102 | 1 | Евгений Антонов | <pre> |
| 103 | 1 | Евгений Антонов | cat /proc/mdstat |
| 104 | 1 | Евгений Антонов | </pre> |
| 105 | 1 | Евгений Антонов | |
| 106 | 1 | Евгений Антонов | h1. Восстановление при split-brain: |
| 107 | 1 | Евгений Антонов | |
| 108 | 1 | Евгений Антонов | Если при activate-disks или при команде запуска/фейловера drbd ругается следующим образом в dmesg: |
| 109 | 1 | Евгений Антонов | <pre> |
| 110 | 1 | Евгений Антонов | |
| 111 | 1 | Евгений Антонов | [10893282.055705] block drbd21: Handshake successful: Agreed network protocol version 96 |
| 112 | 1 | Евгений Антонов | [10893282.056003] block drbd21: Peer authenticated using 16 bytes of 'md5' HMAC |
| 113 | 1 | Евгений Антонов | [10893282.056008] block drbd21: conn( WFConnection -> WFReportParams ) |
| 114 | 1 | Евгений Антонов | [10893282.056031] block drbd21: Starting asender thread (from drbd21_receiver [20355]) |
| 115 | 1 | Евгений Антонов | [10893282.056303] block drbd21: data-integrity-alg: <not-used> |
| 116 | 1 | Евгений Антонов | [10893282.056319] block drbd21: drbd_sync_handshake: |
| 117 | 1 | Евгений Антонов | [10893282.056322] block drbd21: self 5323ED521900E1F9:FCBCCB0FBF14BA04:480CD30FE2A601EA:480BD30FE2A601EB bits:46 flags:0 |
| 118 | 1 | Евгений Антонов | [10893282.056324] block drbd21: peer F3B949426796C7F8:FCBCCB0FBF14BA05:480CD30FE2A601EB:480BD30FE2A601EB bits:12288 flags:2 |
| 119 | 1 | Евгений Антонов | [10893282.056326] block drbd21: uuid_compare()=100 by rule 90 |
| 120 | 1 | Евгений Антонов | [10893282.056329] block drbd21: helper command: /bin/true initial-split-brain minor-21 |
| 121 | 1 | Евгений Антонов | [10893282.073918] block drbd21: meta connection shut down by peer. |
| 122 | 1 | Евгений Антонов | [10893282.073976] block drbd21: conn( WFReportParams -> NetworkFailure ) |
| 123 | 1 | Евгений Антонов | [10893282.073981] block drbd21: asender terminated |
| 124 | 1 | Евгений Антонов | [10893282.073983] block drbd21: Terminating drbd21_asender |
| 125 | 1 | Евгений Антонов | [10893282.080752] block drbd21: helper command: /bin/true initial-split-brain minor-21 exit code 0 (0x0) |
| 126 | 1 | Евгений Антонов | [10893282.080754] block drbd21: Split-Brain detected but unresolved, dropping connection! |
| 127 | 1 | Евгений Антонов | [10893282.080844] block drbd21: helper command: /bin/true split-brain minor-21 |
| 128 | 1 | Евгений Антонов | [10893282.081481] block drbd21: helper command: /bin/true split-brain minor-21 exit code 0 (0x0) |
| 129 | 1 | Евгений Антонов | [10893282.081484] block drbd21: conn( NetworkFailure -> Disconnecting ) |
| 130 | 1 | Евгений Антонов | [10893282.081487] block drbd21: error receiving ReportState, l: 4! |
| 131 | 1 | Евгений Антонов | [10893282.081577] block drbd21: Connection closed |
| 132 | 1 | Евгений Антонов | [10893282.081582] block drbd21: conn( Disconnecting -> StandAlone ) |
| 133 | 1 | Евгений Антонов | [10893282.081603] block drbd21: receiver terminated |
| 134 | 1 | Евгений Антонов | [10893282.081604] block drbd21: Terminating drbd21_receiver |
| 135 | 1 | Евгений Антонов | [10893282.711704] block drbd22: Handshake successful: Agreed network protocol version 96 |
| 136 | 1 | Евгений Антонов | [10893282.712019] block drbd22: Peer authenticated using 16 bytes of 'md5' HMAC |
| 137 | 1 | Евгений Антонов | [10893282.712024] block drbd22: conn( WFConnection -> WFReportParams ) |
| 138 | 1 | Евгений Антонов | [10893282.712047] block drbd22: Starting asender thread (from drbd22_receiver [23709]) |
| 139 | 1 | Евгений Антонов | [10893282.712301] block drbd22: data-integrity-alg: <not-used> |
| 140 | 1 | Евгений Антонов | [10893282.712332] block drbd22: drbd_sync_handshake: |
| 141 | 1 | Евгений Антонов | [10893282.712334] block drbd22: self CD794FB0989E2B95:DD71B308E6D3FE88:AD335B3ED83CE576:AD325B3ED83CE577 bits:7 flags:0 |
| 142 | 1 | Евгений Антонов | [10893282.712336] block drbd22: peer 17B47E98FD204408:DD71B308E6D3FE89:AD335B3ED83CE577:AD325B3ED83CE577 bits:3072 flags:2 |
| 143 | 1 | Евгений Антонов | [10893282.712338] block drbd22: uuid_compare()=100 by rule 90 |
| 144 | 1 | Евгений Антонов | [10893282.712341] block drbd22: helper command: /bin/true initial-split-brain minor-22 |
| 145 | 1 | Евгений Антонов | [10893282.713155] block drbd22: helper command: /bin/true initial-split-brain minor-22 exit code 0 (0x0) |
| 146 | 1 | Евгений Антонов | [10893282.713157] block drbd22: Split-Brain detected but unresolved, dropping connection! |
| 147 | 1 | Евгений Антонов | [10893282.713251] block drbd22: helper command: /bin/true split-brain minor-22 |
| 148 | 1 | Евгений Антонов | [10893282.713820] block drbd22: meta connection shut down by peer. |
| 149 | 1 | Евгений Антонов | [10893282.713889] block drbd22: conn( WFReportParams -> NetworkFailure ) |
| 150 | 1 | Евгений Антонов | [10893282.713895] block drbd22: asender terminated |
| 151 | 1 | Евгений Антонов | [10893282.713897] block drbd22: Terminating drbd22_asender |
| 152 | 1 | Евгений Антонов | [10893282.713945] block drbd22: helper command: /bin/true split-brain minor-22 exit code 0 (0x0) |
| 153 | 1 | Евгений Антонов | [10893282.713948] block drbd22: conn( NetworkFailure -> Disconnecting ) |
| 154 | 1 | Евгений Антонов | [10893282.713952] block drbd22: error receiving ReportState, l: 4! |
| 155 | 1 | Евгений Антонов | [10893282.714046] block drbd22: Connection closed |
| 156 | 1 | Евгений Антонов | [10893282.714050] block drbd22: conn( Disconnecting -> StandAlone ) |
| 157 | 1 | Евгений Антонов | [10893282.714070] block drbd22: receiver terminated |
| 158 | 1 | Евгений Антонов | [10893282.714072] block drbd22: Terminating drbd22_receiver |
| 159 | 1 | Евгений Антонов | [10893283.140310] block drbd21: conn( StandAlone -> Unconnected ) |
| 160 | 1 | Евгений Антонов | [10893283.140323] block drbd21: Starting receiver thread (from drbd21_worker [23682]) |
| 161 | 1 | Евгений Антонов | [10893283.140363] block drbd21: receiver (re)started |
| 162 | 1 | Евгений Антонов | [10893283.140366] block drbd21: conn( Unconnected -> WFConnection ) |
| 163 | 1 | Евгений Антонов | [10893283.498632] block drbd22: conn( StandAlone -> Unconnected ) |
| 164 | 1 | Евгений Антонов | [10893283.498646] block drbd22: Starting receiver thread (from drbd22_worker [23702]) |
| 165 | 1 | Евгений Антонов | [10893283.498705] block drbd22: receiver (re)started |
| 166 | 1 | Евгений Антонов | [10893283.498710] block drbd22: conn( Unconnected -> WFConnection ) |
| 167 | 1 | Евгений Антонов | </pre> |
| 168 | 1 | Евгений Антонов | |
| 169 | 1 | Евгений Антонов | Здесь мы видим: |
| 170 | 1 | Евгений Антонов | <pre> |
| 171 | 1 | Евгений Антонов | [10893282.713155] block drbd22: helper command: /bin/true initial-split-brain minor-22 exit code 0 (0x0) |
| 172 | 1 | Евгений Антонов | [10893282.713157] block drbd22: Split-Brain detected but unresolved, dropping connection! |
| 173 | 1 | Евгений Антонов | </pre> |
| 174 | 1 | Евгений Антонов | то, во-первых, нужно установить, где находятся актуальные данные. |
| 175 | 1 | Евгений Антонов | Когда когда точно установлено, где актуальные данные, мы идем на ноду, где данные битые, и там даем команду: |
| 176 | 1 | Евгений Антонов | |
| 177 | 1 | Евгений Антонов | <pre> |
| 178 | 1 | Евгений Антонов | drbdsetup /dev/drbd23 invalidate |
| 179 | 1 | Евгений Антонов | </pre> |
| 180 | 1 | Евгений Антонов | |
| 181 | 1 | Евгений Антонов | Затем на мастере дать activate-disks для этого инстанса, и проследить, что все drbd ресурсы отсинкались. |
| 182 | 1 | Евгений Антонов | |
| 183 | 1 | Евгений Антонов | h1. Восстановление outdated диска |
| 184 | 1 | Евгений Антонов | |
| 185 | 1 | Евгений Антонов | Ситуация: primary узел умер, диск на secondary узле считает себя outdated. |
| 186 | 1 | Евгений Антонов | Watcher пишет письма, содержащие в логе такую строку: |
| 187 | 1 | Евгений Антонов | <pre> |
| 188 | 1 | Евгений Антонов | |
| 189 | 1 | Евгений Антонов | Error while assembling disk: drbd7: can't make drbd device primary: |
| 190 | 1 | Евгений Антонов | /dev/drbd7: State change failed: (-2) Need access to UpToDate data\n |
| 191 | 1 | Евгений Антонов | </pre> |
| 192 | 1 | Евгений Антонов | Виртуалка не поднимается, диски не собираются (точнее собираются и отключаются обратно). |
| 193 | 1 | Евгений Антонов | Требуется собрать диск вручную и сказать ему что он primary |
| 194 | 1 | Евгений Антонов | |
| 195 | 1 | Евгений Антонов | <pre> |
| 196 | 1 | Евгений Антонов | root@gnt1:~# gnt-instance info ИНСТАНС |
| 197 | 1 | Евгений Антонов | [skip] |
| 198 | 1 | Евгений Антонов | - disk/0: drbd8, size 117.2G |
| 199 | 1 | Евгений Антонов | access mode: rw |
| 200 | 1 | Евгений Антонов | nodeA: gnt2.XXXX.ru, minor=2 |
| 201 | 1 | Евгений Антонов | nodeB: gnt3.XXXX.ru, minor=0 |
| 202 | 1 | Евгений Антонов | port: 11012 |
| 203 | 1 | Евгений Антонов | auth key: 06ca8046f1323d0b154c500f41c0d625cbd796c3 |
| 204 | 1 | Евгений Антонов | on primary: /dev/drbd2 (147:2) in sync, status *DEGRADED* |
| 205 | 1 | Евгений Антонов | child devices: |
| 206 | 1 | Евгений Антонов | - child 0: lvm, size 117.2G |
| 207 | 1 | Евгений Антонов | logical_id: xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data |
| 208 | 1 | Евгений Антонов | on primary: /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data (253:11) |
| 209 | 1 | Евгений Антонов | - child 1: lvm, size 128M |
| 210 | 1 | Евгений Антонов | logical_id: xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta |
| 211 | 1 | Евгений Антонов | on primary: /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta (253:12) |
| 212 | 1 | Евгений Антонов | |
| 213 | 1 | Евгений Антонов | root@gnt2:~# drbdsetup /dev/drbd8 disk /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_data \ |
| 214 | 1 | Евгений Антонов | /dev/xenvg/813feab3-f7a5-41bb-8a34-5b053ad1c8a6.disk0_meta 0 |
| 215 | 1 | Евгений Антонов | root@gnt2:~# drbd-overview |
| 216 | 1 | Евгений Антонов | 0:??not-found?? Connected Secondary/Primary UpToDate/UpToDate C r----- |
| 217 | 1 | Евгений Антонов | 8:??not-found?? StandAlone Secondary/Unknown Outdated/DUnknown r----- |
| 218 | 1 | Евгений Антонов | root@gnt2:~# drbdsetup /dev/drbd8 primary -f |
| 219 | 1 | Евгений Антонов | |
| 220 | 1 | Евгений Антонов | root@gnt2:~# drbd-overview |
| 221 | 1 | Евгений Антонов | 0:??not-found?? Connected Secondary/Primary UpToDate/UpToDate C r----- |
| 222 | 1 | Евгений Антонов | 8:??not-found?? StandAlone Primary/Unknown UpToDate/DUnknown r----- |
| 223 | 1 | Евгений Антонов | </pre> |
| 224 | 1 | Евгений Антонов | <pre> |
| 225 | 1 | Евгений Антонов | root@gnt2:~# drbdsetup /dev/drbd8 down |
| 226 | 1 | Евгений Антонов | </pre> |