Версия 3 - История - Failover management - SCI-CD - SkyCover Company - высокие технологии доступны

Failover management » История » Версия 3

Владимир Ипатов, 24.10.2012 21:13

 Владимир Ипатов
 Владимир Ипатов
-Владимир Ипатов
+{{>toc}}
 Владимир Ипатов
-Владимир Ипатов
+h1. FAILOVER management
 Владимир Ипатов
-Владимир Ипатов
+designations:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# - command exec on master node
-Владимир Ипатов
+gntX# - command exec on ordinary node
-Владимир Ипатов
+gntY# - command exec on other node
-Владимир Ипатов
+# - command exec on any node
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Start instances on one node where other is down
 Владимир Ипатов
-Владимир Ипатов
+When node starts and can't find other node, cluster management daemon ganeti-masterd don't start automatically, even on a master-node.
-Владимир Ипатов
+It is because of not able to find out if second node down or there is a link problem when instances on other node is still running.
-Владимир Ипатов
+Cluster management daemon start:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# ganeti-masterd --no-voting
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Master node change in normal mode
 Владимир Ипатов
-Владимир Ипатов
+Both of the nodes are online, master node changing is in normal mode
-Владимир Ипатов
+On master-candidate (gntX):
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gntX# gnt-cluster master-failover
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Failure of master node
 Владимир Ипатов
-Владимир Ипатов
+Master node(in this example gnt1) is down by hardware failure.
 Владимир Ипатов
-Владимир Ипатов
+Start management daemon on master-candidate(gntX):
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gntX# ganeti-masterd --no-voting
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Activate new master node:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gntX# gnt-cluster master-failover --no-voting
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
++*Set broken node to offline so master node don't try to connect it.*+
-Владимир Ипатов
+-С = master-candidate
-Владимир Ипатов
+-O = offline
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node modify -C no -O yes gntY
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Start all instances from broken node on backup node:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node failover --ignore-consistency gnt1
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Set broken node to online
 Владимир Ипатов
-Владимир Ипатов
+Old master node will not start management daemon on boot:
-Владимир Ипатов
+* if it will not find other node,
-Владимир Ипатов
+* if it will find other node that is in master mode.
 Владимир Ипатов
-Владимир Ипатов
+If data on this node is ok then to readd it in claster:
-Владимир Ипатов
+Copy new configuration on it from new master node:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-cluster redist-conf
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Restart ganeti daemons:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gntX# /etc/init.d/ganeti restart
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Planned node turning off for maintenance
 Владимир Ипатов
-Владимир Ипатов
+Migrate all instances from this node to another
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-instance migrate INSTANCE
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+If turning off node is master then you must to assign new cluster master(see above *Master node change in normal mode*)
 Владимир Ипатов
-Владимир Ипатов
+Set node to offline and not master-candidate:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node modify -C no -O yes УЗЕЛ
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Now you can simply turn off this node
 Владимир Ипатов
-Владимир Ипатов
+h3. Returning node to online
 Владимир Ипатов
-Владимир Ипатов
+After boot set node online and master-candidate:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node modify -C yes -O no УЗЕЛ
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+However, if you have any doubt about node's health, you would rather exec this:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node add --readd УЗЕЛ
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Anyway, you must wait about 5 minutes until watcher daemon set up drbd resources or initiate set up by hand:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-cluster verify-disks
-Владимир Ипатов
+</pre>
 Владимир Ипатов
 Владимир Ипатов
-Владимир Ипатов
+h2. Node replace to new
 Владимир Ипатов
-Владимир Ипатов
+Add node to cluster:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-node add --readd gntX
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+For all instances which new node is secondary:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-instance replace-disks --submit -s INSTANCE
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+Readd node to puppet:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gnt# gnt-instance console sci
-Владимир Ипатов
+sci# puppetca --clean gnt1.fqdn
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+gntX# /var/lib/puppet/ssl/*
-Владимир Ипатов
+gntX# /etc/init.d/puppet restart
-Владимир Ипатов
+</pre>
 Владимир Ипатов
-Владимир Ипатов
+h2. Hard disk replace
 Владимир Ипатов
-Владимир Ипатов
+Copy partitions from existent hdd(allowed only for same mode disks):
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+# sfdisk -d /dev/sda|sfdisk /dev/sdX
-Владимир Ипатов
+</pre>
-Владимир Ипатов
+Check:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+# fdisk -l
-Владимир Ипатов
+</pre>
-Владимир Ипатов
+add to RAID:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+# mdadm --manage /dev/md0 --add /dev/sdX1
-Владимир Ипатов
+# mdadm --manage /dev/md1 --add /dev/sdX2
-Владимир Ипатов
+# mdadm --manage /dev/md2 --add /dev/sdX3
-Владимир Ипатов
+</pre>
-Владимир Ипатов
+Check:
-Владимир Ипатов
+<pre>
-Владимир Ипатов
+cat /proc/mdstat
-Владимир Ипатов
+</pre>

Проект

Общее

Профиль

SCI-CD

Failover management » История » Версия 3