Adaptec raid, arcconf: различия между версиями
Sol (обсуждение | вклад) |
Sol (обсуждение | вклад) (rebuild add) |
||
(не показана 1 промежуточная версия этого же участника) | |||
Строка 34: | Строка 34: | ||
<syntaxhighlight lang="bash"> | <syntaxhighlight lang="bash"> | ||
arcconf | arcconf | ||
+ | </syntaxhighlight> | ||
+ | |||
+ | === Ребилд мвасива с новым диском === | ||
+ | Заменяем вышедший из строя диск новым и выпоняем рескан устройств подключенных к контроллеру, проверяем что диск обнаружен | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf RESCAN <Controller#> | ||
+ | arcconf GETCONFIG <Controller#> PD | ||
+ | </syntaxhighlight> | ||
+ | Проводим инициализацию диска | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> initialize | ||
+ | </syntaxhighlight> | ||
+ | Если есть необходимость очищаем и верефицируем диск | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> CLEAR | ||
+ | arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> VERIFY | ||
+ | </syntaxhighlight> | ||
+ | Выполняем рескан, для проверки состояния диска после манипуляций, если авторестор включен то возможно ребилд уже начался | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf GETCONFIG <Controller#> PD | ||
+ | </syntaxhighlight> | ||
+ | Проверяем включен ли авторебилд, включаем авторебилд, добавляем новый диск как Hot Spare для нашего масива | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf GETCONFIG <Controller#> AD | ||
+ | arcconf FAILOVER <Controaller#> <on|off> | ||
+ | arcconf SETSTATE <Controller#> DEVICE <Channel#> <ID#> HSP LOGICALDRIVE <LD#> | ||
+ | </syntaxhighlight> | ||
+ | Проверяем состояние масива, смотрим начался ли ребилд | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | arcconf GETCONFIG <Controller#> LD | ||
</syntaxhighlight> | </syntaxhighlight> | ||
Строка 132: | Строка 162: | ||
* При этом письма будут отправляться систематически — 1,2,4,8,16,… дни (-M diminishing), пока проблема не будет устранена. | * При этом письма будут отправляться систематически — 1,2,4,8,16,… дни (-M diminishing), пока проблема не будет устранена. | ||
+ | |||
+ | ---- | ||
''Написано после прочтения'' [http://linux-notes.org/upravlenie-raid-adaptec-s-pomoshh-yu-arcconf-v-centos/ 1] [http://sysadm.pp.ua/linux/monitoring-systems/aacraid-monitoring.html 2] | ''Написано после прочтения'' [http://linux-notes.org/upravlenie-raid-adaptec-s-pomoshh-yu-arcconf-v-centos/ 1] [http://sysadm.pp.ua/linux/monitoring-systems/aacraid-monitoring.html 2] |
Текущая версия на 12:49, 9 ноября 2017
Утилита arcconf предназначена для кофигурирования и мониторинга raid контроллеров Adaptec из нутри операционной системы Linux (через командную строку).
Установка
Скачать ее можно с официально сайта по ссылке или тут специаль для вашего контроллера, вдруг утилиты будут оличатся.
Скачиваем архив и распакуем для удобства в /usr/local/sbin
wget http://download.adaptec.com/raid/storage_manager/asm_linux_x64_v6_50_18579.tgz
tar -zxf asm_linux_x64_v6_50_18579.tgz
rm -f asm_linux_x64_v6_50_18579.tgz
mv cmdline/arcconf /usr/local/sbin/arcconf
chmod +x /usr/local/sbin/arcconf
Утилита готова к запуску, если во время запуска ругается на отсутствие библиотеки libstdc++.so.5 ее нужно дополнтельно подключить
export LD_PRELOAD=cmdline/libstdc++.so.5
или положить в каталог с либами, саму либу можно найти в архиве с утилитой.
Использование
- Узнать количество и версии прошивок контроллеров
arcconf getversion
- Узнать о состоянии контроллера 1 (дисках(физических, логических), батарее)
arcconf GETCONFIG 1
- Получить переречень всех команд можно запустив утилиту без аргументов.
arcconf
Ребилд мвасива с новым диском
Заменяем вышедший из строя диск новым и выпоняем рескан устройств подключенных к контроллеру, проверяем что диск обнаружен
arcconf RESCAN <Controller#>
arcconf GETCONFIG <Controller#> PD
Проводим инициализацию диска
arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> initialize
Если есть необходимость очищаем и верефицируем диск
arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> CLEAR
arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> VERIFY
Выполняем рескан, для проверки состояния диска после манипуляций, если авторестор включен то возможно ребилд уже начался
arcconf GETCONFIG <Controller#> PD
Проверяем включен ли авторебилд, включаем авторебилд, добавляем новый диск как Hot Spare для нашего масива
arcconf GETCONFIG <Controller#> AD
arcconf FAILOVER <Controaller#> <on|off>
arcconf SETSTATE <Controller#> DEVICE <Channel#> <ID#> HSP LOGICALDRIVE <LD#>
Проверяем состояние масива, смотрим начался ли ребилд
arcconf GETCONFIG <Controller#> LD
Мониторинг S.M.A.R.T. физических дисков
Adaptec контроллер дает возможность прямого доступа к физическим дискам, которые к нему подключены. В операционной системе эти диски представлены в виде /dev/sg* символьных устройств.
>ls -l /dev/sg*
crw-rw---- 1 root disk 21, 0 бер 18 13:59 /dev/sg0
crw-rw---- 1 root disk 21, 1 бер 18 13:59 /dev/sg1
crw-rw---- 1 root disk 21, 2 бер 18 13:59 /dev/sg2
crw-rw---- 1 root disk 21, 3 бер 18 13:59 /dev/sg3
crw-rw---- 1 root disk 21, 4 бер 18 13:59 /dev/sg4
crw-rw---- 1 root disk 21, 5 бер 18 13:59 /dev/sg5
По мимо физических дисков подключенных к контроллеру(подключено 4 HDD) тут присутствуют:
- /dev/sg0 - 1й логический раздел
- /dev/sg1 - 2й логический раздел
- в случае если подключены CD/DVD-ROM или другие HDD они так же будут сдесь отображены.
>smartctl -a /dev/sg2
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.10.2.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: SEAGATE
Product: ST3300657SS
Revision: 0008
User Capacity: 300 000 000 000 bytes [300 GB]
Logical block size: 512 bytes
Rotation Rate: 15000 rpm
Form Factor: 3.5 inches
Logical Unit id: 0x5000c50088f24dbb
Serial number: 6SJ92NFK0000N5410EGZ
Device type: disk
Transport protocol: SAS
Local Time is: Sat Mar 18 14:23:41 2017 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Enabled
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature: 25 C
Drive Trip Temperature: 68 C
Elements in grown defect list: 2
Vendor (Seagate) cache information
Blocks sent to initiator = 2625323508
Blocks received from initiator = 2217711807
Blocks read from cache and sent to initiator = 38950
Number of read and write commands whose size <= segment size = 1373960
Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 13464,60
number of minutes until next internal SMART test = 37
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 67285 0 0 67285 67285 1,785 0
write: 0 0 0 0 0 1135,685 0
verify: 63605447 0 0 63605447 63605447 3541,404 0
Non-medium error count: 0
No self-tests have been logged
smartd
>yum install smartmontools
>cat /etc/sysconfig/smartmontools
start_smartd=yes
smartd_opts="--interval=3600"
>cat /etc/smartmontools/smartd.conf
#Диски, которые нужно мониторить
/dev/sg2 -o on -S on -m [email protected] -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg3 -o on -S on -m [email protected] -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg4 -o on -S on -m [email protected] -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg5 -o on -S on -m [email protected] -M diminishing -a -s (S/../.././00|L/../../7/03)
>systemctl enable smartd
>systemctl start smartd
Пояснения:
- Для все дисков включено запуск офлайн тестов (-o on) для обновление и сохранения значений атрибутов (-S on).
- Так же добавлена проверка всех текущих параметров (-а) и назначено запуск дополнительных коротких тестов каждый день в полночь (S/../.././00) и долгих тестов каждое воскресенье с 3 часов ночи (L/../../7/03). Если будет проблема хотя бы с одной из метрик — будет отправлено письмо на соответствующий адрес (-m [email protected]).
- При этом письма будут отправляться систематически — 1,2,4,8,16,… дни (-M diminishing), пока проблема не будет устранена.