Adaptec raid, arcconf

Материал из Webko Wiki
Перейти к навигации Перейти к поиску

Утилита arcconf предназначена для кофигурирования и мониторинга raid контроллеров Adaptec из нутри операционной системы Linux (через командную строку).

Установка

Скачать ее можно с официально сайта по ссылке или тут специаль для вашего контроллера, вдруг утилиты будут оличатся.

Скачиваем архив и распакуем для удобства в /usr/local/sbin

wget http://download.adaptec.com/raid/storage_manager/asm_linux_x64_v6_50_18579.tgz
tar -zxf asm_linux_x64_v6_50_18579.tgz
rm -f asm_linux_x64_v6_50_18579.tgz
mv cmdline/arcconf /usr/local/sbin/arcconf
chmod +x /usr/local/sbin/arcconf

Утилита готова к запуску, если во время запуска ругается на отсутствие библиотеки libstdc++.so.5 ее нужно дополнтельно подключить

export LD_PRELOAD=cmdline/libstdc++.so.5

или положить в каталог с либами, саму либу можно найти в архиве с утилитой.

Использование

  • Узнать количество и версии прошивок контроллеров
arcconf getversion
  • Узнать о состоянии контроллера 1 (дисках(физических, логических), батарее)
arcconf GETCONFIG 1
  • Получить переречень всех команд можно запустив утилиту без аргументов.
arcconf

Ребилд мвасива с новым диском

Заменяем вышедший из строя диск новым и выпоняем рескан устройств подключенных к контроллеру, проверяем что диск обнаружен

arcconf RESCAN <Controller#>
arcconf GETCONFIG <Controller#> PD

Проводим инициализацию диска

arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> initialize

Если есть необходимость очищаем и верефицируем диск

arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> CLEAR
arcconf TASK START <Controller#> DEVICE <Channel#> <ID#> VERIFY

Выполняем рескан, для проверки состояния диска после манипуляций, если авторестор включен то возможно ребилд уже начался

arcconf GETCONFIG <Controller#> PD

Проверяем включен ли авторебилд, включаем авторебилд, добавляем новый диск как Hot Spare для нашего масива

arcconf GETCONFIG <Controller#> AD
arcconf FAILOVER <Controaller#> <on|off>
arcconf SETSTATE <Controller#> DEVICE <Channel#> <ID#> HSP LOGICALDRIVE <LD#>

Проверяем состояние масива, смотрим начался ли ребилд

arcconf GETCONFIG <Controller#> LD

Мониторинг S.M.A.R.T. физических дисков

Adaptec контроллер дает возможность прямого доступа к физическим дискам, которые к нему подключены. В операционной системе эти диски представлены в виде /dev/sg* символьных устройств.

>ls -l /dev/sg*
crw-rw---- 1 root disk 21, 0 бер 18 13:59 /dev/sg0
crw-rw---- 1 root disk 21, 1 бер 18 13:59 /dev/sg1
crw-rw---- 1 root disk 21, 2 бер 18 13:59 /dev/sg2
crw-rw---- 1 root disk 21, 3 бер 18 13:59 /dev/sg3
crw-rw---- 1 root disk 21, 4 бер 18 13:59 /dev/sg4
crw-rw---- 1 root disk 21, 5 бер 18 13:59 /dev/sg5

По мимо физических дисков подключенных к контроллеру(подключено 4 HDD) тут присутствуют:

  • /dev/sg0 - 1й логический раздел
  • /dev/sg1 - 2й логический раздел
  • в случае если подключены CD/DVD-ROM или другие HDD они так же будут сдесь отображены.
>smartctl -a /dev/sg2
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.10.2.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST3300657SS
Revision:             0008
User Capacity:        300 000 000 000 bytes [300 GB]
Logical block size:   512 bytes
Rotation Rate:        15000 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c50088f24dbb
Serial number:        6SJ92NFK0000N5410EGZ
Device type:          disk
Transport protocol:   SAS
Local Time is:        Sat Mar 18 14:23:41 2017 EET
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     25 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 2

Vendor (Seagate) cache information
  Blocks sent to initiator = 2625323508
  Blocks received from initiator = 2217711807
  Blocks read from cache and sent to initiator = 38950
  Number of read and write commands whose size <= segment size = 1373960
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 13464,60
  number of minutes until next internal SMART test = 37

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:      67285        0         0     67285      67285          1,785           0
write:         0        0         0         0          0       1135,685           0
verify: 63605447        0         0  63605447   63605447       3541,404           0

Non-medium error count:        0

No self-tests have been logged

smartd

>yum install smartmontools
>cat /etc/sysconfig/smartmontools
start_smartd=yes
smartd_opts="--interval=3600"
>cat /etc/smartmontools/smartd.conf
#Диски, которые нужно мониторить
/dev/sg2 -o on -S on -m your@emailaddress.com -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg3 -o on -S on -m your@emailaddress.com -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg4 -o on -S on -m your@emailaddress.com -M diminishing -a -s (S/../.././00|L/../../7/03)
/dev/sg5 -o on -S on -m your@emailaddress.com -M diminishing -a -s (S/../.././00|L/../../7/03)
>systemctl enable smartd
>systemctl start smartd

Пояснения:

  • Для все дисков включено запуск офлайн тестов (-o on) для обновление и сохранения значений атрибутов (-S on).
  • Так же добавлена проверка всех текущих параметров (-а) и назначено запуск дополнительных коротких тестов каждый день в полночь (S/../.././00) и долгих тестов каждое воскресенье с 3 часов ночи (L/../../7/03). Если будет проблема хотя бы с одной из метрик — будет отправлено письмо на соответствующий адрес (-m your@emailaddress.com).
  • При этом письма будут отправляться систематически — 1,2,4,8,16,… дни (-M diminishing), пока проблема не будет устранена.



Написано после прочтения 1 2