**Alexey Skobkin** @skobkin@lor.sh · Oct 02, 2024, 23:17

**Alexey Skobkin** @skobkin@lor.sh · Oct 02, 2024, 23:17

Alexey Skobkin @skobkin@lor.sh

Oct 02, 2024, 23:17

Что-то сегодня адуха какая-то.

Как будто бы рейд посыпался.

Пока я сегодня спал, пришло уведомление, что из массива выпал один диск, к моменту как я дополз до компьютера - уже недоставало двух.

При этом диски не были помечены сбойными, а просто пропали из массива. При этом находясь в системе и показывая по mdadm --examine, что они часть рейда. Причём ещё и в статусе "active". Когда в это же время в mdadm --detail было минус два диска как будто их просто не существует.

В итоге один вернулся сам после того как я этих двоих физически вынул и вернул обратно.

Второй вернулся после mdadm <array> --add. Выглядело всё это так как будто mdadm - слепой, а я его носом ткнул и он такой: "Да вот же он!".

Вот только в следующий ребут ФС, которая находится поверх LUKS на этом массиве не подмонтировалась с ошибкой "fsconfig system call failed: Structure needs cleaning", а e2fsck нашёл какую-то ебАную кучу всякой хрени (пока просто в режиме без изменений).

Оставил на ночь mdadm провести проверку целостности массива с пересчётом и ...

Заказал дисков, на которые планировал обновляться в самом конце года.

Короче говоря, астрологи объявили неделю приключений, танцев с бубном, незапланированных трат и потенциальной потери 30 терабайт данных 🎉

Предлагаю делать ставки на исход.

#hardware #server #soft #mdadm #Linux #RAID #log #storage #WTF #shit

59% [Почти] всё восстановишь
13% Много проебёшь
27% Всё проебёшь

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 08:49

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 08:49

Oct 06, 2024, 08:49

burbilog @burbilog@lor.sh

@skobkin за что я ненавижу рейды сложнее raid1 -- взглючит, хрен соберешь. нельзя тупо диск на другую машину утащить и подключить

**Andrey Esin** @andrey@hubzil.la · Oct 06, 2024, 10:57

**Andrey Esin** @andrey@hubzil.la · Oct 06, 2024, 10:57

Oct 06, 2024, 10:57

Andrey Esin @andrey@hubzil.la

@burbilog
Если используется mdadm - можно утащить на любую машину весь массив/диск, на котором есть Линукс с поддержкой mdadm

@skobkin

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 10:58 *

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 10:58 *

Oct 06, 2024, 10:58 *

Alexey Skobkin @skobkin@lor.sh

@andrey @burbilog
Я полагаю, он имел в виду, что нельзя из RAID 5/6 вытащить ОДИН диск, унести
на другую машину и легко читать с него данные потому, что они там размазаны с контролем чётности.

Впрочем непонятно что тут ненавидеть, т.к. это не баг, а фича 🤷‍♂️

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 11:11

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 11:11

Oct 06, 2024, 11:11

burbilog @burbilog@lor.sh

@skobkin @andrey да-да я именно про это. однажды две недели ждал, пока прососется. на любителя это, ИМХО, куда спокойнее переплатить за диски пожирнее или за дополнительные массивы, не складывая абсолютно все в одну корзину

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 11:14

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 11:14

Oct 06, 2024, 11:14

Alexey Skobkin @skobkin@lor.sh

@burbilog @andrey
Ну, на моём массиве разница между зеркалом и 6 будет измеряться в очень больших деньгах.

Плюс у RAID 6 есть два parity.
В случае же просто зеркала придётся самому решать где правильные данные если один на одном диске, который не умер физически некорректные данные.

**1lyaP** @1lyaP@lor.sh · Oct 06, 2024, 16:10

**1lyaP** @1lyaP@lor.sh · Oct 06, 2024, 16:10

Oct 06, 2024, 16:10

1lyaP @1lyaP@lor.sh

@skobkin @burbilog @andrey У софтовых рейдов на линуксах, mdadm, lvm, zfs, etc есть один существенный минус: ПО размазывает блоки контроля чётности равномерно по всем дискам вместе с данными. Это даёт удобство администрирования, но скорость восстановления таких массивов гораздо медленнее, чем у честных "железных" рейдов. К примеру, в хуавеевской железке 16-терабайтный hdd на 10k ребилдится за день, около 11 часов. В lvm-ном массиве аналогичный диск восстанавливается почти трое суток, на топовом ксеоне и терабайте оперативки.

У меня был в практике случай, когда администрация одного города закупила хранилки под конкретный проект, проигнорировав рекомендации архитекторов. Купили 6 схд, в каждой по несколько сотен nl-sas дисков и сколько-то там ссдшек под кеш. Запилили на этом хозяйстве шестые рейды. Где-то год всё работало, потом начали сыпаться диски: сначала меняли по одному-два в неделю, через пару месяцев уже по 4-5 штук. Постепенно довели инфраструктуру до критической точки, диски в рейдах уже не успевали перестраиваться. Проебали пару петабайт. Могли бы и больше, но к рекомендациям уже начали прислушиваться и мы сумели более-менее всё разрулить.

**unkn0wwn** @unkn0wwn@goto.alldnb.com · Oct 06, 2024, 16:20

**unkn0wwn** @unkn0wwn@goto.alldnb.com · Oct 06, 2024, 16:20

Oct 06, 2024, 16:20

unkn0wwn @unkn0wwn@goto.alldnb.com

@1lyaP @skobkin @burbilog @andrey был похожий опыт с рейд5. В итоге купил нормальных ынтырпрайз дисков и перешёл на зеркала. У старого зеркала например на данный момент наработка больше 42к часов.

**1lyaP** @1lyaP@lor.sh · Oct 06, 2024, 16:29

**1lyaP** @1lyaP@lor.sh · Oct 06, 2024, 16:29

Oct 06, 2024, 16:29

1lyaP @1lyaP@lor.sh

@unkn0wwn @skobkin @burbilog @andrey да, я тоже дома r10 пользую. Вероятность сбоя сразу двух дисков в одном зеркале околонулевая,
а ребилдится оно в разы быстрее, чем p/q, считать же ничего не надо.

Но места в зеркале меньше всего, конечно. Когда думал над вариантами, r5 на 120+ тб выглядел очень привлекательно 😆

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 16:49

**Alexey Skobkin** @skobkin@lor.sh · Oct 06, 2024, 16:49

Oct 06, 2024, 16:49

Alexey Skobkin @skobkin@lor.sh

@1lyaP @unkn0wwn @burbilog @andrey
> Вероятность сбоя сразу двух дисков в одном зеркале околонулевая

Напоминаю, что у меня именно два диска вылетело 🤣

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 17:04

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 17:04

Oct 06, 2024, 17:04

burbilog @burbilog@lor.sh

@skobkin @1lyaP @unkn0wwn @andrey вот поэтому у меня на серверах всегда по три диска в зеркале стоит, причем разных производителей обязательно

**Roman** @3draven@mtdn.anyqn.com · 2024-10-06T22:11:32Z

Roman @3draven@mtdn.anyqn.com

@burbilog @skobkin @1lyaP @unkn0wwn @andrey грамотно, на самодельных серверах обычно экономят

Oct 06, 2024, 22:11 · · Moshidon · · ·

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 22:27

**burbilog** @burbilog@lor.sh · Oct 06, 2024, 22:27

Oct 06, 2024, 22:27

burbilog @burbilog@lor.sh

@3draven @skobkin @1lyaP @unkn0wwn @andrey поскольку я хожу клянчить себе сервера целиком, то на фоне денег за сервер+процессор+память диски как-то не выглядят большим перерасходом

хотя хрен знает, что бы я делал, случись нужда в сотнях терабайт. у меня, к счастью, виртуалки хоть и ответственные, но некрупные

Resources

Developers

What is Mastodon?

mtdn.anyqn.com

More…