Что-то сегодня адуха какая-то.

Как будто бы рейд посыпался.

Пока я сегодня спал, пришло уведомление, что из массива выпал один диск, к моменту как я дополз до компьютера - уже недоставало двух.

При этом диски не были помечены сбойными, а просто пропали из массива. При этом находясь в системе и показывая по mdadm --examine, что они часть рейда. Причём ещё и в статусе "active". Когда в это же время в mdadm --detail было минус два диска как будто их просто не существует.

В итоге один вернулся сам после того как я этих двоих физически вынул и вернул обратно.

Второй вернулся после mdadm <array> --add. Выглядело всё это так как будто mdadm - слепой, а я его носом ткнул и он такой: "Да вот же он!".

Вот только в следующий ребут ФС, которая находится поверх LUKS на этом массиве не подмонтировалась с ошибкой "fsconfig system call failed: Structure needs cleaning", а e2fsck нашёл какую-то ебАную кучу всякой хрени (пока просто в режиме без изменений).

Оставил на ночь mdadm провести проверку целостности массива с пересчётом и ...

Заказал дисков, на которые планировал обновляться в самом конце года.

Короче говоря, астрологи объявили неделю приключений, танцев с бубном, незапланированных трат и потенциальной потери 30 терабайт данных 🎉

Предлагаю делать ставки на исход.

#hardware #server #soft #mdadm #Linux #RAID #log #storage #WTF #shit

@skobkin за что я ненавижу рейды сложнее raid1 -- взглючит, хрен соберешь. нельзя тупо диск на другую машину утащить и подключить

@burbilog
Если используется mdadm - можно утащить на любую машину весь массив/диск, на котором есть Линукс с поддержкой mdadm

@skobkin

@andrey @burbilog
Я полагаю, он имел в виду, что нельзя из RAID 5/6 вытащить ОДИН диск, унести
на другую машину и легко читать с него данные потому, что они там размазаны с контролем чётности.

Впрочем непонятно что тут ненавидеть, т.к. это не баг, а фича 🤷‍♂️

@skobkin @andrey да-да я именно про это. однажды две недели ждал, пока прососется. на любителя это, ИМХО, куда спокойнее переплатить за диски пожирнее или за дополнительные массивы, не складывая абсолютно все в одну корзину

@burbilog @andrey
Ну, на моём массиве разница между зеркалом и 6 будет измеряться в очень больших деньгах.

Плюс у RAID 6 есть два parity.
В случае же просто зеркала придётся самому решать где правильные данные если один на одном диске, который не умер физически некорректные данные.

@skobkin @burbilog @andrey У софтовых рейдов на линуксах, mdadm, lvm, zfs, etc есть один существенный минус: ПО размазывает блоки контроля чётности равномерно по всем дискам вместе с данными. Это даёт удобство администрирования, но скорость восстановления таких массивов гораздо медленнее, чем у честных "железных" рейдов. К примеру, в хуавеевской железке 16-терабайтный hdd на 10k ребилдится за день, около 11 часов. В lvm-ном массиве аналогичный диск восстанавливается почти трое суток, на топовом ксеоне и терабайте оперативки.

У меня был в практике случай, когда администрация одного города закупила хранилки под конкретный проект, проигнорировав рекомендации архитекторов. Купили 6 схд, в каждой по несколько сотен nl-sas дисков и сколько-то там ссдшек под кеш. Запилили на этом хозяйстве шестые рейды. Где-то год всё работало, потом начали сыпаться диски: сначала меняли по одному-два в неделю, через пару месяцев уже по 4-5 штук. Постепенно довели инфраструктуру до критической точки, диски в рейдах уже не успевали перестраиваться. Проебали пару петабайт. Могли бы и больше, но к рекомендациям уже начали прислушиваться и мы сумели более-менее всё разрулить.

@1lyaP @skobkin @burbilog @andrey был похожий опыт с рейд5. В итоге купил нормальных ынтырпрайз дисков и перешёл на зеркала. У старого зеркала например на данный момент наработка больше 42к часов.

@unkn0wwn @skobkin @burbilog @andrey да, я тоже дома r10 пользую. Вероятность сбоя сразу двух дисков в одном зеркале околонулевая,
а ребилдится оно в разы быстрее, чем p/q, считать же ничего не надо.

Но места в зеркале меньше всего, конечно. Когда думал над вариантами, r5 на 120+ тб выглядел очень привлекательно 😆

@1lyaP @unkn0wwn @burbilog @andrey
> Вероятность сбоя сразу двух дисков в одном зеркале околонулевая

Напоминаю, что у меня именно два диска вылетело 🤣

@skobkin @1lyaP @unkn0wwn @andrey вот поэтому у меня на серверах всегда по три диска в зеркале стоит, причем разных производителей обязательно

Follow

@burbilog @skobkin @1lyaP @unkn0wwn @andrey грамотно, на самодельных серверах обычно экономят

@3draven @skobkin @1lyaP @unkn0wwn @andrey поскольку я хожу клянчить себе сервера целиком, то на фоне денег за сервер+процессор+память диски как-то не выглядят большим перерасходом

хотя хрен знает, что бы я делал, случись нужда в сотнях терабайт. у меня, к счастью, виртуалки хоть и ответственные, но некрупные

Sign in to participate in the conversation
MustUdon

I like Twitter, but, Mastodon it is so excited! Feel free to register it is server just for fun! Usefull links https://instances.social https://www.reddit.com/r/Mastodon/comments/yugh2o/some_useful_mastodon_lists/?utm_source=share&utm_medium=web2x&context=3