Что-то сегодня адуха какая-то.

Как будто бы рейд посыпался.

Пока я сегодня спал, пришло уведомление, что из массива выпал один диск, к моменту как я дополз до компьютера - уже недоставало двух.

При этом диски не были помечены сбойными, а просто пропали из массива. При этом находясь в системе и показывая по mdadm --examine, что они часть рейда. Причём ещё и в статусе "active". Когда в это же время в mdadm --detail было минус два диска как будто их просто не существует.

В итоге один вернулся сам после того как я этих двоих физически вынул и вернул обратно.

Второй вернулся после mdadm <array> --add. Выглядело всё это так как будто mdadm - слепой, а я его носом ткнул и он такой: "Да вот же он!".

Вот только в следующий ребут ФС, которая находится поверх LUKS на этом массиве не подмонтировалась с ошибкой "fsconfig system call failed: Structure needs cleaning", а e2fsck нашёл какую-то ебАную кучу всякой хрени (пока просто в режиме без изменений).

Оставил на ночь mdadm провести проверку целостности массива с пересчётом и ...

Заказал дисков, на которые планировал обновляться в самом конце года.

Короче говоря, астрологи объявили неделю приключений, танцев с бубном, незапланированных трат и потенциальной потери 30 терабайт данных 🎉

Предлагаю делать ставки на исход.

#hardware #server #soft #mdadm #Linux #RAID #log #storage #WTF #shit

@3draven
Не надёжнее чем что?

Зависит от.

Я с ZFS не хотел связываться по нескольким достаточно простым причинам:

- её нет в ядре
- она всё равно будет плохо работать на дисках разных объёмов если её не балансировать с бубном
- это привязка к конкретной ФС

В итоге решил не переусложнять и разделить задачи по отдельным инструментам. Один занимается рейдом, один шифрует, один файлы хранит.

Раньше я вообще на mhddfs, а потом mergerfs жил 🤷‍♂️

@skobkin не надежнее чем изолированные инструменты, не знающие данных друг друга. Фс цельная и просто так ничего не потеряет.

@3draven
> Фс цельная и просто так ничего не потеряет

Эмм... Ну, скажи это людям, которые проёбывали всё с BTRFS.

Проебать можно всё и везде. Если это что-то очень важное - нужно заботиться о резервных копиях.

Правило трёх бэкапов - оно не просто так существует.

Follow

@skobkin я не говорил, что оно абсолютно надежно, а спросил не надежнее ли оно в данном конкретном случае. Но я понял, закончим.

@3draven
А я не знаю.

Я не знаю, что конкретно произошло пока.

И на выяснение уйдёт много времени. Я даже не уверен, потрачу ли я достаточно времени чтобы точно выяснить.

Возможно это диски отказали. Возможно, недорогой SATA контроллер пизданулся. Даже баг в ФС исключать нельзя 🤷‍♂️

@skobkin > Я не знаю, что конкретно произошло пока.
А логи совсем не смотрел или в них ничего?

@3draven

@Taciturn @3draven
Немного смотрел, но не все. Их много достаточно, надо выделить время на ковыряние.

@skobkin Выкладывай все, почитаем вместе!

@3draven

Sign in to participate in the conversation
MustUdon

I like Twitter, but, Mastodon it is so excited! Feel free to register it is server just for fun! Usefull links https://instances.social https://www.reddit.com/r/Mastodon/comments/yugh2o/some_useful_mastodon_lists/?utm_source=share&utm_medium=web2x&context=3