Что-то сегодня адуха какая-то.
Как будто бы рейд посыпался.
Пока я сегодня спал, пришло уведомление, что из массива выпал один диск, к моменту как я дополз до компьютера - уже недоставало двух.
При этом диски не были помечены сбойными, а просто пропали из массива. При этом находясь в системе и показывая по mdadm --examine, что они часть рейда. Причём ещё и в статусе "active". Когда в это же время в mdadm --detail было минус два диска как будто их просто не существует.
В итоге один вернулся сам после того как я этих двоих физически вынул и вернул обратно.
Второй вернулся после mdadm <array> --add. Выглядело всё это так как будто mdadm - слепой, а я его носом ткнул и он такой: "Да вот же он!".
Вот только в следующий ребут ФС, которая находится поверх LUKS на этом массиве не подмонтировалась с ошибкой "fsconfig system call failed: Structure needs cleaning", а e2fsck нашёл какую-то ебАную кучу всякой хрени (пока просто в режиме без изменений).
Оставил на ночь mdadm провести проверку целостности массива с пересчётом и ...
Заказал дисков, на которые планировал обновляться в самом конце года.
Короче говоря, астрологи объявили неделю приключений, танцев с бубном, незапланированных трат и потенциальной потери 30 терабайт данных 🎉
Предлагаю делать ставки на исход.
#hardware #server #soft #mdadm #Linux #RAID #log #storage #WTF #shit
@skobkin а не надежнее btrfs zfs?
@3draven
Не надёжнее чем что?
Зависит от.
Я с ZFS не хотел связываться по нескольким достаточно простым причинам:
- её нет в ядре
- она всё равно будет плохо работать на дисках разных объёмов если её не балансировать с бубном
- это привязка к конкретной ФС
В итоге решил не переусложнять и разделить задачи по отдельным инструментам. Один занимается рейдом, один шифрует, один файлы хранит.
Раньше я вообще на mhddfs, а потом mergerfs жил 🤷♂️
@skobkin не надежнее чем изолированные инструменты, не знающие данных друг друга. Фс цельная и просто так ничего не потеряет.
@3draven
А я не знаю.
Я не знаю, что конкретно произошло пока.
И на выяснение уйдёт много времени. Я даже не уверен, потрачу ли я достаточно времени чтобы точно выяснить.
Возможно это диски отказали. Возможно, недорогой SATA контроллер пизданулся. Даже баг в ФС исключать нельзя 🤷♂️