tldr: автор предлагает вместо обычных разделителей (запятая, табуляция) использовать стандартные разделители текста из ASCII
@di читая это мне захотелось пользоваться только таким форматом
@OfShad0ws @blue @di мы выгружаем миллиарды записей, обычным цсв, да еще и с обработкой на лету. Ничего в нем сложного нет если система источник одна и формат без диалектов. Кажется эта штука болит только у авторов либ, которым надо диалекты. Парсер стабильного диалекта в виде КА прост.
@blue @OfShad0ws @di трудно сказать, внутри своей системы можно думать, имея дело с внешней, что есть то есть, а так, можно например parquet посмотреть вместо текстового формата и в зависимости от условий может оказаться, что любой цсв говно. От проекта зависит.
@blue @3draven @OfShad0ws мне сама идея очень понравилась, но, с другой стороны, я на столько редко сталкиваюсь с тем, что кто-то не может нормально распарсить цсв.... Хотя, вот сегодня тестировал тулзу, которая этого не умела, но там и без этого проблем хватало.
@di @3draven @OfShad0ws буквально вчера я чинил в проекте баг, который связан с тем, что скрипт парсящий цсв, не правильно разделял записи вида "26,748" на два значения. Зачем использовать запятую как decimal point это отдельный вопрос, но, тем не менее, выбор в столь популярном формате запятой в качестве разделителя соперничает с выбором для этой цели, не знаю, буквы p например
@blue @di @OfShad0ws цсв придумали что бы люди читали, текстовый же формат, для машин есть бинарные.
@3draven @di @OfShad0ws мне кажется csv это не совсем про людей, это больше похоже на какой нибудь скриптовый пайпинг для примитивных данных. Досадно, что он настолько популярен, что используется часто для сложных данных
В данном случае, баг на стороне софта, который не может пользовательский ввод привести к нормальному типу (в россии принято использовать запятую для разделения целой и дробной части и точку для разделения порядков) или надо было выбирать другой формат: tsv (tabula separated values), scv (semicolon separated values). И, имхо, dsv кривые руки не починили бы.
@3draven @OfShad0ws
@OfShad0ws @blue @di конечно есть.
@3draven @OfShad0ws @di мне кажется так было бы логичнее и правильнее, отпала бы необходимость к цсв либах как таковых