@3draven llama 3.1 8b запускается на обычных картах, 70b были варианты за разумные деньги с парой б/у тесла p40 (да и на обычной я запускал, при наличии много обычного ram работает со скоростью около токена в секунду), а 405b да, там на коленке не собрать
@burbilog кстати, а на NPU в проце пробовал что то стартовать?
@3draven чисто на процессоре очень медленно, никакого терпения не хватит. у меня rtx 3060 с 12gb плюс в системе ryzen 5950x с 128g ram, в такой конструкции оно умеет работать частично в граф. карте, а частично в ram, подгружая в граф. карту по мере надобности кусками, это еще терпимо для 70b модели
@3draven некоторое время назад массово продавались б/у теслы p40 с 24 гигами на борту, с майнинга, всего тысяч по 25 рублей. Но с ростом популярности llm их все смели с рынка подчистую, несмотря на б/у и необходимость колхозить свое охлаждение
@burbilog так вроде же NPU имеет аппаратную реализацию тех же вычислений и предназначен ровно для того же, что и видеокарта применительно к сеткам. Просто он поменьше и для локальных моделей, но в десятки раз быстрее цпу.
@burbilog я посмотрел. 3060 дает 102 tops npu дает примерно в десять раз меньше, но все равно намного больше цпу.
@3draven а какой именно npu?
@burbilog просто погуглил разные и в среднем так для новых интелов. Точно я не выяснял, мне порядок величин интересен только.
@3draven для LLM не нужно сверхбыстрого NPU, им нужно много-много граф. ядер с быстрым доступом в VRAM, для массовых параллельных расчетов
у 3060 на борту 3584 ядер, они и выполняют расчеты.
увы, основной затык в объемах vram, его надо много, а nvidia, будучи монополистом, не хочет выпускать карты с большим объемом vram, чтобы не уничтожить свои же продажи топовых граф. карт в других сегментах рынка
хотя GDDR сейчас сама по себе копейки стоит