@3draven llama 3.1 8b запускается на обычных картах, 70b были варианты за разумные деньги с парой б/у тесла p40 (да и на обычной я запускал, при наличии много обычного ram работает со скоростью около токена в секунду), а 405b да, там на коленке не собрать
@burbilog кстати, а на NPU в проце пробовал что то стартовать?
@3draven чисто на процессоре очень медленно, никакого терпения не хватит. у меня rtx 3060 с 12gb плюс в системе ryzen 5950x с 128g ram, в такой конструкции оно умеет работать частично в граф. карте, а частично в ram, подгружая в граф. карту по мере надобности кусками, это еще терпимо для 70b модели
@burbilog а ты точно знаешь, что NPU используется? Он вроде намного быстрее просто CPU. Но насколько это полезно хз, вот и спрашиваю.
@burbilog а, пардон, там нет NPU в проце. Блин, интересно кто юзает сказал бы, у меня есть проц с ним, но мне неделю копаться что бы проверить.
@3draven для LLM не нужно сверхбыстрого NPU, им нужно много-много граф. ядер с быстрым доступом в VRAM, для массовых параллельных расчетов
у 3060 на борту 3584 ядер, они и выполняют расчеты.
увы, основной затык в объемах vram, его надо много, а nvidia, будучи монополистом, не хочет выпускать карты с большим объемом vram, чтобы не уничтожить свои же продажи топовых граф. карт в других сегментах рынка
хотя GDDR сейчас сама по себе копейки стоит
@burbilog так вроде же NPU имеет аппаратную реализацию тех же вычислений и предназначен ровно для того же, что и видеокарта применительно к сеткам. Просто он поменьше и для локальных моделей, но в десятки раз быстрее цпу.
@burbilog я посмотрел. 3060 дает 102 tops npu дает примерно в десять раз меньше, но все равно намного больше цпу.