@3draven llama 3.1 8b запускается на обычных картах, 70b были варианты за разумные деньги с парой б/у тесла p40 (да и на обычной я запускал, при наличии много обычного ram работает со скоростью около токена в секунду), а 405b да, там на коленке не собрать
@burbilog кстати, а на NPU в проце пробовал что то стартовать?
@3draven чисто на процессоре очень медленно, никакого терпения не хватит. у меня rtx 3060 с 12gb плюс в системе ryzen 5950x с 128g ram, в такой конструкции оно умеет работать частично в граф. карте, а частично в ram, подгружая в граф. карту по мере надобности кусками, это еще терпимо для 70b модели
@burbilog а ты точно знаешь, что NPU используется? Он вроде намного быстрее просто CPU. Но насколько это полезно хз, вот и спрашиваю.
@burbilog а, пардон, там нет NPU в проце. Блин, интересно кто юзает сказал бы, у меня есть проц с ним, но мне неделю копаться что бы проверить.
@3draven а какой именно npu?
@burbilog просто погуглил разные и в среднем так для новых интелов. Точно я не выяснял, мне порядок величин интересен только.
@burbilog я посмотрел. 3060 дает 102 tops npu дает примерно в десять раз меньше, но все равно намного больше цпу.