Для запуска полной модели типа чатгопоты 4 или ламы 3.1 дома надо примерно 150 млн рублей, три сервака, набитых пром акселераторами с кучей памяти. Узнал тут.

@3draven llama 3.1 8b запускается на обычных картах, 70b были варианты за разумные деньги с парой б/у тесла p40 (да и на обычной я запускал, при наличии много обычного ram работает со скоростью около токена в секунду), а 405b да, там на коленке не собрать

@burbilog кстати, а на NPU в проце пробовал что то стартовать?

@3draven чисто на процессоре очень медленно, никакого терпения не хватит. у меня rtx 3060 с 12gb плюс в системе ryzen 5950x с 128g ram, в такой конструкции оно умеет работать частично в граф. карте, а частично в ram, подгружая в граф. карту по мере надобности кусками, это еще терпимо для 70b модели

Follow

@burbilog а ты точно знаешь, что NPU используется? Он вроде намного быстрее просто CPU. Но насколько это полезно хз, вот и спрашиваю.

@burbilog а, пардон, там нет NPU в проце. Блин, интересно кто юзает сказал бы, у меня есть проц с ним, но мне неделю копаться что бы проверить.

@3draven для LLM не нужно сверхбыстрого NPU, им нужно много-много граф. ядер с быстрым доступом в VRAM, для массовых параллельных расчетов

у 3060 на борту 3584 ядер, они и выполняют расчеты.

увы, основной затык в объемах vram, его надо много, а nvidia, будучи монополистом, не хочет выпускать карты с большим объемом vram, чтобы не уничтожить свои же продажи топовых граф. карт в других сегментах рынка

хотя GDDR сейчас сама по себе копейки стоит

@3draven некоторое время назад массово продавались б/у теслы p40 с 24 гигами на борту, с майнинга, всего тысяч по 25 рублей. Но с ростом популярности llm их все смели с рынка подчистую, несмотря на б/у и необходимость колхозить свое охлаждение

@burbilog так вроде же NPU имеет аппаратную реализацию тех же вычислений и предназначен ровно для того же, что и видеокарта применительно к сеткам. Просто он поменьше и для локальных моделей, но в десятки раз быстрее цпу.

@burbilog я посмотрел. 3060 дает 102 tops npu дает примерно в десять раз меньше, но все равно намного больше цпу.

@burbilog просто погуглил разные и в среднем так для новых интелов. Точно я не выяснял, мне порядок величин интересен только.

Sign in to participate in the conversation
MustUdon

I like Twitter, but, Mastodon it is so excited! Feel free to register it is server just for fun! Usefull links https://instances.social https://www.reddit.com/r/Mastodon/comments/yugh2o/some_useful_mastodon_lists/?utm_source=share&utm_medium=web2x&context=3