**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 11:19

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 11:19

Roman @3draven@mtdn.anyqn.com

Oct 20, 2024, 11:19

Для запуска полной модели типа чатгопоты 4 или ламы 3.1 дома надо примерно 150 млн рублей, три сервака, набитых пром акселераторами с кучей памяти. Узнал тут.

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 11:29 *

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 11:29 *

Oct 20, 2024, 11:29 *

burbilog @burbilog@lor.sh

@3draven llama 3.1 8b запускается на обычных картах, 70b были варианты за разумные деньги с парой б/у тесла p40 (да и на обычной я запускал, при наличии много обычного ram работает со скоростью около токена в секунду), а 405b да, там на коленке не собрать

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:09

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:09

Oct 20, 2024, 12:09

Roman @3draven@mtdn.anyqn.com

@burbilog кстати, а на NPU в проце пробовал что то стартовать?

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 12:32

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 12:32

Oct 20, 2024, 12:32

burbilog @burbilog@lor.sh

@3draven чисто на процессоре очень медленно, никакого терпения не хватит. у меня rtx 3060 с 12gb плюс в системе ryzen 5950x с 128g ram, в такой конструкции оно умеет работать частично в граф. карте, а частично в ram, подгружая в граф. карту по мере надобности кусками, это еще терпимо для 70b модели

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:35

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:35

Oct 20, 2024, 12:35

Roman @3draven@mtdn.anyqn.com

@burbilog а ты точно знаешь, что NPU используется? Он вроде намного быстрее просто CPU. Но насколько это полезно хз, вот и спрашиваю.

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:40

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 12:40

Oct 20, 2024, 12:40

Roman @3draven@mtdn.anyqn.com

@burbilog а, пардон, там нет NPU в проце. Блин, интересно кто юзает сказал бы, у меня есть проц с ним, но мне неделю копаться что бы проверить.

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 13:11 *

**burbilog** @burbilog@lor.sh · Oct 20, 2024, 13:11 *

Oct 20, 2024, 13:11 *

burbilog @burbilog@lor.sh

@3draven для LLM не нужно сверхбыстрого NPU, им нужно много-много граф. ядер с быстрым доступом в VRAM, для массовых параллельных расчетов

у 3060 на борту 3584 ядер, они и выполняют расчеты.

увы, основной затык в объемах vram, его надо много, а nvidia, будучи монополистом, не хочет выпускать карты с большим объемом vram, чтобы не уничтожить свои же продажи топовых граф. карт в других сегментах рынка

хотя GDDR сейчас сама по себе копейки стоит

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 13:24

**Roman** @3draven@mtdn.anyqn.com · Oct 20, 2024, 13:24

Oct 20, 2024, 13:24

Roman @3draven@mtdn.anyqn.com

@burbilog так вроде же NPU имеет аппаратную реализацию тех же вычислений и предназначен ровно для того же, что и видеокарта применительно к сеткам. Просто он поменьше и для локальных моделей, но в десятки раз быстрее цпу.