Порекомендуйте чем можно текст в речь нынче прилично превращать?
@vsv вот спасибо, погляжу.
@vsv еще вопрос. Чем краткие содержания текстов на русском и английском делать удобнее? И на каком железе этот пайторч лучше запускать так что бы на это железо не разориться? Хочу таки попробовать, но на домашнем ноуте это все будет мешать.
@vsv
я, если честно, никогда с русским не работал и мне всегда казалось, что non-English NLP это какая-то отдельная вселенная, но если верить этому исследованию, то всё должно получится
https://www.dialog-21.ru/media/5764/golovizninavspluskotelnikovev038.pdf
@3draven саммари лучше всего (как и все остальное) делает gpt. Вполне хватит 3,5, но у 4 меньше косяков.
Есть ламы ещё (LLaMA), первая уже устаревшая (она хуже 3,5), вторая где-то на том же уровне, но полноразмерную на одной видюхе не поднимешь, умельцы её поджимают, но очень сильно страдает качество.
Но полно всяких апи (есть и агрегатов, которые проксируют). Они примерно все в одном ценовом сегменте, дороже всех gpt, но она и лучше. Все остальные ей уступают (по моим ощущениям)
@vsv апи дорогие какие то. Tts от опенаи, либо я плохо смотрел, либо 1.5 цента за килобайт текста. Краткое содержание текста не видел сколько стоит. Вот и думаю может локально поднять и неплохая идея.
@3draven как ты килобайты подсчитал? У всех цена за токен и это не всегда одно слово.
Посмотри вот тут, там всякие модели:
@vsv спасибо, я думал это там килобайты, а не тысячи токенов :) Пойду изучать. Если тысячи токенов то вроде ничего.
@3draven а блин, ты про tts.
Если нужен один поток, то на своём железе можно. Даже без видюхи (главное ядер побольше у проца)
@3draven по пайторчу, нужна Nvidia
К ней ставишь cuda.
Всякие остальные карты - может какие-то и заводятся, но это какие-то костыли. Я даже ничего и не читал на этот счёт.
Ну ещё можно взять подержанную теслу.
Но покупать специально – я бы 10 раз подумал прежде чем брать. Железо устаревает быстро и я как-то считал – облако выгоднее, хотя в локальном железе есть свои плюсы. Поиграть в игры можно)
@vsv под облаком ты понимаешь апи готовое или какое то амазон облако с видяхами?
@3draven
Апи – это апи)
Я имею ввиду аренду. Поминутная или на месяц.
Есть и такие, которые дают часть ядер (shared). Причём гарантированно.
Если нужен tts, то он и на проце работает, в общем-то. Со скрипом, конечно, но тем не менее.
Ллмки требовательны, да
@3draven
кстати, вот еще какой-то новый сервис tts, но сам еще не пробовал.
https://deepgram.com/
@vsv у них tts пока не доступен, только наоборот.
@3draven
Да, действительно. Это моя невнимательность. Попался анонс и подумал, что уже сделали.
У меня вот такая приложуха. Я расшифровывала 3-х часовую лекцию.
Голосовой блокнот для iOS, попробуйте его! https://itunes.apple.com/us/app/id1398027022
@3draven ну если без заморочек, у openai есть апи.
если русский нужен, то силеро хорош.
https://github.com/snakers4/silero-models#text-to-speech
Наверное он тебе и подойдет