**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 11:39

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 11:39

D:\side\> @dside@mastodon.ml

Mar 19, 2025, 11:39

Пощупал немножко sentence-embedding'овые модели. если я правильно всё понял[oe], это по сути попытка (и очень неплохая) создать семантический перцепционный хэш:

- из текста произвольной длины получается числовой вектор фиксированной размерности (разные модели разной)
- для равных текстов векторы одинаковые (что и для традиционного хэша верно), для похожих по смыслу (семантике) текстов получаются близкие векторы (а это уже семантико-перцепционная часть)

Воткнул в Obsidian плагин Smart Connections[sc], который с помощью локальной модели вычисляет такие векторы для заметок и с помощью этих векторов ищет похожие для текущей заметки или произвольного текстового запроса. Результаты на удивление неплохи даже на крошечной модели с 35 Мб весов (bge-micro-v2), но считаются, конечно, медленно.

Применить это мне пока что негде, но что такое *существует*, знать полезно.

[oe]: https://ollama.com/blog/embedding-models
[sc]: https://github.com/brianpetro/obsidian-smart-connections

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:20

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:20

Mar 19, 2025, 17:20

Roman @3draven@mtdn.anyqn.com

@dside чем они лучше редакторского расстояния и прочих триграмм с соседями?

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:32 *

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:32 *

Mar 19, 2025, 17:32 *

D:\side\> @dside@mastodon.ml

@3draven Левенштейн и триграммы сугубо про слова. *Семантический* поиск про, ну, *семантику*. Может улавливать сходство между синонимичными терминами и формулировками, например. В меньшей степени, но в ту же сторону, смежные тематики.

**Roman** @3draven@mtdn.anyqn.com · 2025-03-19T17:35:00Z

Roman @3draven@mtdn.anyqn.com

@dside вопрос состоял не в том, что такое семантический, а конкретно, чем лучше? Построить хэш на редакторском расстоянии, который словит сходство слов в произвольном порядке будет сильно хуже?

Mar 19, 2025, 17:35 · · Moshidon · · ·

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:35

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:35

Mar 19, 2025, 17:35

Roman @3draven@mtdn.anyqn.com

@dside нейронка слишком мелкая что бы хорошо понимать сходство семантики.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:42

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:42

Mar 19, 2025, 17:42

D:\side\> @dside@mastodon.ml

@3draven она его и не понимает. Ни хорошо, ни плохо, никак, совсем. И регулярно выдаёт фигню. Всё как с LLMками. Но среди фигни находит и то, что анализ исключительно слов, без оглядки на язык, не находит.

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:54

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:54

Mar 19, 2025, 17:54

Roman @3draven@mtdn.anyqn.com

@dside судя по всему бенчмарков не видел с полнотекстовыми поисками и подобным или их нет вовсе. Не зная ответа строить гипотезу на своем понимании вопроса мне не надо, спасибо :) Я ведь конкретную штуку спросил. Нейронка может быть намного хуже обычного подхода. Ладно, разведение бури в стакане не входило в мой вопрос, закроем тему.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:56 *

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:56 *

Mar 19, 2025, 17:56 *

D:\side\> @dside@mastodon.ml

@3draven никаких гипотез, я прямо сейчас этим пользуюсь у себя в заметках и это непосредственные практические результаты. Из своих личных заметок делать бенчмарк я не буду, извините.

Но как я уже сказал в соседней ветке, бенчмаркать их друг против друга а нахожу дурацкой затеей. Примерно как бенчмаркать условный Redis против SQLite. Слишком разные штуки.

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:59

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 17:59

Mar 19, 2025, 17:59

Roman @3draven@mtdn.anyqn.com

@dside банальное редакторское расстояние и словарь синонимов, скачанный с сети вполне вероятно будут быстрее и намного проще. Но находишь и находишь.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 18:07 *

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 18:07 *

Mar 19, 2025, 18:07 *

D:\side\> @dside@mastodon.ml

@3draven они 100%-но будут быстрее и намного проще, но заберут кратно больше времени лично у меня, а словарь синонимов непременно упустит не особо устоявшиеся слова, коих у меня в заметках хватает, и что можно закрыть подредактировав словарь руками или потратив больше времени на поиск словаря поновее… и что-то эта затея уже перестаёт казаться такой уж радужной.

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 18:21

**Roman** @3draven@mtdn.anyqn.com · Mar 19, 2025, 18:21

Mar 19, 2025, 18:21

Roman @3draven@mtdn.anyqn.com

@dside эти штуки не надо писать, они написаны давно и неплохо работают. Надо просто погуглить чуть. В моих областях, например, апач люцена есть и еще вагон. Там от мелкого до слонов все есть. И они очень, очень быстрые. Словарь засовываешь в мозг этой штуки и все. Блин, ладно, пойду.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 18:24

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 18:24

Mar 19, 2025, 18:24

D:\side\> @dside@mastodon.ml

@3draven а кто-то говорил про "писать"? Да, хватит, продуктивной дискуссии что-то не получается.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:39

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:39

Mar 19, 2025, 17:39

D:\side\> @dside@mastodon.ml

@3draven он не уловит синонимы. Совсем. Для задачи, где пользователь может задать вопрос не с тем термином, к которому компания привыкла, пользователь рискует не получить наиболее релевантный ответ. Это можно закрыть костылями типа добавления в текст ответа всех известных синонимов, чтобы точно попало или как-то ещё, но это уже техники поверх.

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:47 *

**D:\side\>** @dside@mastodon.ml · Mar 19, 2025, 17:47 *

Mar 19, 2025, 17:47 *

D:\side\> @dside@mastodon.ml

@3draven а, и обратный случай, одни и те же термины, отсутствующие в списке стоп-слов, могут легко "затуманить" обзор техникам типа сравнения поисковых векторов (убрать стоп-слова, мапнуть стеммером, отсортировать) и дать ненужные совпадения.

Этим, впрочем, эмбеддинговый поиск страдает даже в большем масштабе, но немного другим образом – его ложные совпадения проще узнать, потому что они вообще на искомое не похожи, тогда как поисковые векторы ищут как минимум те же слова с поправкой на формы, и будут и на человеческий глаз выглядеть похоже.

Но вопрос "чем лучше" тут бессмысленен, это не конкурирующие в моём понимании техники.

Resources

Developers

What is Mastodon?

mtdn.anyqn.com

More…