Смотрю я на эту https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and статью, где на этот раз уже чуваки из Apple объясняют, почему LLM тупенькие и ни на что не годятся, а в голове по ходу чтения один только вопрос, который очень часто в подобных изучениях остаётся не раскрыт.

𝗧𝗵𝗲𝗿𝗲 𝗶𝘀 𝗷𝘂𝘀𝘁 𝗻𝗼 𝘄𝗮𝘆 𝗰𝗮𝗻 𝘆𝗼𝘂 𝗯𝘂𝗶𝗹𝗱 𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁𝘀 𝗼𝗻 𝘁𝗵𝗶𝘀 𝗳𝗼𝘂𝗻𝗱𝗮𝘁𝗶𝗼𝗻, да, да, согласен, но... А вы на людях то же самое проверили?
А зря не проверили, а вы проверьте. Я хочу видеть на этих же графиках просадки по простым, понятным, _очевидным_ задачкам ещё и результаты контрольной группы человеков, ОСОБЕННО для таких вот задачек, как в статье, с нерелевантными вставочками, пытающимися выдать себя за релевантные.

Можно прям вот эту из шапки, в которой пять киви попались размером меньше средних, и глупая моделька почему-то вдруг решила, что их надо вычитать из количества киви из-за этого - вот на ней, без предупреждения о подвохах, можно людей поопрашивать.
С кулькулятором не надо сравнивать, с собой сравните. И вот тогда, на непосредственном сравнении, мы уже поговорим про formal reasoning и что на чём можно строить, а что нет.

Follow

@lnkr @rur вроде видел сравнения, по некоторым задачам нейронки лучше людей уже. Но мельком видел, не найду.

@3draven @rur нейронки там местами медали на олимпиадах математических берут, пусть и с достаточным количеством нюансов, профессоров обходят в ими же написанных тестов, а потом количество r в слове raspberry посчитать не могут, но суть не в этом даже.
Я частенько вижу заявления о том, что модельки в логику не умеют, с примерами, часто на задачах с каким-нибудь смешным подколом. И вокруг них каждый раз много народу собирается, пальцем потыкать да поржать.
Да вот задним числом все умные, всем всё очевидно, а я вот некоторые их них записываю и потом на своём круге друзей и знакомых перепроверяю, НЕ начиная разговор с "смотри, задача с уловочкой". Сразу с порога берёшь и спрашиваешь что-нибудь очередное на внимательность, типа "Сегодня у меня пять бананов, я вчера купил три и два съел, сколько у меня бананов".

Потом репу чешу над результатами, не очень-то радостно выглядящими. Выборка моя статистически значимой, конечно, не считается, но что-то уверенности во мне нет, что это говорит что-нибудь именно о моём круге общения, и если я бОльшую выборку проверю, то сразу всё станет хорошо.

@lnkr @rur Есть крижка "думай медленно, решай быстро" Каннемана. Нобелевский лауреат. Там написано как это у людей работает с такими задачками.

@3draven не иначе все-таки придётся в неё заглянуть. Всё откладывал и откладывал до лучших времён, предположим что они настали конец, эти лучшие времена.

@3draven
Книжка реально хорошая и написана интересно
@lnkr @rur

Sign in to participate in the conversation
MustUdon

I like Twitter, but, Mastodon it is so excited! Feel free to register it is server just for fun! Usefull links https://instances.social https://www.reddit.com/r/Mastodon/comments/yugh2o/some_useful_mastodon_lists/?utm_source=share&utm_medium=web2x&context=3