Смотрю я на эту https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and статью, где на этот раз уже чуваки из Apple объясняют, почему LLM тупенькие и ни на что не годятся, а в голове по ходу чтения один только вопрос, который очень часто в подобных изучениях остаётся не раскрыт.
𝗧𝗵𝗲𝗿𝗲 𝗶𝘀 𝗷𝘂𝘀𝘁 𝗻𝗼 𝘄𝗮𝘆 𝗰𝗮𝗻 𝘆𝗼𝘂 𝗯𝘂𝗶𝗹𝗱 𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁𝘀 𝗼𝗻 𝘁𝗵𝗶𝘀 𝗳𝗼𝘂𝗻𝗱𝗮𝘁𝗶𝗼𝗻, да, да, согласен, но... А вы на людях то же самое проверили?
А зря не проверили, а вы проверьте. Я хочу видеть на этих же графиках просадки по простым, понятным, _очевидным_ задачкам ещё и результаты контрольной группы человеков, ОСОБЕННО для таких вот задачек, как в статье, с нерелевантными вставочками, пытающимися выдать себя за релевантные.
Можно прям вот эту из шапки, в которой пять киви попались размером меньше средних, и глупая моделька почему-то вдруг решила, что их надо вычитать из количества киви из-за этого - вот на ней, без предупреждения о подвохах, можно людей поопрашивать.
С кулькулятором не надо сравнивать, с собой сравните. И вот тогда, на непосредственном сравнении, мы уже поговорим про formal reasoning и что на чём можно строить, а что нет.
@3draven @rur нейронки там местами медали на олимпиадах математических берут, пусть и с достаточным количеством нюансов, профессоров обходят в ими же написанных тестов, а потом количество r в слове raspberry посчитать не могут, но суть не в этом даже.
Я частенько вижу заявления о том, что модельки в логику не умеют, с примерами, часто на задачах с каким-нибудь смешным подколом. И вокруг них каждый раз много народу собирается, пальцем потыкать да поржать.
Да вот задним числом все умные, всем всё очевидно, а я вот некоторые их них записываю и потом на своём круге друзей и знакомых перепроверяю, НЕ начиная разговор с "смотри, задача с уловочкой". Сразу с порога берёшь и спрашиваешь что-нибудь очередное на внимательность, типа "Сегодня у меня пять бананов, я вчера купил три и два съел, сколько у меня бананов".
Потом репу чешу над результатами, не очень-то радостно выглядящими. Выборка моя статистически значимой, конечно, не считается, но что-то уверенности во мне нет, что это говорит что-нибудь именно о моём круге общения, и если я бОльшую выборку проверю, то сразу всё станет хорошо.