Русских книжек не читал, советских фильмов не смотрел: учёные ЮФУ выяснили, почему искусственный интеллект не победит в «Что? Где? Когда?» среднего россиянина


В Южном федеральном университете придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример – заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный знаток.

В наше время параллельно развиваются самые разные технологии искусственного интеллекта, но в широком употреблении под ИИ люди почти всегда подразумевают именно большие языковые модели (LLM – Large Language Model), такие как DeepSeek или ChatGPT, из-за шумихи вокруг них.

Ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ Богдан Проценко и его коллеги, как и многие исследователи, на практике делают ставку не на языковые-модели гиганты, а на модели ИИ поменьше, обученные на заведомо более качественных данных, как в случае линейки моделей LLaMa3.

«Её разработчики получили существенный прирост качества моделей, главным образом «почистив данные» для обучения предыдущих версий, без радикальных изменений в архитектуре нейросети. Между сложностью архитектуры ИИ и качеством данных для его обучения всякий ML-инженер и аналитик данных почти всегда выберет последнее, потому что в мире не бесконечное количество качественного контента, и лучше, если нейросеть может научиться на миллионе умных текстов, чтобы не пришлось ей скармливать миллиард глупых» , — поделился Богдан Проценко.

Создатели ИИ часто исходят из позиции, что логическое мышление и способность рассуждать («ризонинг») нейросетей не страдает от того, на каком языке ИИ «подумает», главное, чтобы он умел грамотно формулировать ответ на языке пользователя. Доказать обратное нетрудно: можем спросить у большой языковой модели, например, на языке хинди, какие предметы и темы проходят десятиклассники по школьной программе. И он вам ответит на грамотном литературном хинди, но только расскажет так, как проходят в десятом классе в американских школах, а не в индийских.

«Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если её спросить на английском и попросить на нём же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации» , — объяснил Богдан Проценко.

Как же объективно оценить, какая модель ИИ действительно «умнее»? Для этого отлично подходят различного рода интеллектуальные игры: они являются весьма непростыми для LLM, и при этом за многие годы накоплен огромный и крайне качественный — отточенный поколениями игроков, а не сгенерированный ИИ — архив подобных вопросов, во многих из которых предостаточно и культурной, и тонкой языковой специфики языка.

«Мышление и языки близки. Как победы ИИ над человеком в шахматы и го были яркими ключевыми моментами развития ИИ в конце прошлого века, так «Что? Где? Когда?» и «Своя игра» — вызовы сегодняшнего дня. Способность успешно отвечать на вопросы, написанные умными телезрителями для ещё более умных знатоков, появляется только в самых больших и умных LLM , причем моделям с большим количеством русского языка в предтренировочной выборке обычно проще» , — подчеркнул Богдан Проценко.

В качестве примера учёные протестировали старшую модель из семейства LLaMa-3, демонстрирующую хорошее владение русским языком, но даже она ошиблась в вопросах, требующих знания специфических для русскоязычной культуры фактов. Например, вопросы о композиторе Владимире Шаинском, о Царь-пушке в Кремле, о спортивных объектах, построенных вокруг Москвы к Олимпиаде-80, тривиальные для русскоязычных людей, для LLM на 405 миллиардов параметров, владеющей десятками естественных языков и языков программирования, разбирающейся в куче вопросов, от квантовой механики до медицины, оказываются не под силу.

Необычный способ тестировать ИИ интеллектуальными играми прокомментировал научный журналист, популяризатор науки и лектор Алексей Паевский — участник «Своей игры» и автор вопросов для «Что? Где? Когда?».

«Решать вопросы «Своей игры» искусственному интеллекту определённо будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завёрнуты» так, что лишь единицы поймут о чём речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с лёгкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней», — поделился Алексей Паевский.

Четырёхкратный чемпион мира по «Что? Где? Когда?» Михаил Левандовский добавил, что главная сложность игры в её изменчивости. На заре «Что? Где? Когда?»  ключом к победе было умение распознавать «явления» — абстрактные образы и социальные закономерности. Это для современных ИИ-систем по-прежнему остаются серьёзным вызовом.

«Впрочем, тогда же возник и другой тип вопросов — перефразировки известных цитат, названий или сюжетов из ограниченного круга классических произведений. С ними, я уверен, искусственный интеллект справлялся бы мгновенно. Сейчас основной тренд — языковые игры: каламбуры, двойные смыслы, игра слов, сложные ментальные конструкции. Здесь ИИ демонстрирует результаты с переменным успехом. Пока что он порой ошибается, но скоро сможет соревноваться с человеком на равных» , — рассказал Михаил Левандовский.

Другой глобальный результат исследователей ЮФУ заключается в том, что они протестировали несколько методов генерации ответов, включая цепочку рассуждений и подход с «внутренним критиком», который оценивает предложенные гипотезы – такая своего рода имитация команды знатоков ЧГК и того, как «раскручивают» вопросы в спортивном ЧГК. Например, модель сначала должна предложить несколько вариантов, а затем самой себе объяснить, почему каждый из них неверен, а тот вариант, на который она сможет придумать меньше критики, она и предлагает как верный.

«Такие подходы, с критикой, показывают прирост точности по сравнению с методами без «критика». Однако избыточная критика иногда подавляет креативность модели — как и у людей, — и она вообще больше не может генерировать новые гипотезы», — поделился Богдан Проценко.

Это может означать что этап инструктирования LLM, (instruction tuning), когда модели учат быть «покорными» и отвечать по существу, можно делать с учетом этой специфики, тем самым делая модели ещё умнее в сценариях саморефлексии и самокритики.

«В терминологии «ЧГК» есть термин «щелчок». Ответ, который «щёлкает», не только подходит под условия вопроса и под все подсказки в вопросе, но и красиво ложится на общекультурный контекст. Это не элемент озарения, это способ проверить свой ответ, со всеми ли зацепками вопроса он бьётся, выдерживает ли он внутреннюю критику. Прекрасно, если можно настроить алгоритм ИИ по схожему принципу, при этом, конечно, не нужно обманываться, будто бы ИИ обладает умом, он обладает способностью подбирать решение к задачам, аналогичным той, на которой он тренировался», — прокомментировал Алексей Паевский.

По словам затока, когда автомобиль стал быстрее человека, лёгкая атлетика не исчезла как спорт — так и интеллектуальные игры не исчезнут, если ИИ однажды начнёт играть в них лучше человека. Смысл «Что? Где? Когда?» в демонстрации возможностей командной работы, того, насколько одни шесть человек могут проявить себя лучше, чем другие шесть человек в рамках специально придуманных для этого вопросов.

ИИ глобально уступает человеку не в умении отвечать на вопросы, у которых уже есть заведомо правильный ответ, а в способности к творчеству и созидательной деятельности, к таким результатам мышления, как озарение и открытие. Но пока большие языковые модели не обучатся на русских базах данных, они будут проигрывать нам даже в викторинах.

Текст: Алексей Романенко, ред: Ольга Молоткова, Юлия Сопрунова 

Ещё новости о событии:

Фото: ЮФУ В Южном федеральном университете придумали новый способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка.
16:45 20.06.2025 1RND.Ru - Ростов-на-Дону
В Южном федеральном университете придумали новый остроумный способ тестировать ИИ на способность работать в  реальных ситуациях использования русского языка.
14:44 20.06.2025 Big-Rostov.Ru - Ростов-на-Дону
Русских книжек не читал, советских фильмов не смотрел: учёные ЮФУ выяснили, почему искусственный интеллект не победит в «Что? Где? Когда?» среднего россиянина - ЮФУ
В Южном федеральном университете придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка.
14:39 20.06.2025 ЮФУ - Ростов-на-Дону

Новости соседних регионов по теме:

Хватит ли вам знаний, чтобы ответить на все вопросы? Готовы проверить свои интеллектуальные способности?
22:45 22.06.2025 KamchatkaMedia.Ru - Петропавловск-Камчатский
На ПМЭФ обсудили тему влияния искусственного интеллекта на развитие экономики Эксперт российского банка считает, что искусственный интеллект не заменит людей Фото: Архив "КП".
13:55 20.06.2025 Комсомольская правда - Ульяновск
   К Международному дню русского языка специалисты Детской библиотеки провели интеллектуальный турнир.
13:19 19.06.2025 Мордовская детская республиканская библиотека - Саранск
Нейросети - польза или вред? Как сделать искусственный интеллект другом для детей?
05:35 19.06.2025 Пуровская медиагруппа - Тарко-Сале
 
По теме
16 июля 2025 года студенческий отряд "След", сформированный Северо-Кавказской региональной дирекцией железнодорожных вокзалов, посетил университет в рамках организованного визита,
В июле 2025 года в Ростовском государственном университете путей сообщения состоялся важный и волнительный момент — первые четыре студента из Китайской Народной Республики успешно завершили обучение по сетевой образовате
Большая перемена - Газета Вперёд Батайских школьников станут обучать по-новому. С 1 сентября 2025 года в российских школах вступают в силу важные изменения.
Газета Вперёд
Фото к материалу: В Обливской завершается капремонт школы №2 - DonDay.Ru После открытия в образовательном учреждении заработает агрокласс и обновленный физкультурно-оздоровительный комплекс donday.ru Сетевое издание - новостной портал donday.ru ООО "Смарт Медиа" https://donday.ru dondayglavred@yandex.
DonDay.Ru
В Новочеркасске полицейских будут премировать на сумму взятки, от которой они отказались - Tuzlovgrad.Ru Руководство ГУ МВД России по Ростовской области разработало уникальный механизм материального стимулирования сотрудников полиции донского региона, демонстрирующих непримиримую позицию в отношении взяточничества.
Tuzlovgrad.Ru
1000164706 - Библиотека им. А.С. Пушкина МУНИЦИПАЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ КУЛЬТУРЫ МОРОЗОВСКОГО РАЙОНА «МЕЖПОСЕЛЕНЧЕСКАЯ ЦЕНТРАЛЬНАЯ БИБЛИОТЕКА» ИМ.
Библиотека им. А.С. Пушкина
Павел Федотов. Театр жизни - Библиотека им. В.А. Закруткина 9 июля в читальном зале библиотеки для членов Районного общества инвалидов прошел час отдыха «Театр жизни», посвященный замечательному русскому художнику Павлу Федотову (210 лет со дня рождения).
Библиотека им. В.А. Закруткина