Добавить новость
123ru.net
Все новости
Май
2025

Гениальность и дислексия: почему ИИ не справляется с простыми задачами

0

Как и у миллионов людей, у меня есть дислексия. Вы, вероятно, никогда не узнаете об этом, если только не окажетесь на пассажирском сиденье моей машины. Тогда вы станете кричать: «Я сказал налево!», когда я странным образом поверну направо. И если вы спросите, почему я поворачиваю не туда, то все просто: я не могу запомнить, какая сторона правая, а какая левая. Для меня это невозможно.

Я знаю, что это кажется странным. В конце концов, я без проблем различаю другие вещи: верх от низа, черное от белого, вилки от ложек. И все же я не могу отличить лево от право. Мой мозг устроен иначе. Это верно для многих дислексиков, и я подозреваю, что мультимодальные большие языковые модели (MLLM) тоже могут быть дислексиками.

Прежде чем я расскажу о недавнем исследовании, которое заставило меня задуматься об этом вопросе, позвольте мне объяснить, что значит — иметь такую форму дислексии. Я попробую описать, что происходит внутри моего мозга. Я также объясню, почему дислексия, которая усложняет жизнь миллионам студентов по всему миру, может быть когнитивным даром, способствующим творчеству и инновациям.

Жизнь с дислексией

Когда я был ребенком с дислексией, мне было очень трудно учиться в школе. Это связано с тем, что многие основы, которые необходимо изучать, были созданы людьми, которые обрабатывают пространственную информацию иначе, чем я. Например, мы, люди, создали две строчные буквы в английском алфавите «b» и «d», которые отличаются только тем, что одна указывает налево, а другая — направо. В течение десятилетий я не мог их различить. Это очень распространенная проблема среди дислексиков.

Аналогично, многие правила математики используют алгебраические действия, которые зависят от направления «лево-право». То же самое верно и для определения времени по традиционным циферблатам часов: все становится понятным только для тех, кто знает разницу между «по часовой» и «против часовой». С календарями тоже сложно, потому что их пространственное расположение зависит от направленности слева направо. В результате выполнение математических действий и умение пользоваться часовыми циферблатами и календарями — обычные проблемы для многих детей с дислексией.

Эти трудности не заканчиваются в начальной школе. Я до сих пор помню, как на первом курсе Стэнфорда на уроке физики неправильно решил задачу. В физике существует простая схема, называемая «правилом правой руки», для определения направления векторов. К сожалению, когда я сдавал тест, я использовал левую руку. Это дислексия. Она не имеет никакого отношения к концентрации внимания или интеллекту. Мозг просто работает иначе, чем у людей, создавших культурные традиции, которые мы используем в символических языках, математике и многих отраслях науки.

Чем же отличается мозг дислексика? Я могу говорить только за себя, но, потратив годы на размышления о странном сочетании сильных и слабых сторон, обусловленных тем, как я обрабатываю пространственную информацию, я кажется понял, в чем дело. Все это связано с «глазами разума». Под этим я подразумеваю то, как я визуализирую вещи в сознании и храню пространственные элементы в памяти.

Большинство людей смотрят на мир мысленным взором так же, как физическими глазами, то есть, от первого лица, если только они не прилагают целенаправленных усилий, чтобы отклониться от этой перспективы. В этом есть смысл, потому что именно так мозг воспринимает визуальный контент (то есть с позиции первого лица). Но когда я мысленно представляю себе какие-то вещи (предметы, обстановку, изображения или текст), я не визуализирую их с фиксированной перспективы от первого лица. Я думаю о них со всех сторон сразу, скорее как о расплывчатом облаке перспектив, чем как о единой, четкой позиции.

Проблема в том, что если мозг запоминает символ «b» со всех точек зрения сразу, он становится идентичным символу «d». Дело не в том, что я путаю эти две буквы. Это один и тот же символ, разница лишь в том, представляете ли вы его спереди или сзади. То же самое можно сказать и о циферблатах часов. Как можно запомнить разницу между ходом по часовой и против часовой стрелки, если одновременно представлять объект с разных сторон?

Это возвращает меня к мультимодальным большим языковым моделям, которые обрабатывают и интерпретируют изображения и видео. Эти модели поражают воображение. Они могут сравниться или превзойти человеческую производительность в бесчисленных задачах, например, диагностировать онкологию по визуальным слайдам лучше, чем человек. И все же недавнее исследование показало удивительный результат: все основные мультимодальные модели сегодня с трудом определяют время на аналоговых часах. Согласно результатам исследования, GPT-4o был способен правильно читать циферблаты часов только в 8% случаев. Claude-3-5-sonnet оказался хуже: 6%. Gemini 2.0 был лучшим, но все равно его результат — это скромные 20%.

Это удивительно низкие показатели, особенно если учесть, что эти модели искусственного интеллекта могут так хорошо работать в других задачах. Кроме того, в том же исследовании было обнаружено, что модели MLLM также испытывают трудности, когда их просят понять календари. Это удивительно похоже на дислексию у людей, причем не только в простых вещах, вызывающих проблемы (часы и календари). Обескураживает сочетание сильных и слабых сторон, которое позволяет человеку вроде меня получить степень доктора философии и успешно работать в качестве компьютерщика и инженера, но при этом провалить тест «поверните здесь налево».

Прежде чем двигаться дальше, я должен был проверить это на себе, а не полагаться на научную работу. Итак, я попросил двух популярных чат-ботов сказать мне, сколько секунд показывает красная стрелка на следующих часах:

Вот два ответа, которые я получил:

  • Вторая стрелка (тонкая красная стрелка) указывает немного дальше 2. Каждая цифра также означает 5 секунд для второй стрелки. Похоже, что она находится на первой маленькой отметке после 2, так что это будет 2*5+1= 11 секунд (Gemini Advanced).
  • Секундная стрелка (красная) указывает на 2-ю отметку после 2, что соответствует 12 секундам. (ChatGPT 4.0.)

Правильный ответ: чуть меньше 9 секунд, но оба чат-бота неверно указали это число (11 секунд для Gemini и 12 секунд для ChatGPT). Это удивительная ошибка, особенно если учесть, что обе модели правильно подошли к решению задачи, посмотрев на расстояние до «2» на циферблате.

Теперь я уверен, что модель «видит», на какую сторону «2» указывает секундная стрелка. Так почему же оба чат-бота допустили ошибку, которая, как оказалось, является той же самой, что и у меня в детстве? Ну, если вы путаете движение по часовой стрелке с движением против часовой стрелки, вы можете сказать, что это «немного дальше двойки», если вы представляете, что стрелка движется в неправильном направлении.

Сбивает с толку то, насколько хорошо модели справляются с другими визуальными задачами. В 2023 году я участвовал в исследовании пространственной оценки, в котором мы попросили 240 человек оценить количество шариков жевательной резинки в банке по фотографии. Средний человек ошибся на 55%. Мы также попросили ChatGPT 4, и он оказался значительно точнее, оценив количество шариков с ошибкой в 42%. Очевидно, что большие языковые модели могут превзойти человека в сложных визуально-пространственных задачах, и все же средний первоклассник, скорее всего, лучше умеет обращаться с часами.

Что это дает нам в отношении современных систем ИИ?

Для меня это говорит о том, что большие языковые модели хранят и обрабатывают пространственную информацию настолько иначе, чем люди, которые иногда испытывают трудности с культурными условностями, предполагающими, что зритель сохраняет определенную перспективу. Когда вы просите ИИ интерпретировать образец тканей и определить, является ли он злокачественным, точность не зависит от ориентации в пространстве. Но когда вы просите его определить время на циферблате часов, он должен осмыслить определенное направление, иначе система будет совершать ошибки.

У людей такие ошибки считают «неспособностью к обучению», и для миллионов дислексиков это создает ежедневные проблемы, особенно для детей. Тем не менее способность воспринимать мир с нетрадиционной точки зрения — это тоже когнитивный дар. Возможно, это одна из причин, почему люди, страдающие дислексией, часто обладают высоким творческим потенциалом и новаторскими способностями. Так, исследования показали, что дети с дислексией показывают значительно более высокие результаты в тестах на креативность, чем обычные люди. Кроме того, многие взрослые дислексики приписывают своему «изъяну» успех в различных областях.

Я уверен, что моя карьера сложилась благодаря дислексии. В колледже я увлекся изучением того, как люди обрабатывают пространственную информацию, и это вдохновило меня на получение докторской степени, посвященной улучшению человеческого восприятия путем добавления виртуального контента в реальный мир. Это привело меня в Группу сенсорной связи с людьми в Исследовательской лаборатории ВВС, где я разработал первую систему смешанной реальности, и с тех пор я работаю в области VR, AR и ИИ. Я слышал много подобных историй от дислексиков, которые используют свои уникальные возможности для инноваций в самых разных областях: от художников и кинематографистов до ученых, писателей и даже многих спортсменов.

Я полагаю, что по мере развития систем ИИ мы узнаем еще больше о преимуществах и препятствиях, связанных с радикально иным восприятием мира. В конце концов, мы не знаем, насколько умными в итоге станут системы ИИ, но мы точно знаем, что они учатся, думают, визуализируют и рассуждают не так, как наш мозг.

Сообщение Гениальность и дислексия: почему ИИ не справляется с простыми задачами появились сначала на Идеономика – Умные о главном.






Загрузка...


Губернаторы России

Спорт в России и мире

Загрузка...

Все новости спорта сегодня


Новости тенниса

Загрузка...


123ru.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.


Загрузка...

Загрузка...

Экология в России и мире




Путин в России и мире

Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.






Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...





Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net