ИИ проваливает языковой тест, исключая грамматику из уравнения

ИИ проваливает языковой тест, исключая грамматику из уравнения
10:12, марта 3, 2025 Генеративные системы искусственного интеллекта, такие как большие языковые модели и генераторы текста в изображения, могут сдавать строгие экзамены, которые требуются от любого, кто хочет стать врачом или юристом . Они могут показать лучшие результаты, чем большинство людей на математических олимпиадах .

Они могут писать более-менее приличные стихи , создавать эстетически приятные картины и сочинять оригинальную музыку. Эти замечательные возможности могут создать впечатление, что генеративные системы искусственного интеллекта готовы взять на себя работу людей и оказать значительное влияние практически на все аспекты общества.

Однако, хотя качество их продукции иногда соперничает с работой, проделанной людьми, они также склонны уверенно штамповать фактически неверную информацию.

Скептики также подвергают сомнению их способность рассуждать . Большие языковые модели были созданы для имитации человеческого языка и мышления, но они далеки от человека.

С младенчества люди учатся через бесчисленные сенсорные впечатления и взаимодействия с окружающим миром. Большие языковые модели не учатся так, как люди, — вместо этого они обучаются на огромных массивах данных, большая часть которых взята из интернета.

Возможности этих моделей весьма впечатляют, и существуют агенты ИИ, которые могут посещать встречи вместо вас, ходить за вас по магазинам или обрабатывать страховые иски .

Но прежде чем передавать ключи большой языковой модели для решения любой важной задачи, важно оценить, как их понимание мира соотносится с пониманием мира людей. Я исследователь, изучающий язык и значение. Моя исследовательская группа разработала новый критерий , который может помочь людям понять ограничения больших языковых моделей в понимании значения.

Понимание смысла простых словосочетаний Так что же «имеет смысл» для больших языковых моделей? Наш тест включает оценку осмысленности двухсловных фраз существительное-существительное.

Для большинства людей, которые бегло говорят по-английски, пары слов существительное-существительное, такие как «beach ball» и «apple cake», имеют смысл, но «ball beach» и «cake apple» не имеют общепонятного значения.

Причины этого не имеют ничего общего с грамматикой. Это фразы, которые люди выучили и обычно принимают как осмысленные, разговаривая и взаимодействуя друг с другом с течением времени.

Мы хотели проверить, имеет ли большая языковая модель такое же чувство смысла словосочетаний, поэтому мы создали тест, который измерял эту способность, используя пары существительное-существительное, для которых правила грамматики были бы бесполезны в определении того, имеет ли фраза узнаваемое значение.

Например, пара прилагательное-существительное, такая как «красный мяч», имеет смысл, в то время как ее перестановка, «мяч красный», делает словосочетание бессмысленным.

Тест не спрашивает у большой языковой модели, что означают слова. Вместо этого он проверяет способность большой языковой модели извлекать значение из пар слов, не полагаясь на опору простой грамм.

Источник: android-robot.com
 
 

Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Google облегчила жизнь учащимся: визуальный поиск Circle to Search научился решать уравнения

Google облегчила жизнь учащимся: визуальный поиск Circle to Search научился решать уравнения Ранее в этом году Google представила функцию визуального поиска Circle to Search («Обведение для поиска»), которая позволит пользователям …

Software 01:50, мая 15, 2024 | 3dnews.ru
Google экспериментирует со встраиванием в Chrome большой языковой модели

Google экспериментирует со встраиванием в Chrome большой языковой модели Компания Google объявила о проведении эксперимента по встраиванию в Chrome большой языковой модели машинного обучения. Для доступа к модели из web-пр …

Интернет, Игры 20:12, августа 12, 2024 | opennet.ru
Языковой геноцид: пять лет назад на Украине запретили русский язык

Языковой геноцид: пять лет назад на Украине запретили русский язык Курс на вытеснение русского языка украинские власти взяли уже давно, когда лишали его даже регионального статуса. …

Основные новости 11:15, мая 15, 2024 | ren.tv
Путин призвал разработать проект основ языковой политики России

Путин призвал разработать проект основ языковой политики России Российский президент Владимир Путин поручил к 1 июня разработать проект основ государственной языковой политики страны. Об этом сообщается на сайте К …

Политика 15:12, января 2, 2025 | news.rambler.ru
Alibaba выпускает новую версию своей большой языковой модели

Alibaba выпускает новую версию своей большой языковой модели Alibaba Cloud заявила в четверг, что выпустила последнюю версию своей большой языковой модели, передает CNBC.Цзинжэнь Чжоу, технический директор Alib …

Финансы, Экономика, Forex 20:05, мая 9, 2024 | finam.ru
Путин утвердил основы новой государственной языковой политики России

Путин утвердил основы новой государственной языковой политики России Президент России Владимир Путин своим указом утвердил основы государственной языковой политики, предусматривающие укрепление статуса русского языка и …

Основные новости 20:12, июля 11, 2025 | vz.ru
Microsoft запустила разработку собственной большой языковой модели ИИ  это добавит независимости от OpenAI

Microsoft запустила разработку собственной большой языковой модели ИИ — это добавит независимости от OpenAI Вложившая в капитал стартапа OpenAI более $10 млрд американская корпорация Microsoft, по данным The Information, занялась разработкой собственной бол …

Software 12:35, мая 7, 2024 | 3dnews.ru
Языковой демарш Зеленского: Украинский лидер отказался говорить по-английски после напряженного визита в США

Языковой демарш Зеленского: Украинский лидер отказался говорить по-английски после напряженного визита в США Украинский лидер Владимир Зеленский изменил свою коммуникационную стратегию, отказавшись от использования английского языка в общении с журналистами …

Политика 10:12, марта 7, 2025 | pravda.ru
Самый популярный в мире языковой сервис не заблокируют в России: Duolingo выполнил требования Роскомнадзора

Самый популярный в мире языковой сервис не заблокируют в России: Duolingo выполнил требования Роскомнадзора Языковой сервис Duolingo выполнил требования Роскомнадзора, удалив контент, связанный с пропагандой ЛГБТ (*признано экстремистским движением и запрещ …

Технологии, Наука 13:10, июня 5, 2024 | ixbt.com
Тест: рекламная ловушка

Тест: рекламная ловушка Наконец все дела позади, и можно расслабиться перед телевизором после долгой рабочей недели. Между передачами мелькают рекламные ролики — скидки, кре …

Закон и Право 00:12, декабря 24, 2024 | pravo.ru
ТЕСТ: Кто вы из героев Пушкина

ТЕСТ: Кто вы из героев Пушкина? 6 июня — день рождения Александра Пушкина. По такому поводу предлагаем вспомнить ярких действующих лиц его стихов, повестей и романов. Выберите любим …

Это интересно, Курьезы 18:35, июня 6, 2024 | lifehacker.ru
Окружающий мир: тест RT по природоведению

Окружающий мир: тест RT по природоведению Помните школьные уроки природоведения? Именно они помогали начать ориентироваться в окружающем мире и получить первые естественно-научные знания. Нес …

Основные новости 15:55, мая 29, 2024 | russian.rt.com
Принципиальный суд: тест по позициям ВС

Принципиальный суд: тест по позициям ВС Когда норм для защиты нарушенных прав недостаточно, в ход идут принципы. Они помогают суду разрешить дело с учетом основных идей правопорядка и «духа …

Закон и Право 05:12, января 12, 2025 | pravo.ru
Тест: День арбитражного управляющего

Тест: День арбитражного управляющего 17 июля в России отмечают День арбитражного управляющего — специалиста, который объединяет юриспруденцию, экономику и стрессоустойчивость. Он играет …

Закон и Право 05:12, июля 18, 2025 | pravo.ru
В США прошел тест вооруженных робопсов

В США прошел тест вооруженных робопсов В Соединенных Штатах состоялись испытания новой версии роботизированных собак от компании Ghost Robotics. Улучшенная модель Quadruped Unmanned Ground …

Технологии, Наука 12:45, мая 10, 2024 | ferra.ru
Тест и обзор: радиатор Arctic M2 Pro для SSD

Тест и обзор: радиатор Arctic M2 Pro для SSD В последние годы, с распространением PCIe 5.0, NVMe-накопители стали выделять немало тепла. И без хорошего радиатора уже не обойтись. На рынке можно …

Технологии, Наука 20:12, октября 22, 2024 | hardwareluxx.ru
Ученые улучшили тест на деменцию

Ученые улучшили тест на деменцию Простой пятиминутный тест 5-COG эффективно выявляет нарушения мышления и памяти у пожилых людей. Это показала работа, опубликованная в журнале Nature …

Наука 23:55, июня 9, 2024 | gazeta.ru
GPT-4 впервые прошел тест Тьюринга

GPT-4 впервые прошел тест Тьюринга GPT-4 впервые прошел тест Тьюринга, большинство участников исследования приняли нейросеть за человека, пишет Live Science.Тест, впервые предложенный …

Финансы, Экономика, Forex 00:12, июня 18, 2024 | finam.ru
Невыполнимый ТЕСТ по советским фильмам

Невыполнимый ТЕСТ по советским фильмам ВОПРОСЫ 1. По мотивам какого литературного произведения Эльдар Рязанов снял фильм "Жестокий романс"? А. "Бесприданница" Б. "Три сестры" В. "Евгений О …

Основные новости 00:12, декабря 27, 2024 | dni.ru
Тест на верность: чем кончился сериал

«Тест на верность»: чем кончился сериал Премьера российской 4-серийной мелодраматической картины «Тест на верность» состоялась 6 марта 2023 года на телеканале «Домашний». …

Основные новости 20:12, июля 13, 2024 | 24smi.org
Тест: квиз по интеллектуальному праву

Тест: квиз по интеллектуальному праву Вы так спешили расправиться со своими предпраздничными делами, что едва не забыли о корпоративе. Ваши коллеги договорились провести время на тематиче …

Закон и Право 00:12, декабря 24, 2024 | pravo.ru
Тест: елочный бизнес на пороге банкротства

Тест: елочный бизнес на пороге банкротства Вы давно не виделись с другом Василием и решили встретиться в кафе. От общих знакомых вы услышали, что его некогда успешный бизнес по продаже елок со …

Закон и Право 00:12, декабря 24, 2024 | pravo.ru
Тест: Узнайте, насколько вы мистическая личность

Тест: Узнайте, насколько вы мистическая личность 21 ноября на большие экраны выходит мистический фильм «Таро». Герои фильма получают карты Таро, после чего их жизни меняются кардинальным образом. Уж …

Шоу-бизнес 05:12, ноября 19, 2024 | woman.ru
Тест: с какого дерева опали эти листья

Тест: с какого дерева опали эти листья? Природа в это время года радует нас яркими красками, и каждый листок словно рассказывает свою историю. Предлагаем вам немного пофантазировать и разоб …

Основные новости 10:12, октября 26, 2024 | dni.ru
Тест: Хорошо ли вы знаете морских обитателей

Тест: Хорошо ли вы знаете морских обитателей? С 14 декабря в «Москвариуме» проходит новогоднее шоу «Кощей». На большой водной сцене зрители могут увидеть Кощея, Бабу Ягу, Снегурочку и Деда Мороза …

Основные новости 10:12, декабря 30, 2024 | aif.ru
Тест: налоговая проверка на пиротехническом заводе

Тест: налоговая проверка на пиротехническом заводе Ваш дядя Владимир Степанов — владелец небольшого завода «Великолепный бум», который производит фейерверки. Вы договорились увидеться перед праздникам …

Закон и Право 00:12, декабря 24, 2024 | pravo.ru
Honor Magic6 Pro: тест аккумулятора и зарядки

Honor Magic6 Pro: тест аккумулятора и зарядки Honor много говорит об особой кремний-углеродной батарее смартфона Honor Magic6 Pro, которая не боится мороза. Мы проверили это, а заодно измерили и …

Технологии, Наука 01:10, мая 27, 2024 | ixbt.com
Увлекательный тест на знание советских телепередач

Увлекательный тест на знание советских телепередач В первые годы существования советского телевидения программы выходили в эфир всего несколько часов в день. В основном это были новости, документальны …

Основные новости 15:25, июня 12, 2024 | dni.ru
Разговоры о важном: тест-драйв Subaru WRX

Разговоры о важном: тест-драйв Subaru WRX Этот текст должен был начинаться совсем иначе — но тут Ютуб подкинул мне запись концерта Linkin Park на Васильевском спуске летом 2011 года. Слышите, …

Авто 11:50, мая 11, 2024 | motor.ru
ChatGPT проходит знаменитый тест Тьюринга

ChatGPT проходит знаменитый «тест Тьюринга» ChatGPT проходит знаменитый «тест Тьюринга», предполагающий, что ИИ-бот имеет интеллект, эквивалентный человеческому, утверждают ученые Ученые утверж …

Технологии, Наука 10:12, июня 25, 2024 | android-robot.com
ТЕСТ по советской кухне: вспомните ли вы эти блюда

ТЕСТ по советской кухне: вспомните ли вы эти блюда ВОПРОСЫ 1. Почему одесская колбаса так называлась? А. Потому что найти ее можно было только в Одессе Б. Потому что ее рецепт был разработан в Одессе …

Основные новости 10:12, октября 12, 2024 | dni.ru
Тест и обзор: Geekom AE8  мини-ПК на AMD Ryzen

Тест и обзор: Geekom AE8 — мини-ПК на AMD Ryzen Geekom AE8 оснащен процессором Ryzen и за счет чуть более крупного корпуса обещает эффективное и при этом тихое охлаждение. Насколько эта концепция о …

Технологии, Наука 20:12, января 13, 2026 | hardwareluxx.ru