OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего
15:12, мая 11, 2025 Согласно публикации The New York Times, случаи, когда искусственный интеллект выдает неверные данные, называемые галлюцинациями, происходят все чаще. Издание приводит пример: бот технической поддержки инструмента Cursor сообщил пользователям ложную информацию о запрете использования сервиса на нескольких устройствах.

Впоследствии руководство компании опровергло эти данные. Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок.

Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось.

Причины этого технологические компании пока объяснить не могут. Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%.

Представители компаний признают, что полностью исключить ошибки невозможно. Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям.

По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%.

В другом тесте, SimpleQA, частота ошибок достигла 79%. Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek.

Причиной роста числа ошибок специалисты называют особенности новых методов обучения, основанных на обучении с подкреплением, которые, хотя и улучшают способности в математике, снижают надежность работы с фактами.

Исторически технологические компании стремились улучшить качество ИИ за счет увеличения объемов обучающих данных из интернета. Однако исчерпание доступных источников заставило разработчиков искать новые подходы, что, как отмечают исследователи, привело к усложнению контроля за поведением систем.

Источник: astera.ru
 
 

Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Названы имена, в которых чаще всего ошибаются в загранпаспортах

Названы имена, в которых чаще всего ошибаются в загранпаспортах В мае и июне участились случаи изъятия заграничных паспортов при выезде из РФ. Об этом заявил вице-президент Российского союза туриндустрии (РСТ) Дми …

Основные новости 21:25, июня 12, 2024 | life.ru
Тесты на беременность редко ошибаются. Но иногда две полоски указывают вовсе не то, что у вас будет ребенок, а на проблемы со здоровьем. И выявить бо

Тесты на беременность редко ошибаются. Но иногда две полоски указывают вовсе не то, что у вас будет ребенок, а на проблемы со здоровьем. И выявить болезнь так могут не только женщины. Что-что? Что случилось? Ничего особенного. Мы решили рассказать, что может означать положительный результат домашнего теста на беременность. Дело в том, что о …

Основные новости 20:12, ноября 2, 2025 | meduza.io
Шанхайская биржа провела стресс-тесты

Шанхайская биржа провела стресс-тесты Шанхайская фондовая биржа провела в выходные стресс-тесты, чтобы подготовиться к потенциально нестабильной сессии в понедельник, после того, как проб …

Финансы, Экономика, Forex 10:12, сентября 30, 2024 | finam.ru
В январе 2025 года РУСАДА чаще всего проводила допинг-тесты для игроков Зенита

В январе 2025 года РУСАДА чаще всего проводила допинг-тесты для игроков «Зенита» Российское антидопинговое агентство (РУСАДА) в январе 2025 года чаще других проводило тестирование футболистов «Зенита», сообщает ТАСС. …

Футбол 15:12, марта 1, 2025 | sport-express.ru
Лазерная связь обеспечит интернет по всей стране: первые тесты российской системы межспутниковой связи  10 Гбит/с в открытом космосе

«Лазерная связь обеспечит интернет по всей стране»: первые тесты российской системы межспутниковой связи – 10 Гбит/с в открытом космосе 30 мая 2024 года российская компания «Бюро 1440» успешно завершила первую серию тестов лазерной межспутниковой связи собственной разработ …

Технологии, Наука 13:00, июня 3, 2024 | ixbt.com
Инструмент от OpenAI чаще других ИИ галлюцинирует. Например, выдумывал свои методы лечения

Инструмент от OpenAI чаще других ИИ галлюцинирует. Например, выдумывал свои методы лечения Согласно отчету Associated Press, инженеры-программисты, разработчики и ученые-исследователи испытывают серьезные опасения по поводу транскрипций Whi …

Это интересно, Курьезы 00:12, октября 30, 2024 | incrussia.ru
Армия США успешно провела первые огневые испытания беспилотной ракетной системы HIMARS, которая сможет применять баллистические ракеты PrSM дальность

Армия США успешно провела первые огневые испытания беспилотной ракетной системы HIMARS, которая сможет применять баллистические ракеты PrSM дальностью до 500 км В США прошли первые огневые испытания беспилотной ракетной системы HIMARS. Автономная версия ракетной установки называется AML (Autonomous Multi-doma …

Гаджеты 00:05, мая 9, 2024 | gagadget.com
Нижегородцы чаще остальных жителей России приобретают системы безопасности

Нижегородцы чаще остальных жителей России приобретают системы безопасности МТС зафиксировала в собственной розничной сети пиковый интерес к камерам видеонаблюдения и к датчикам движения.... …

Интернет, Игры 03:55, июня 7, 2024 | cnews.ru
OpenAI готовится выпустить новые модели ChatGPT

OpenAI готовится выпустить новые модели ChatGPT Microsoft готовится к выпуску новых моделей ChatGPT от OpenAI, сообщает Block Beats.Ожидается, что GPT-4.5 будет запущена уже на следующей неделе, а …

Финансы, Экономика, Forex 15:12, февраля 21, 2025 | finam.ru
OpenAI дает ChatGPT новые возможности видеть и слышать

OpenAI дает ChatGPT новые возможности видеть и слышать OpenAI в понедельник выпустила более производительную и еще более человекоподобную версию технологии искусственного интеллекта, которая лежит в основ …

Software 14:25, мая 14, 2024 | android-robot.com
OpenAI представила новые open-source модели GPT-oss и анонсировала GPT-5

OpenAI представила новые open-source модели GPT-oss и анонсировала GPT-5 OpenAI впервые с 2019 года выпустила открытые модели под названием gpt-oss-120b и gpt-oss-20b. Эти модели распространяются под лицензией Apache 2.0, …

Технологии, Наука 00:12, августа 10, 2025 | astera.ru
OpenAI Spring Update Event: GPT-4o для диалога в реальном времени, GPT-4 для всех и новые приложения

OpenAI Spring Update Event: GPT-4o для диалога в реальном времени, GPT-4 для всех и новые приложения На своем мероприятии Spring Update Event, которое транслировалось на YouTube, OpenAI анонсировала ряд новых функций. Однако не было объявлено ни сотр …

Технологии, Наука 20:40, мая 14, 2024 | hardwareluxx.ru
Сибирские селлеры всё чаще используют новые возможности от Сбера

Сибирские селлеры всё чаще используют новые возможности от Сбера Аналитики Сбера отмечают рост популярности пакета услуг для малого бизнеса среди предпринимателей, которые продают товары на маркетплейсах. …

Основные новости 17:20, мая 28, 2024 | om1.ru
Apple и OpenAI готовят большое объявление на WWDC: Развитие AI на iPhone и новые возможности для пользователей

Apple и OpenAI готовят большое объявление на WWDC: Развитие AI на iPhone и новые возможности для пользователей 10 июня на Всемирной конференции разработчиков Apple (WWDC) ожидается большое объявление от Apple и OpenAI. По информации Bloomberg, это заявление бу …

Гаджеты 09:50, мая 20, 2024 | gagadget.com
Apple представила новые операционные системы

Apple представила новые операционные системы На сегодняшней презентации WWDC 2024 компания Apple представила новые операционные системы vision OS 2, iOS 18, новые жесты для AirPods, watchOS 11, …

Технологии, Наука 00:10, июня 11, 2024 | i-ekb.ru
Московские пары все чаще выбирают для свадьбы Новые адреса счастья  Собянин

Московские пары все чаще выбирают для свадьбы «Новые адреса счастья» — Собянин Свадебные церемонии проходили в кабинах канатной дороги, в движущемся поезде Большой кольцевой линии, на футбольном матче, а также во время представл …

Основные новости 18:25, мая 19, 2024 | mos.ru
Для ВМФ создают новые корабельные системы противодействия БПЛА

Для ВМФ создают новые корабельные системы противодействия БПЛА Новые корабельные средства обнаружения и подавления беспилотных летательных аппаратов разрабатывают и испытывают в интересах ВМФ России. Об этом сооб …

Военное дело 11:55, июня 4, 2024 | военное.рф
Bloomberg раскрыл новые возможности операционной системы iOS 18

Bloomberg раскрыл новые возможности операционной системы iOS 18 По информации Марка Гурмана из Bloomberg, на конференции WWDC 2024, которая состоится через две недели, Apple представит iOS 18 с новыми функциями ис …

Технологии, Наука 22:25, мая 26, 2024 | astera.ru
Новые системы видеонаблюдения получили орловские суды

Новые системы видеонаблюдения получили орловские суды На днях очередная такая система была смонтирована в Орловском районном суде. Фото: ИА “Орелград” В течение 2024 года новые комплекты сист …

Основные новости 10:12, ноября 28, 2024 | orelgrad.ru
Новые беспилотные системы разработал резидент ТОР Патриотическая в ЕАО

Новые беспилотные системы разработал резидент ТОР «Патриотическая» в ЕАО Резидент ТОР «Патриотическая», компания «Русбирсофт», поставляющая в зону специальной военной операции кровоостанавливающие турникеты, начала разрабо …

Основные новости 20:12, мая 14, 2025 | riabir.ru
Почему конференции прежнего формата больше не воодушевляют

Почему конференции прежнего формата больше не воодушевляют Большинство организаторов мероприятий до сих пор не осознают, что создание крутых мероприятий требует нового подхода, в фокусе которого лежит создани …

Технологии, Наука 10:12, мая 24, 2025 | ict-online.ru
SilverStone NovaPeak 240 и 360 ARGB  новые системы водяного охлаждения

SilverStone NovaPeak 240 и 360 ARGB – новые системы водяного охлаждения SilverStone представила NovaPeak 360 и 240 ARGB – новые системы водяного охлаждения с замкнутым контуром, которые выделяются привлекательными эффекта …

Технологии, Наука 10:12, августа 23, 2024 | hardwareluxx.ru
Новые системы водяного охлаждения ASUS в сериях ProArt LC и Prime LC

Новые системы водяного охлаждения ASUS в сериях ProArt LC и Prime LC Компания ASUS также использовала выставку Computex, чтобы обновить линейку систем водяного охлаждения. Анонсирована новая модель ProArt LC для рабочи …

Технологии, Наука 14:20, июня 6, 2024 | hardwareluxx.ru
Новые версии сервисного менеджера s6-rc и системы инициализации s6-linux-init

Новые версии сервисного менеджера s6-rc и системы инициализации s6-linux-init Представлен выпуск сервисного менеджера s6-rc 0.5.6.0, предназначенного для управления запуском скриптов инициализации и сервисов. Поддерживается отс …

Интернет, Игры 05:12, мая 7, 2025 | opennet.ru
Стены домов в центре Тюмени должны быть чище прежнего

Стены домов в центре Тюмени должны быть чище прежнего Сегодня руководитель управы Центрального административного округа Тюмени Артем Павлюченко встретился с собственниками объектов недвижимости, располож …

Основные новости 15:12, июля 24, 2024 | tyumen-city.ru
Мигранты стали почему-то сдавать русский язык в 10 раз хуже прежнего

Мигранты стали "почему-то" сдавать русский язык в 10 раз хуже прежнего По данным Минобрнауки, с января по май процент мигрантов, не сдавших экзамен по русскому языку, увеличился с 3% до 30%. Об этом сообщает РИА Новости. …

Общество, регионы 20:12, июля 4, 2024 | pravda.ru
В Госдуме рассказали, через сколько лет НДС может вернуться до прежнего уровня

В Госдуме рассказали, через сколько лет НДС может вернуться до прежнего уровня Налог на добавленную стоимость (НДС) может быть снижен до прежнего уровня в 20% через три года. Такое мнение высказал председатель комитета Госдумы п …

Бизнес 00:12, декабря 9, 2025 | gazeta.ru
Более 200 Эфлопс для ИИ: NVIDIA представила новые НРС-системы на суперчипах Grace Hopper

Более 200 Эфлопс для ИИ: NVIDIA представила новые НРС-системы на суперчипах Grace Hopper Компания NVIDIA рассказала о новых высокопроизводительных комплексах на основе суперчипов Grace Hopper для задач ИИ и НРС. Отмечается, что суммарная …

Hardware 17:40, мая 13, 2024 | 3dnews.ru
Новые люди предложили учесть инвестиции в соцпроекты при изменении налоговой системы

"Новые люди" предложили учесть инвестиции в соцпроекты при изменении налоговой системы Для ответственного бизнеса налоги стоит установить с учетом отраслевых особенностей, заявил замруководителя фракции, глава думского комитета по малом …

Экономика 15:10, мая 23, 2024 | tass.ru
Переводы под угрозой: Запад готовит новые санкции против банковской системы РФ

Переводы под угрозой: Запад готовит новые санкции против банковской системы РФ Страны G7 и Евросоюз разрабатывают новый пакет антироссийских санкций, в который планируют включить в том числе ограничения против российских банков, …

Финансы, Экономика, Forex 22:15, июня 1, 2024 | banki.ru
Почему синоптики ошибаются в своих прогнозах

Почему синоптики ошибаются в своих прогнозах? Перед выходом из дому нам бы хотелось понимать, что ждет нас в течение ближайших нескольких часов. Не меньший интерес представляет информация о погод …

Технологии, Наука 16:10, мая 27, 2024 | api.follow.it
Украинская пресса: Россия могла установить на БПЛА новые системы управления и разведки

Украинская пресса: Россия могла установить на БПЛА новые системы управления и разведки На Украине ищут причины того, что им удается сбивать все меньше российских беспилотников, атакующих страну …

Военное дело 20:12, апреля 23, 2025 | topwar.ru