OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего
Впоследствии руководство компании опровергло эти данные. Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок.
Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось.
Причины этого технологические компании пока объяснить не могут. Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%.
Представители компаний признают, что полностью исключить ошибки невозможно. Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям.
По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%.
В другом тесте, SimpleQA, частота ошибок достигла 79%. Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek.
Причиной роста числа ошибок специалисты называют особенности новых методов обучения, основанных на обучении с подкреплением, которые, хотя и улучшают способности в математике, снижают надежность работы с фактами.
Исторически технологические компании стремились улучшить качество ИИ за счет увеличения объемов обучающих данных из интернета. Однако исчерпание доступных источников заставило разработчиков искать новые подходы, что, как отмечают исследователи, привело к усложнению контроля за поведением систем.
Названы имена, в которых чаще всего ошибаются в загранпаспортах В мае и июне участились случаи изъятия заграничных паспортов при выезде из РФ. Об этом заявил вице-президент Российского союза туриндустрии (РСТ) Дми …
Основные новости 21:25, июня 12, 2024 | life.ruТесты на беременность редко ошибаются. Но иногда две полоски указывают вовсе не то, что у вас будет ребенок, а на проблемы со здоровьем. И выявить болезнь так могут не только женщины. Что-что? Что случилось? Ничего особенного. Мы решили рассказать, что может означать положительный результат домашнего теста на беременность. Дело в том, что о …
Основные новости 20:12, ноября 2, 2025 | meduza.io
Шанхайская биржа провела стресс-тесты Шанхайская фондовая биржа провела в выходные стресс-тесты, чтобы подготовиться к потенциально нестабильной сессии в понедельник, после того, как проб …
Финансы, Экономика, Forex 10:12, сентября 30, 2024 | finam.ru
В январе 2025 года РУСАДА чаще всего проводила допинг-тесты для игроков «Зенита» Российское антидопинговое агентство (РУСАДА) в январе 2025 года чаще других проводило тестирование футболистов «Зенита», сообщает ТАСС. …
Футбол 15:12, марта 1, 2025 | sport-express.ru«Лазерная связь обеспечит интернет по всей стране»: первые тесты российской системы межспутниковой связи – 10 Гбит/с в открытом космосе 30 мая 2024 года российская компания «Бюро 1440» успешно завершила первую серию тестов лазерной межспутниковой связи собственной разработ …
Технологии, Наука 13:00, июня 3, 2024 | ixbt.comИнструмент от OpenAI чаще других ИИ галлюцинирует. Например, выдумывал свои методы лечения Согласно отчету Associated Press, инженеры-программисты, разработчики и ученые-исследователи испытывают серьезные опасения по поводу транскрипций Whi …
Это интересно, Курьезы 00:12, октября 30, 2024 | incrussia.ruАрмия США успешно провела первые огневые испытания беспилотной ракетной системы HIMARS, которая сможет применять баллистические ракеты PrSM дальностью до 500 км В США прошли первые огневые испытания беспилотной ракетной системы HIMARS. Автономная версия ракетной установки называется AML (Autonomous Multi-doma …
Гаджеты 00:05, мая 9, 2024 | gagadget.com
Нижегородцы чаще остальных жителей России приобретают системы безопасности МТС зафиксировала в собственной розничной сети пиковый интерес к камерам видеонаблюдения и к датчикам движения.... …
Интернет, Игры 03:55, июня 7, 2024 | cnews.ru
OpenAI готовится выпустить новые модели ChatGPT Microsoft готовится к выпуску новых моделей ChatGPT от OpenAI, сообщает Block Beats.Ожидается, что GPT-4.5 будет запущена уже на следующей неделе, а …
Финансы, Экономика, Forex 15:12, февраля 21, 2025 | finam.ru
OpenAI дает ChatGPT новые возможности видеть и слышать OpenAI в понедельник выпустила более производительную и еще более человекоподобную версию технологии искусственного интеллекта, которая лежит в основ …
Software 14:25, мая 14, 2024 | android-robot.com
OpenAI представила новые open-source модели GPT-oss и анонсировала GPT-5 OpenAI впервые с 2019 года выпустила открытые модели под названием gpt-oss-120b и gpt-oss-20b. Эти модели распространяются под лицензией Apache 2.0, …
Технологии, Наука 00:12, августа 10, 2025 | astera.ru
OpenAI Spring Update Event: GPT-4o для диалога в реальном времени, GPT-4 для всех и новые приложения На своем мероприятии Spring Update Event, которое транслировалось на YouTube, OpenAI анонсировала ряд новых функций. Однако не было объявлено ни сотр …
Технологии, Наука 20:40, мая 14, 2024 | hardwareluxx.ru
Сибирские селлеры всё чаще используют новые возможности от Сбера Аналитики Сбера отмечают рост популярности пакета услуг для малого бизнеса среди предпринимателей, которые продают товары на маркетплейсах. …
Основные новости 17:20, мая 28, 2024 | om1.ru
Apple и OpenAI готовят большое объявление на WWDC: Развитие AI на iPhone и новые возможности для пользователей 10 июня на Всемирной конференции разработчиков Apple (WWDC) ожидается большое объявление от Apple и OpenAI. По информации Bloomberg, это заявление бу …
Гаджеты 09:50, мая 20, 2024 | gagadget.com
Apple представила новые операционные системы На сегодняшней презентации WWDC 2024 компания Apple представила новые операционные системы vision OS 2, iOS 18, новые жесты для AirPods, watchOS 11, …
Технологии, Наука 00:10, июня 11, 2024 | i-ekb.ru
Московские пары все чаще выбирают для свадьбы «Новые адреса счастья» — Собянин Свадебные церемонии проходили в кабинах канатной дороги, в движущемся поезде Большой кольцевой линии, на футбольном матче, а также во время представл …
Основные новости 18:25, мая 19, 2024 | mos.ru
Для ВМФ создают новые корабельные системы противодействия БПЛА Новые корабельные средства обнаружения и подавления беспилотных летательных аппаратов разрабатывают и испытывают в интересах ВМФ России. Об этом сооб …
Военное дело 11:55, июня 4, 2024 | военное.рф
Bloomberg раскрыл новые возможности операционной системы iOS 18 По информации Марка Гурмана из Bloomberg, на конференции WWDC 2024, которая состоится через две недели, Apple представит iOS 18 с новыми функциями ис …
Технологии, Наука 22:25, мая 26, 2024 | astera.ru
Новые системы видеонаблюдения получили орловские суды На днях очередная такая система была смонтирована в Орловском районном суде. Фото: ИА “Орелград” В течение 2024 года новые комплекты сист …
Основные новости 10:12, ноября 28, 2024 | orelgrad.ru
Новые беспилотные системы разработал резидент ТОР «Патриотическая» в ЕАО Резидент ТОР «Патриотическая», компания «Русбирсофт», поставляющая в зону специальной военной операции кровоостанавливающие турникеты, начала разрабо …
Основные новости 20:12, мая 14, 2025 | riabir.ru
Почему конференции прежнего формата больше не воодушевляют Большинство организаторов мероприятий до сих пор не осознают, что создание крутых мероприятий требует нового подхода, в фокусе которого лежит создани …
Технологии, Наука 10:12, мая 24, 2025 | ict-online.ru
SilverStone NovaPeak 240 и 360 ARGB – новые системы водяного охлаждения SilverStone представила NovaPeak 360 и 240 ARGB – новые системы водяного охлаждения с замкнутым контуром, которые выделяются привлекательными эффекта …
Технологии, Наука 10:12, августа 23, 2024 | hardwareluxx.ru
Новые системы водяного охлаждения ASUS в сериях ProArt LC и Prime LC Компания ASUS также использовала выставку Computex, чтобы обновить линейку систем водяного охлаждения. Анонсирована новая модель ProArt LC для рабочи …
Технологии, Наука 14:20, июня 6, 2024 | hardwareluxx.ru
Новые версии сервисного менеджера s6-rc и системы инициализации s6-linux-init Представлен выпуск сервисного менеджера s6-rc 0.5.6.0, предназначенного для управления запуском скриптов инициализации и сервисов. Поддерживается отс …
Интернет, Игры 05:12, мая 7, 2025 | opennet.ru
Стены домов в центре Тюмени должны быть чище прежнего Сегодня руководитель управы Центрального административного округа Тюмени Артем Павлюченко встретился с собственниками объектов недвижимости, располож …
Основные новости 15:12, июля 24, 2024 | tyumen-city.ru
Мигранты стали "почему-то" сдавать русский язык в 10 раз хуже прежнего По данным Минобрнауки, с января по май процент мигрантов, не сдавших экзамен по русскому языку, увеличился с 3% до 30%. Об этом сообщает РИА Новости. …
Общество, регионы 20:12, июля 4, 2024 | pravda.ru
В Госдуме рассказали, через сколько лет НДС может вернуться до прежнего уровня Налог на добавленную стоимость (НДС) может быть снижен до прежнего уровня в 20% через три года. Такое мнение высказал председатель комитета Госдумы п …
Бизнес 00:12, декабря 9, 2025 | gazeta.ru
Более 200 Эфлопс для ИИ: NVIDIA представила новые НРС-системы на суперчипах Grace Hopper Компания NVIDIA рассказала о новых высокопроизводительных комплексах на основе суперчипов Grace Hopper для задач ИИ и НРС. Отмечается, что суммарная …
Hardware 17:40, мая 13, 2024 | 3dnews.ru
"Новые люди" предложили учесть инвестиции в соцпроекты при изменении налоговой системы Для ответственного бизнеса налоги стоит установить с учетом отраслевых особенностей, заявил замруководителя фракции, глава думского комитета по малом …
Экономика 15:10, мая 23, 2024 | tass.ru
Переводы под угрозой: Запад готовит новые санкции против банковской системы РФ Страны G7 и Евросоюз разрабатывают новый пакет антироссийских санкций, в который планируют включить в том числе ограничения против российских банков, …
Финансы, Экономика, Forex 22:15, июня 1, 2024 | banki.ru
Почему синоптики ошибаются в своих прогнозах? Перед выходом из дому нам бы хотелось понимать, что ждет нас в течение ближайших нескольких часов. Не меньший интерес представляет информация о погод …
Технологии, Наука 16:10, мая 27, 2024 | api.follow.it