Что представляет собой GPT 5: первые мнения международных экспертов


Новая модель GPT 5 представляет собой горизонт зрелости искусственного интеллекта. Это скорее качественная, а не количественная эволюция, которая консолидирует достигнутый прогресс и делает его более удобным в использовании. Более эффективным во всех отношениях. Таким образом, GPT 5 ещё больше смещает фокус на генеративный ИИ. Похоже, это первый консенсус среди международной специализированной прессы относительно появления GPT 5, которая, напомним, уже доступна в Италии, в том числе бесплатно на ChatGPT.
Кто знает, действительно ли это, как утверждает глава OpenAI Сэм Альтман, шаг вперёд к общему искусственному интеллекту. Скорее всего, эксперты видят в нём переход к «операционному интеллекту». Специализированная пресса впечатлена многочисленными практическими и измеримыми улучшениями. GPT 5 демонстрирует более надёжное понимание цепочек задач, способность выполнять операции, ранее требовавшие большей координации со стороны человека, и высочайшую производительность программирования, как отмечает американское издание Tom's Guide.
Интерфейс
Многие впечатлены простотой интерфейса Chatgpt, который больше не запрашивает модель и автоматически выбирает, следует ли проводить рассуждения. Этот прогресс демонстрирует рост возможностей автономного принятия решений, а также повышение энергоэффективности и вычислительной эффективности, отмечается в MIT Technology Review. Эта эффективность также подтверждается решением сделать Gpt 5 бесплатным для всех пользователей Chatgpt. Конечно, пользователи по-прежнему могут активировать функцию «Подумай подольше» и другие инструменты одним щелчком мыши; а если Chatgpt начинает рассуждения, они могут вместо этого немедленно активировать ответ.
Первоначальные оценки качества рассуждений, применяемых к реальным задачам, положительны. По мнению тестировщиков и технических экспертов (Tom's Hardware, Techtarget), GPT 5 демонстрирует улучшенную согласованность при решении многошаговых задач и большую склонность к выполнению последовательностей операций без потери связности. Этот прогресс влияет на способы её использования. Теперь модель не просто реагирует, а управляет рабочими процессами, интегрирующими поиск, обработку данных и конечный вывод. Отчёты первых тестировщиков на справочных сайтах, похоже, подтверждают, что этот прогресс не является случайным и импровизированным; на самом деле он является результатом настройки OpenAI, направленной специально на эти практические сценарии. Следует отметить, что разработка OpenAI с модели 4 до модели 5 заняла два года.
Говоря о практическом прогрессе, компания также заявляет, что количество галлюцинаций снизилось на 26%, а вероятность того, что ответ будет содержать существенную фактическую ошибку, снизилась на 44%. На данный момент компания — единственный голос по этому вопросу, но эксперты уже отмечают, что даже если бы это было так, это всё равно было бы неоптимально: это означает, что каждый десятый ответ всё ещё может содержать галлюцинации, отмечает Mashable, и это крайне серьёзно, учитывая всё более распространённое использование сервиса: запрос медицинского заключения в Chatgpt.
Компания OpenAI протестировала GPT-5 с помощью своего внутреннего бенчмарка Simple QA. Согласно описанию системы, этот тест представляет собой набор «вопросов для установления фактов с краткими ответами, которые измеряют точность модели при предпринятых ответах». Для этой оценки у GPT-5 не было доступа к интернету, поэтому уровень галлюцинаций был очень высоким: 47% (40% с рассуждением) против 52% у GPT-5.
Бет Барнс, основательница некоммерческой организации по исследованию искусственного интеллекта Metr, быстро обнаружила неточность в ответе GPT-5, объясняющем принцип работы самолетов.
Многие называют прогресс в кодировании одним из важнейших достижений GPT 5, сокращая отставание от Claude Sonnet от Anthropic (сейчас это самый распространённый инструмент ИИ для программирования). Данные, предоставленные OpenAI и поддержанные техническими изданиями, показывают, что модель достигает более высоких результатов в программно-ориентированных бенчмарках (SWE-Bench и аналогичных); она использует меньше токенов и меньше вызовов внешних инструментов для решения той же задачи. Разница здесь двойная: модель не только точнее создаёт полезный код, но и делает это эффективнее, что снижает затраты на масштабирование и повышает её привлекательность для коммерческих продуктов, предназначенных для автоматизации части цикла разработки. Безусловно, потребуется обширное тестирование, чтобы оценить её истинное качество по сравнению с конкурентами, как на практике, так и с точки зрения интеграции со сторонними системами.
Менее важными, но не менее важными, являются два других вопроса: контекстное окно и мультимодальность. Технический анализ показывает, что GPT 5 был разработан для обработки гораздо более обширных контекстов — цифры варьируются в зависимости от источника и конфигурации, но направление ясно: работа с большими документами, многокомпонентными проектами или диалогами с расширенной памятью становится возможной без необходимости постоянного повторения информации. Многие эксперты (Tom's Hardware, PanelsAI) интерпретируют эту возможность как инструмент для профессиональных приложений: обзоры контрактов, непрерывная отчетность и финансовый анализ, требующие согласованности на сотнях страниц, теперь могут осуществляться с меньшим вмешательством человека. В то же время технические источники подчёркивают, что термин «мультимодальность» следует понимать прагматично: уже существует более эффективная интеграция текста, изображений и структурированных данных; аудио и видео потенциально находятся в стадии разработки, но практическая надежность зависит от вариантов использования и интеграционных процессов.
Ещё одна повторяющаяся тема на специализированных страницах – возможности агентов и инструменты, предназначенные для их реализации. Техническая пресса (Techcrunch, Digital Watch Observatory) подробно освещает новые инфраструктурные функции, сопутствующие модели: API Responses, Agents SDK и системы маршрутизации, позволяющие модели выбирать между режимом «обдумывания» и быстрым ответом, – всё это элементы, которые превращают GPT 5 в платформу для пользовательских агентов, а не просто конечную точку для автодополнения текста. Эксперты объясняют, что благодаря этим API и SDK разработчики и компании могут организовывать стеки – веб-поиск, внутренние вызовы баз данных, генерацию артефактов (слайдов, электронных таблиц, кода) – с контролем безопасности и резервным копированием. Это сокращает разрыв между прототипом и готовым продуктом.
Однако, несмотря на позитивный тон, техническая пресса сохраняет критический и взвешенный тон: авторитетные блоги и аналитики призывают к независимой проверке и воспроизводимым бенчмаркам, прежде чем считать релиз безусловным «прорывом». Platformer, Hacker News и другие отраслевые комментаторы отмечают, что на показатели, представленные в брифингах или пресс-релизах, могут влиять заранее выбранные тестовые наборы и условия настройки, которые не воспроизводятся автоматически во всех производственных средах. Открытое сообщество и технические форумы, где проводятся импровизированные тесты и сравнения на местах, также отмечают, что восприятие полезности может радикально различаться в зависимости от предметной области: то, что хорошо подходит для написания кода, нельзя автоматически переносить на задачи клинической оценки или регламентированные процессы. Требование независимых измерений — постоянный рефрен в технической прессе.
Стоимость и доступность — ещё один важный вопрос. В нескольких статьях (например, Platformer и The Verge) подчёркивается, что OpenAI выбрала многоуровневую стратегию: «мини» и «нано» модели для малозатратных задач с малой задержкой, «стандартная» версия для ресурсоёмких задач и прямая интеграция с Chatgpt. Отраслевые издания отмечают, что этот шаг расширит базу пользователей. В то же время эксперты отмечают, что реальным экономическим параметром, за которым необходимо следить, остаётся цена за токен в производственных конвейерах: эффективность Gpt 5 в генерации ответов с меньшим количеством токенов и вызовов инструментов может стать конкурентным преимуществом, но расчёт стоимости строго зависит от типа рабочей нагрузки и особенностей использования. Поэтому рекомендуется проявлять осторожность.
Но, особенно в вопросах безопасности и управления, специализированная пресса проявляет осторожность: расширенные возможности модели генерировать сложные артефакты и координировать действия с внешними ресурсами требуют новых инструментов аудита, ограничений доступа и операционных политик. Технические эксперты подчёркивают, что задача заключается не только в уменьшении количества галлюцинаций, но и в управлении зависимостями между моделью и корпоративными системами: в том, как проверяется ответ, кто отвечает за результат и как отслеживается цепочка решений в присутствии автономных агентов. Технические обсуждения акцентируют внимание на практических вопросах: ведение журнала, тестирование в изолированных средах, обязательное одобрение человеком конфиденциальных результатов и чёткие критерии блокировки рискованных функций.
Все это звучит очень знакомо для нас, европейцев, учитывая, что 2 августа вступили в силу обязательства по Закону об искусственном интеллекте для поставщиков моделей общего назначения (таких как Gpt 5), что повлияет и на компании, которые их используют.
Новости и аналитика политических, экономических и финансовых событий.
Зарегистрироватьсяilsole24ore