OpenAI запускает o3-mini, свою последнюю модель 'рассуждений'

OpenAI в пятницу запустила новую модель искусственного интеллекта 'рассуждений' под названием o3-mini, самую новую в семействе моделей рассуждений компании o.

OpenAI впервые показала модель в декабре вместе с более способной системой под названием o3, но запуск происходит в поворотный момент для компании, чьи амбиции — и вызовы — кажется, растут с каждым днем.

OpenAI борется с восприятием, что отступает в гонке за искусственным интеллектом перед китайскими компаниями, такими как DeepSeek, которая, по заявлению OpenAI, могла украсть его интеллектуальную собственность. Она пытается укрепить отношения с Вашингтоном, одновременно реализуя амбициозный проект центра обработки данных и, как сообщается, подготавливая почву для одного из самых крупных раундов финансирования в истории.

Что касается o3-mini. OpenAI продвигает свою новую модель как 'мощную' и 'доступную'.

“Сегодняшний запуск отмечает [...] важный шаг к расширению доступности передового искусственного интеллекта во исполнение нашей миссии”, — сообщил представитель OpenAI журналу TechCrunch.

Более эффективное рассуждение

В отличие от большинства крупных языковых моделей, модели рассуждения, подобные o3-mini, тщательно проверяют себя перед выдачей результатов. Это помогает им избегать некоторых ловушек, которые обычно останавливают модели. Эти модели рассуждения требуют немного больше времени для поиска решений, но взамен они обычно более надежны — хотя и не идеальны — в областях физики.

O3-mini настраивается для решения проблем в области STEM, конкретно в программировании, математике и науке. OpenAI утверждает, что модель во многом сравнима с семейством o1, o1 и o1-mini, по возможностям, но работает быстрее и стоит дешевле.

Компания утверждает, что внешние тестеры предпочли ответы o3-mini более чем в половине случаев по сравнению с ответами o1-mini. О3-mini, по-видимому, делала на 39% меньше 'серьезных ошибок' на 'сложных вопросах реального мира' в A/B-тестах по сравнению с o1-mini, и давала 'более ясные' ответы, предлагая ответы примерно на 24% быстрее.

o3-mini будет доступен всем пользователям через ChatGPT, начиная с пятницы, но пользователи, оплачивающие планы ChatGPT Plus и Team компании OpenAI, получат более высокий лимит запросов в 150 в день. Подписчики ChatGPT Pro получат неограниченный доступ, и o3-mini станет доступен для клиентов ChatGPT Enterprise и ChatGPT Edu через неделю. (Пока нет информации о ChatGPT Gov).

Пользователи с премиальными планами могут выбрать o3-mini, используя выпадающее меню ChatGPT. Бесплатные пользователи могут нажать на кнопку 'Рассуждать' в строке чата или позволить ChatGPT 'перегенерировать' ответ.

Начиная с пятницы, o3-mini также будет доступен через API OpenAI для выбранных разработчиков, однако изначально он не будет поддерживать анализ изображений. Разработчики могут выбрать уровень 'усилий по рассуждению' (низкий, средний или высокий), чтобы позволить o3-mini 'думать сильнее' в зависимости от их задачи и потребностей в задержке.

O3-mini стоит $0,55 за миллион закешированных входных токенов и $4,40 за миллион выходных токенов, где миллион токенов примерно равен 750 000 словам. Это на 63% дешевле, чем o1-mini, и конкурентоспособно с ценами на модель рассуждений R1 компании DeepSeek. DeepSeek берет $0,14 за миллион закешированных входных токенов и $2,19 за миллион выходных токенов для доступа к R1 через его API.

В ChatGPT o3-mini установлен на средний уровень усилий по рассуждению, что по мнению OpenAI обеспечивает 'сбалансированный компромисс между скоростью и точностью'. Платные пользователи смогут выбрать 'o3-mini-high' в селекторе моделей, что обеспечит, по мнению OpenAI, 'более высокий интеллект' в обмен на более медленные ответы.

Независимо от того, какую версию o3-mini выбирают пользователи ChatGPT, модель будет работать с поиском ответов с ссылками на актуальные веб-источники. OpenAI предупреждает, что функциональность является 'прототипом', поскольку работает над интеграцией поиска в свои модели рассуждений.

“В то время как o1 остается нашей общей моделью рассуждения на основе знаний, o3-mini представляет собой специализированный альтернативный вариант для технических областей, требующих точности и скорости,” — пишет OpenAI в блоге в пятницу. “Выпуск o3-mini отмечает еще один шаг OpenAI в направлении расширения границ дешевого искусственного интеллекта.”

Оговорки

O3-mini — не самая мощная модель OpenAI на сегодняшний день и не всегда опережает модель рассуждений R1 компании DeepSeek по всем показателям.

O3-mini обыгрывает R1 на AIME 2024, тесте, который измеряет, насколько хорошо модели понимают и отвечают на сложные инструкции — но только с высокими усилиями по рассуждению. Она также обогнала R1 на программном тесте SWE-bench Verified (на 0,1 пункта), но снова только с высоким уровнем усилий по рассуждениям. При низких усилиях по рассуждению o3-mini уступает R1 на GPQA Diamond, который тестирует модели на вопросы по физике, биологии и химии уровня PhD.

Справедливости ради, o3-mini отвечает на многие запросы по конкурентоспособной цене и задержке. В сообщении OpenAI сравнивает его производительность с семейством o1:

“При низких усилиях по рассуждению o3-mini достигает сравнимой производительности с o1-mini, а при средних усилиях по рассуждению o3-mini достигает сравнимой производительности с o1,” — пишет OpenAI. “O3-mini со средними усилиями по рассуждению соответствует производительности o1 в математике, программировании и науке, обеспечивая более быстрые ответы. Тем временем, при высоких усилиях по рассуждению o3-mini превосходит как o1-mini, так и o1.”

Строковые выгоды o3-mini по сравнению с o1 довольно малы в некоторых областях. На AIME 2024 o3-mini обгоняет o1 всего на 0,3 процентных пункта при уровне высоких усилий по рассуждению. И на GPQA Diamond она не превышает результат o1 даже при высоком уровне усилий по рассуждению.

OpenAI утверждает, что o3-mini так же 'безопасна' или даже безопаснее, чем семейство o1, благодаря усилиям болевой команды и своей методологии 'размышляющего соответствия', которая заставляет модели 'думать' о политике безопасности OpenAI во время ответа на запросы. По заявлению компании, o3-mini 'значительно превосходит' одну из флагманских моделей OpenAI, GPT-4o, на 'сложных проверках безопасности и побега из тюрьмы'.

У TechCrunch есть информационный бюллетень, сосредоточенный на искусственном интеллекте! Подпишитесь здесь, чтобы получать его в своем почтовом ящике каждую среду.