Как стать автором
Обновить
466.01
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Новая модель Alibaba с открытым исходным кодом QwQ-32B: конкурент DeepSeek?

Время на прочтение4 мин
Количество просмотров913

Qwen Team , подразделение китайского гиганта электронной коммерции Alibaba , разрабатывающее растущее семейство моделей большого языка (LLM) Qwen с открытым исходным кодом, представило QwQ-32B — новую модель рассуждений с 32 миллиардами параметров, предназначенную для повышения производительности при решении сложных задач с помощью обучения с подкреплением (RL).

Модель доступна как open-weight на Hugging Face и ModelScope по лицензии Apache 2.0. Это означает, что она доступна для коммерческого и исследовательского использования, поэтому предприятия могут немедленно использовать ее для питания своих продуктов и приложений (даже тех, за использование которых они взимают плату с клиентов).

Напомним, предыдущая модель - QwQ была впервые представлена Alibaba в ноябре 2024 года как модель рассуждений с открытым исходным кодом, призванная конкурировать с o1-preview от OpenAI.

Первоначальная версия QwQ, выпущенная еще в ноябре 2024 года (называемая просто «QwQ»), также имела 32 миллиарда параметров и длину контекста в 32 000 токенов. Alibaba подчеркнула свою способность превосходить o1-preview в математических бенчмарках, таких как AIME и MATH, а также в задачах на научное рассуждение, таких как GPQA.

Несмотря на свои сильные стороны, ранние итерации QwQ боролись с такими бенчмарками программирования, как LiveCodeBench, где модели OpenAI сохраняли преимущество. Кроме того, как и многие новые модели рассуждений, QwQ столкнулся с такими проблемами, как смешивание языков и периодические циклические рассуждения.

Однако решение Alibaba выпустить модель под лицензией Apache 2.0 гарантировало разработчикам и предприятиям возможность свободно адаптировать и коммерциализировать ее, что отличало ее от проприетарных альтернатив, таких как o1 от OpenAI.

С момента первоначального выпуска QwQ ландшафт AI быстро развивался. Ограничения традиционных LLM стали более очевидными, поскольку законы масштабирования дают убывающую отдачу в улучшении производительности.

Этот сдвиг подогрел интерес к большим моделям рассуждений (LRM) — новой категории систем AI, которые используют рассуждения во время вывода и саморефлексию для повышения точности. К ним относятся серия o3 от OpenAI и чрезвычайно успешный DeepSeek-R1 от конкурирующей китайской лаборатории DeepSeek, ответвления гонконгской фирмы количественного анализа High-Flyer Capital Management.

В новом отчете аналитической и исследовательской компании SimilarWeb, занимающейся веб-анализом трафика, говорится, что с момента запуска R1 в январе 2024 года DeepSeek резко поднялся в рейтингах и стал самым посещаемым сайтом, предоставляющим модели AI, после OpenAI.

Последняя разработка Alibaba — QwQ-32B — развивает эти достижения, объединяя RL и структурированный самоанализ, что позиционирует ее как серьезного конкурента в растущей области ИИ, ориентированного на рассуждения.

Длина контекста новой модели также была увеличена до 131 000 токенов — аналогично 128 000 токенов моделей OpenAI и многих других, хотя контекст Google Gemini 2.0 по-прежнему превосходит их и составляет 2 миллиона токенов. (Напомним, что контекст относится к количеству токенов, которые LLM может ввести/вывести за одно взаимодействие, причем большее количество токенов означает больше информации. 131 000 токенов эквивалентны примерно 300-страничной книге.

Традиционные модели, настроенные на инструкции, часто испытывают трудности с решением сложных задач на рассуждение, но исследования команды Qwen показывают, что обучение с подкреплением может значительно улучшить способность модели решать сложные задачи.

QwQ-32B развивает эту идею, реализуя многоступенчатый подход к обучению с подкреплением для улучшения математических рассуждений, навыков кодирования и общего решения проблем.

Модель была сравнена с ведущими альтернативами, такими как DeepSeek-R1, o1-mini и DeepSeek-R1-Distilled-Qwen-32B, и продемонстрировала конкурентоспособные результаты, несмотря на меньшее количество параметров, чем у некоторых из этих моделей.

Например, в то время как DeepSeek-R1 работает с 671 миллиардом параметров (из которых активировано 37 миллиардов), QwQ-32B достигает сопоставимой производительности при гораздо меньших потребностях — обычно требуя 24 ГБ видеопамяти на графическом процессоре (у Nvidia H100 — 80 ГБ) по сравнению с более чем 1500 ГБ видеопамяти для работы полной версии DeepSeek R1 (16 графических процессоров Nvidia A100), — что подчеркивает эффективность подхода Qwen к обучению с подкреплением.

Процесс RL для QwQ-32B был реализован в два этапа:

  1. Фокус на математике и кодировании: модель была обучена с использованием верификатора точности для математических рассуждений и сервера выполнения кода для задач кодирования. Этот подход гарантировал, что сгенерированные ответы были проверены на правильность перед подкреплением.

  2. Улучшение общих возможностей: на втором этапе модель получила обучение на основе вознаграждения с использованием общих моделей вознаграждения и верификаторов на основе правил. На этом этапе улучшилось следование инструкциям, выравнивание человека и рассуждения агента без ущерба для ее математических и кодирующих возможностей.

С помощью QwQ-32B команда Qwen позиционирует RL как ключевой фактор развития моделей AI следующего поколения, демонстрируя, что масштабирование может создавать высокопроизводительные и эффективные системы рассуждений.

Источник

Теги:
Хабы:
+2
Комментарии1

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия