>b's weblog

“Zu sagen was ist, bleibt die revolutionärste Tat.” (Rosa Luxemburg)

Trickle-Down-Hegemonie: Wie die USA Europas Denken lenkenImmunitäts-Schuld

Qwen2.5-Max: Erforschung der Intelligenz eines groß angelegten MoE-Modells

It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling extremely large models, whether they are dense or Mixture-of-Expert (MoE) models. Many critical details regarding this scaling process were only disclosed with the recent release of DeepSeek V3. Concurrently, we are developing Qwen2.5-Max, a large-scale MoE model that has been pretrained on over 20 trillion tokens and further post-trained with curated Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) methodologies. Today, we are excited to share the performance results of Qwen2.5-Max and announce the availability of its API through Alibaba Cloud. We also invite you to explore Qwen2.5-Max on Qwen Chat!

Es ist allgemein anerkannt, dass eine kontinuierliche Skalierung sowohl der Daten- als auch der Modellgröße zu erheblichen Verbesserungen der Modellintelligenz führen kann. Die Forschungs- und Industriegemeinschaft verfügt jedoch nur über begrenzte Erfahrung mit der effektiven Skalierung extrem großer Modelle, unabhängig davon, ob es sich um dichte oder Mixture-of-Expert (MoE)-Modelle handelt. Viele kritische Details zu diesem Skalierungsprozess wurden erst mit der jüngsten Veröffentlichung von DeepSeek V3 bekannt gegeben. Gleichzeitig entwickeln wir Qwen2.5-Max, ein groß angelegtes MoE-Modell, das auf über 20 Billionen Token vortrainiert und mit kuratierten Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF) Methoden nachtrainiert wurde. Heute freuen wir uns, die Leistungsergebnisse von Qwen2.5-Max zu präsentieren und die Verfügbarkeit der API über Alibaba Cloud bekannt zu geben. Wir laden Sie außerdem ein, Qwen2.5-Max im Qwen Chat zu erkunden!

Das LLM gibt's hier.