Думает вслух перед ответом. Показывает цепочку рассуждений. Обходит OpenAI o1 в математике при открытом коде.
→ Попробовать
| Тест | DeepSeek R1 | OpenAI o1 | GPT-4o |
|---|---|---|---|
| MATH-500 | 97.3% | 96.4% | 76.6% |
| AIME 2024 | 79.8% | 74.3% | 9.3% |
| Codeforces | 96.3% | 96.6% | 62.8% |
| GPQA Diamond | 71.5% | 75.7% | 53.6% |
| MMLU | 90.8% | 91.8% | 88.7% |