خلاصه مطلب
اگر به دنبال یک مدل استدلالی (Reasoning Model) پیشرفته در حوزه هوش مصنوعی و پردازش زبان طبیعی هستید، DeepSeek-R1 (دیپ سیک R1) گزینهای منحصربهفرد است. این مدل که از نسل اول سری DeepSeek عرضه شده، با بهرهگیری از زنجیره فکر (Chain-of-Thought, CoT) و تکنیک یادگیری تقویتی (Reinforcement Learning, RL) عملکردی فوقالعاده در حل مسائل پیچیده نشان داده است.
DeepSeek-R1 به دلیل قدرت پردازشی بالا و آموزش با دادههای پیشرفته، قابلیتهای گستردهای در زمینه ریاضیات، کدنویسی، درک متون چندزبانه و استدلال دارد. استفاده از Cold-Start Data قبل از مرحله RL در DeepSeek-R1، سبب بهبود خوانایی متون و رفع مشکلات رایج در مدلهای مشابه همچون تکرار بیپایان و ترکیب ناخواسته زبانها شده است.
این مدل بهصورت متنباز (Open-Source) در اختیار جامعه پژوهشی قرار گرفته و امکان استفاده تجاری و توسعهدهی سفارشی را فراهم میکند. علاوه بر آن، DeepSeek-R1 در آزمایشهای مختلف نشان داده که میتواند با مدلهای مطرحی مانند OpenAI-o1 رقابت کند و حتی در برخی موارد رکوردهای جدیدی به ثبت برساند.
از دیگر نقاط قوت DeepSeek-R1 میتوان به فرآیند ساده راهاندازی محلی (Run Locally) و پشتیبانی از API سازگار با OpenAI اشاره کرد. همچنین، مدلهای تقطیرشده (Distilled) از DeepSeek-R1 قابلیت اجرا در ابعاد کوچکتر را فراهم کرده و برای شرکتها و پژوهشگرانی که به دنبال راهکارهای سبک و کارآمد هستند، بسیار کارآمد است.
با انتخاب DeepSeek-R1، میتوانید به جدیدترین دستاوردهای استدلال ماشینی در حوزه مدلهای زبان بزرگ (LLM) دست پیدا کنید و پروژههای خود را در سطوح بالای دقت و کارآمدی پیش ببرید.
مقدمه (Introduction)
ما نسل اول مدلهای استدلال (reasoning models) خود را با نامهای DeepSeek-R1-Zero و DeepSeek-R1 معرفی میکنیم.
مدل DeepSeek-R1-Zero که از طریق یادگیری تقویتی (Reinforcement Learning, RL) در مقیاس بزرگ بدون تنظیم دقیق تحت نظارت (Supervised Fine-Tuning, SFT) به عنوان مرحله مقدماتی آموزش دیده است، عملکرد چشمگیری در استدلال (reasoning) نشان داد. با بهکارگیری RL، مدل DeepSeek-R1-Zero به طور طبیعی رفتارهای استدلالی قدرتمند و جالبی از خود بروز داد.
با این حال، این مدل با چالشهایی مانند تکرار بیپایان، خوانایی ضعیف و ترکیب چندزبان در متون تولیدی مواجه است. برای حل این مشکلات و بهبود بیشتر عملکرد استدلال، ما مدل DeepSeek-R1 را معرفی میکنیم که از دادههای راهاندازی سرد (cold-start data) پیش از مرحله RL بهره میگیرد.
DeepSeek-R1 در حوزههای ریاضی، کدنویسی و وظایف استدلال، عملکردی در حد OpenAI-o1 دارد. به منظور حمایت از جامعه پژوهشی، ما DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل چگال (dense models) دیگر را که بر اساس Llama و Qwen از DeepSeek-R1 استخراج (distilled) شدهاند، به صورت متنباز منتشر میکنیم.
مدل DeepSeek-R1-Distill-Qwen-32B عملکردی فراتر از OpenAI-o1-mini در انواع محکها (benchmarks) داشته و رکوردهای جدیدی را به عنوان بهترین مدل چگال (dense) ثبت کرده است.
نتایج ارزیابی (Evaluation Results)
ارزیابی مدل DeepSeek-R1
برای همه مدلهای ما، حداکثر طول تولید (generation length) روی ۳۲,۷۶۸ توکن تنظیم شده است. برای محکهایی (benchmarks) که نیاز به نمونهبرداری (sampling) دارند، از دمای (temperature) برابر با 0.6
و مقدار top-p برابر با 0.95
استفاده میکنیم و ۶۴ پاسخ برای هر پرسش تولید میشود تا pass@1
برآورد گردد.
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | – | – | MoE | – | – | MoE | |
# Activated Params | – | – | 37B | – | – | 37B | |
# Total Params | – | – | 671B | – | – | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | – | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | – | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | – | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | – | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | – | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | – | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | – | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | – | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | – | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | – | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | – | 63.7 |
Distilled Model Evaluation
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
نحوه اجرای محلی (How to Run Locally)
مدلهای DeepSeek-R1
لطفاً جهت کسب اطلاعات بیشتر در مورد اجرای مدلهای DeepSeek-R1 به مخزن DeepSeek-V3 مراجعه کنید.
مدلهای DeepSeek-R1-Distill
مدلهای DeepSeek-R1-Distill به همان روشی قابل استفاده هستند که مدلهای Qwen یا Llama مورد استفاده قرار میگیرند.
برای مثال، میتوانید با استفاده از vLLM یک سرویس را به شکل زیر راهاندازی کنید:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
نکته: توصیه میکنیم هنگام اجرای این مدلها دمای (temperature) مناسب (بین ۰.۵ تا ۰.۷) را تنظیم کنید تا با مشکل تکرار بیپایان یا خروجی نامفهوم مواجه نشوید.
مجوز (License)
این مخزن کد و وزنهای مدل تحت مجوز MIT منتشر شدهاند. سری مدلهای DeepSeek-R1 از کاربرد تجاری پشتیبانی میکنند و هرگونه اصلاح و کار مشتقشده، از جمله و نه محدود به، تقطیر (distillation) برای آموزش سایر LLMها را مجاز میدانند. لطفاً توجه داشته باشید:
- مدلهای DeepSeek-R1-Distill-Qwen-1.5B، DeepSeek-R1-Distill-Qwen-7B، DeepSeek-R1-Distill-Qwen-14B و DeepSeek-R1-Distill-Qwen-32B از سری Qwen-2.5 مشتق شدهاند که در ابتدا تحت مجوز Apache 2.0 منتشر شدهاند و اکنون با ۸۰۰هزار نمونه گردآوریشده توسط DeepSeek-R1 تنظیم دقیق شدهاند.
- مدل DeepSeek-R1-Distill-Llama-8B از مدل Llama3.1-8B-Base مشتق شده و تحت مجوز llama3.1 است.
- مدل DeepSeek-R1-Distill-Llama-70B از مدل Llama3.3-70B-Instruct مشتق شده و تحت مجوز llama3.3 است.