«DeepSeek-R1: رقیب جدی مدل‌های پیشرفته هوش مصنوعی»

DeepSeek-R1(دیپ سیک): رقیب جدی مدل‌های پیشرفته هوش مصنوعی SSO پلاس احرازهویت سازمانی

خلاصه مطلب

اگر به دنبال یک مدل استدلالی (Reasoning Model) پیشرفته در حوزه هوش مصنوعی و پردازش زبان طبیعی هستید، DeepSeek-R1 (دیپ سیک R1) گزینه‌ای منحصربه‌فرد است. این مدل که از نسل اول سری DeepSeek عرضه شده، با بهره‌گیری از زنجیره فکر (Chain-of-Thought, CoT) و تکنیک یادگیری تقویتی (Reinforcement Learning, RL) عملکردی فوق‌العاده در حل مسائل پیچیده نشان داده است.

DeepSeek-R1 به دلیل قدرت پردازشی بالا و آموزش با داده‌های پیشرفته، قابلیت‌های گسترده‌ای در زمینه ریاضیات، کدنویسی، درک متون چندزبانه و استدلال دارد. استفاده از Cold-Start Data قبل از مرحله RL در DeepSeek-R1، سبب بهبود خوانایی متون و رفع مشکلات رایج در مدل‌های مشابه همچون تکرار بی‌پایان و ترکیب ناخواسته زبان‌ها شده است.

این مدل به‌صورت متن‌باز (Open-Source) در اختیار جامعه پژوهشی قرار گرفته و امکان استفاده تجاری و توسعه‌دهی سفارشی را فراهم می‌کند. علاوه بر آن، DeepSeek-R1 در آزمایش‌های مختلف نشان داده که می‌تواند با مدل‌های مطرحی مانند OpenAI-o1 رقابت کند و حتی در برخی موارد رکوردهای جدیدی به ثبت برساند.

از دیگر نقاط قوت DeepSeek-R1 می‌توان به فرآیند ساده راه‌اندازی محلی (Run Locally) و پشتیبانی از API سازگار با OpenAI اشاره کرد. همچنین، مدل‌های تقطیرشده (Distilled) از DeepSeek-R1 قابلیت اجرا در ابعاد کوچک‌تر را فراهم کرده و برای شرکت‌ها و پژوهشگرانی که به دنبال راهکارهای سبک و کارآمد هستند، بسیار کارآمد است.

با انتخاب DeepSeek-R1، می‌توانید به جدیدترین دستاوردهای استدلال ماشینی در حوزه مدل‌های زبان بزرگ (LLM) دست پیدا کنید و پروژه‌های خود را در سطوح بالای دقت و کارآمدی پیش ببرید.

مقدمه (Introduction)


ما نسل اول مدل‌های استدلال (reasoning models) خود را با نام‌های DeepSeek-R1-Zero و DeepSeek-R1 معرفی می‌کنیم.

مدل DeepSeek-R1-Zero که از طریق یادگیری تقویتی (Reinforcement Learning, RL) در مقیاس بزرگ بدون تنظیم دقیق تحت نظارت (Supervised Fine-Tuning, SFT) به عنوان مرحله مقدماتی آموزش دیده است، عملکرد چشمگیری در استدلال (reasoning) نشان داد. با به‌کارگیری RL، مدل DeepSeek-R1-Zero به طور طبیعی رفتارهای استدلالی قدرتمند و جالبی از خود بروز داد.

با این حال، این مدل با چالش‌هایی مانند تکرار بی‌پایان، خوانایی ضعیف و ترکیب چندزبان در متون تولیدی مواجه است. برای حل این مشکلات و بهبود بیشتر عملکرد استدلال، ما مدل DeepSeek-R1 را معرفی می‌کنیم که از داده‌های راه‌اندازی سرد (cold-start data) پیش از مرحله RL بهره می‌گیرد.

DeepSeek-R1 در حوزه‌های ریاضی، کدنویسی و وظایف استدلال، عملکردی در حد OpenAI-o1 دارد. به منظور حمایت از جامعه پژوهشی، ما DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل چگال (dense models) دیگر را که بر اساس Llama و Qwen از DeepSeek-R1 استخراج (distilled) شده‌اند، به صورت متن‌باز منتشر می‌کنیم.

مدل DeepSeek-R1-Distill-Qwen-32B عملکردی فراتر از OpenAI-o1-mini در انواع محک‌ها (benchmarks) داشته و رکوردهای جدیدی را به عنوان بهترین مدل چگال (dense) ثبت کرده است.

نتایج ارزیابی (Evaluation Results)

ارزیابی مدل DeepSeek-R1

برای همه مدل‌های ما، حداکثر طول تولید (generation length) روی ۳۲,۷۶۸ توکن تنظیم شده است. برای محک‌هایی (benchmarks) که نیاز به نمونه‌برداری (sampling) دارند، از دمای (temperature) برابر با 0.6 و مقدار top-p برابر با 0.95 استفاده می‌کنیم و ۶۴ پاسخ برای هر پرسش تولید می‌شود تا pass@1 برآورد گردد.

 

Category Benchmark (Metric) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
Architecture MoE MoE
# Activated Params 37B 37B
# Total Params 671B 671B
English MMLU (Pass@1) 88.3 87.2 88.5 85.2 91.8 90.8
MMLU-Redux (EM) 88.9 88.0 89.1 86.7 92.9
MMLU-Pro (EM) 78.0 72.6 75.9 80.3 84.0
DROP (3-shot F1) 88.3 83.7 91.6 83.9 90.2 92.2
IF-Eval (Prompt Strict) 86.5 84.3 86.1 84.8 83.3
GPQA-Diamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5
SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1
FRAMES (Acc.) 72.5 80.5 73.3 76.9 82.5
AlpacaEval2.0 (LC-winrate) 52.0 51.1 70.0 57.8 87.6
ArenaHard (GPT-4-1106) 85.2 80.4 85.5 92.0 92.3
Code LiveCodeBench (Pass@1-COT) 33.8 34.2 53.8 63.4 65.9
Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Math AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 78.8
Chinese CLUEWSC (EM) 85.4 87.9 90.9 89.9 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 63.7

Distilled Model Evaluation

Model AIME 2024 pass@1 AIME 2024 cons@64 MATH-500 pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

نحوه اجرای محلی (How to Run Locally)

مدل‌های DeepSeek-R1


لطفاً جهت کسب اطلاعات بیشتر در مورد اجرای مدل‌های DeepSeek-R1 به مخزن DeepSeek-V3 مراجعه کنید.

مدل‌های DeepSeek-R1-Distill


مدل‌های DeepSeek-R1-Distill به همان روشی قابل استفاده هستند که مدل‌های Qwen یا Llama مورد استفاده قرار می‌گیرند.

برای مثال، می‌توانید با استفاده از vLLM یک سرویس را به شکل زیر راه‌اندازی کنید:


vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

نکته: توصیه می‌کنیم هنگام اجرای این مدل‌ها دمای (temperature) مناسب (بین ۰.۵ تا ۰.۷) را تنظیم کنید تا با مشکل تکرار بی‌پایان یا خروجی نامفهوم مواجه نشوید.

مجوز (License)

این مخزن کد و وزن‌های مدل تحت مجوز MIT منتشر شده‌اند. سری مدل‌های DeepSeek-R1 از کاربرد تجاری پشتیبانی می‌کنند و هرگونه اصلاح و کار مشتق‌شده، از جمله و نه محدود به، تقطیر (distillation) برای آموزش سایر LLMها را مجاز می‌دانند. لطفاً توجه داشته باشید:

  • مدل‌های DeepSeek-R1-Distill-Qwen-1.5B، DeepSeek-R1-Distill-Qwen-7B، DeepSeek-R1-Distill-Qwen-14B و DeepSeek-R1-Distill-Qwen-32B از سری Qwen-2.5 مشتق شده‌اند که در ابتدا تحت مجوز Apache 2.0 منتشر شده‌اند و اکنون با ۸۰۰هزار نمونه گردآوری‌شده توسط DeepSeek-R1 تنظیم دقیق شده‌اند.
  • مدل DeepSeek-R1-Distill-Llama-8B از مدل Llama3.1-8B-Base مشتق شده و تحت مجوز llama3.1 است.
  • مدل DeepSeek-R1-Distill-Llama-70B از مدل Llama3.3-70B-Instruct مشتق شده و تحت مجوز llama3.3 است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *