...
...

DeepSeek发布精简版R1模型 可单GPU运行 性能超越Gemini Flash

大多数支持

中国AI研究实验室DeepSeek近日推出其R1推理模型的精简版本——DeepSeek-R1-0528-Qwen3-8B。该模型基于阿里巴巴5月发布的Qwen3-8B,并经过R1生成数据的蒸馏训练,在AIME 2025数学测试中超越谷歌Gemini 2.5 Flash,在HMMT测试中接近微软Phi-4 Reasoning+表现。虽然计算能力较完整版R1有限,但其对硬件要求显著降低,仅需单张40GB-80GB显存的GPU即可运行。该模型已通过MIT协议开源,并已在Hugging Face和LM Studio等平台提供API服务,适用于学术研究与小规模工业开发。