【图】一键部署DeepSeek-V3、DeepSeek-R1模型-厦门文（图）生图-橙芽科技

表中给出的是最低所需配置机型，在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速（推荐）

部署方式为SGLang加速（推荐）

部署方式为vLLM加速

部署方式为标准部署

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速（推荐）

部署方式为SGLang加速（推荐）

部署方式为vLLM加速

部署方式为标准部署

DeepSeek-R1

8卡GU120（8 * 96 GB显存）

不支持

163840

4096

不支持

DeepSeek-V3

8卡GU120（8 * 96 GB显存）

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1卡A10（24 GB显存）

131072

131072

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1卡A10（24 GB显存）

131072

131072

32768

131072

DeepSeek-R1-Distill-Llama-8B

1卡A10（24 GB显存）

131072

131072

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1卡GPU L（48 GB显存）

131072

131072

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2卡GPU L（2 * 48 GB显存）

131072

131072

32768

131072

DeepSeek-R1-Distill-Llama-70B

2卡GU120（2 * 96 GB显存）

131072

131072

32768

131072

部署方式说明：

BladeLLM 加速部署：BladeLLM是阿里云 PAI 自研的高性能推理框架。

SGLang 加速部署：SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。

vLLM 加速部署：vLLM是一个业界流行的用于LLM推理加速的库。

标准部署：不使用任何推理加速的标准部署。

推荐使用加速部署（BladeLLM、SGLang），性能和支持的最大Token数都会更优。

加速部署仅支持API调用方式，标准部署支持API调用方式及WebUI chat界面。

一键部署DeepSeek-V3、DeepSeek-R1模型

深圳市数位汇聚科技有限公司

机构好评：96

2023涨薪必备技能

如何快速创作火爆全网的手绘作品？

私单涨薪必备技能

UI动效设计师为什么拿高薪？

名师高徒挑战高薪

为什么阿里和OPPO超爱这类插画风格？

高效实战百万人气

都是图标设计，总监和你有什么区别？

高效实战职场技能

橙芽科技