一键部署DeepSeek-V3、DeepSeek-R1模型

诚信评分:100
水平:普通
表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速(推荐)

部署方式为SGLang加速(推荐)

部署方式为vLLM加速

部署方式为标准部署

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速(推荐)

部署方式为SGLang加速(推荐)

部署方式为vLLM加速

部署方式为标准部署

DeepSeek-R1

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

不支持

DeepSeek-V3

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1卡A10(24 GB显存)

131072

131072

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1卡A10(24 GB显存)

131072

131072

32768

131072

DeepSeek-R1-Distill-Llama-8B

1卡A10(24 GB显存)

131072

131072

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1卡GPU L(48 GB显存)

131072

131072

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2卡GPU L(2 * 48 GB显存)

131072

131072

32768

131072

DeepSeek-R1-Distill-Llama-70B

2卡GU120(2 * 96 GB显存)

131072

131072

32768

131072

部署方式说明:

BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。

SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。

vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。

标准部署:不使用任何推理加速的标准部署。

推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。

加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。