表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。
模型
最低配置
支持的最大Token数
部署方式为BladeLLM加速(推荐)
部署方式为SGLang加速(推荐)
部署方式为vLLM加速
部署方式为标准部署
模型
最低配置
支持的最大Token数
部署方式为BladeLLM加速(推荐)
部署方式为SGLang加速(推荐)
部署方式为vLLM加速
部署方式为标准部署
DeepSeek-R1
8卡GU120(8 * 96 GB显存)
不支持
163840
4096
不支持
DeepSeek-V3
8卡GU120(8 * 96 GB显存)
不支持
163840
4096
2000
DeepSeek-R1-Distill-Qwen-1.5B
1卡A10(24 GB显存)
131072
131072
131072
131072
DeepSeek-R1-Distill-Qwen-7B
1卡A10(24 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Llama-8B
1卡A10(24 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Qwen-14B
1卡GPU L(48 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Qwen-32B
2卡GPU L(2 * 48 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Llama-70B
2卡GU120(2 * 96 GB显存)
131072
131072
32768
131072
部署方式说明:
BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。
SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。
vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。
标准部署:不使用任何推理加速的标准部署。
推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。
加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。
模型
最低配置
支持的最大Token数
部署方式为BladeLLM加速(推荐)
部署方式为SGLang加速(推荐)
部署方式为vLLM加速
部署方式为标准部署
模型
最低配置
支持的最大Token数
部署方式为BladeLLM加速(推荐)
部署方式为SGLang加速(推荐)
部署方式为vLLM加速
部署方式为标准部署
DeepSeek-R1
8卡GU120(8 * 96 GB显存)
不支持
163840
4096
不支持
DeepSeek-V3
8卡GU120(8 * 96 GB显存)
不支持
163840
4096
2000
DeepSeek-R1-Distill-Qwen-1.5B
1卡A10(24 GB显存)
131072
131072
131072
131072
DeepSeek-R1-Distill-Qwen-7B
1卡A10(24 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Llama-8B
1卡A10(24 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Qwen-14B
1卡GPU L(48 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Qwen-32B
2卡GPU L(2 * 48 GB显存)
131072
131072
32768
131072
DeepSeek-R1-Distill-Llama-70B
2卡GU120(2 * 96 GB显存)
131072
131072
32768
131072
部署方式说明:
BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。
SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。
vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。
标准部署:不使用任何推理加速的标准部署。
推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。
加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。
