
DeepSeek又有大讯息。
3月1日,DeepSeek发表题为《DeepSeek-V3/R1推理系统概览》的著作,全面揭晓V3/R1推理系统背后的要害好意思妙。
最为引东谈主注野心是,著作初次显露了DeepSeek的表面老本和利润率等要害信息。据先容,假设GPU租出老本为2好意思元/小时,总老本为87072好意思元/天;淌若所有这个词tokens一齐按照DeepSeek R1的订价估计,表面上一天的总收入为562027好意思元/天,老本利润率为545%。
把柄DeepSeek官方显露,DeepSeek V3和R1的所有这个词做事均使用H800GPU,使用和磨练一致的精度,即矩阵估计和dispatch传输剿袭和磨练一致的FP8行径,core-attention估计和combine传输剿袭和磨练一致的BF16,最猛过程保证了做事效力。
另外,由于日间的做事负荷高,晚上的做事负荷低,因此DeepSeek完了了一套机制,在日间负荷高的时代,用所有这个词节点部署推理做事。晚上负荷低的时代,减少推理节点,以用来作念参谋和磨练。
在最近24小时(2025年2月27日12:00至28日12:00)的统计周期内:GPU租出老本按2好意思元/小时估计,日均老本为87072好意思元;若所有这个词输入/输出token按R1订价(输入1元/百万token、输出16元/百万token)估计,单日收入可达562027好意思元,老本利润率高达545%。
不外,DeepSeek官方坦言,骨子上莫得这样多收入,因为V3的订价更低,同期收费做事只占了一部分,另外夜间还会有扣头。
DeepSeek的高利润率源于其更动的推理系统联想,中枢包括大规模跨节点各人并行(EP)、估计通讯重复与负载平衡优化三大工夫扶助:各人并行(EP)进步微辞与反馈速率,针对模子稀零性(每层仅激活8/256个各人),剿袭EP计策扩张总体批处治规模(batch size),确保每个各人得到充足的估计负载,权臣进步GPU行使率;部署单位动态改造(如Prefill阶段4节点、Decode阶段18节点),平衡资源分拨与任务需求。
估计与通讯重复荫藏蔓延,Prefill阶段通过“双batch交错”完了估计与通讯并行,Decode阶段拆分attention为多级活水线,最大为止覆盖通讯支拨。
全局负载平衡幸免资源浪费,针对不同并行方法(数据并行DP、各人并行EP)联想动态负载平衡器,确保各GPU的估计量、通讯量及KVCache占用平衡,幸免节点空转。
绵薄来说,EP就像是“多东谈主合营”,把模子中的“各人”溜达到多张GPU上进行估计,大幅进步Batch Size,榨干GPU算力,同期各人溜达,裁减内存压力,更快反馈。
DeepSeek在工程层面进一步压缩老本。日夜资源调配:日间岑岭时段全力支执推理做事,夜间闲置节点转用于研发磨练,最大化硬件行使率;缓存射中率达56.3%:通过KVCache硬盘缓存减少重复估计,在输入token中,有3420亿个(56.3%)径直射中缓存,大幅裁减算力豪侈。
空洞自券商中国体育游戏app平台