随着大规模语言模型(LLM)的持续发展,模型的规模和复杂性急剧增加,其部署和推理通常需要巨大的计算资源,这给个人研究人员和小型团队带来了挑战。
2月10日,Tsinghua University and Trend Technology的KVCache.AI团队发布的Ktransformers开源项目宣布了更新:24G视频存储器4090D可以运行671b的DeepSeek-R1和V3本地的671b“完整血版本”。预处理速度最多可以达到286个令牌/s,并且推理生成速度最多可以达到14个令牌/s。
Ktransformers通过优化本地计算机上的LLM部署来帮助解决资源限制。该框架采用各种创新手段,例如异质计算,高级定量技术,稀疏注意机制等,以提高模型的计算效率,并具有处理长上下文序列的能力。
发布Ktransformers的更新后,许多开发人员还使用自己的设备对其进行测试。他们惊讶地发现本地操作没有问题,即使是视频记忆消耗也比Github的技术文档中提到的含量少。实际内存约为380克,视频记忆占14克。
此外,在对解决方案的成本进行了子项目分析之后,一些用户表示,R1型号的本地操作可以以低于70,000元的价格实现,该操作比A100/H100服务器价格便宜95%以上200万元。
Tsinghua团队突破计算能力问题:24克视频记忆可以运行R1和V3的671b“全血版本”
以前,671B参数MOE体系结构模型DeepSeek-R1通常会出现高负载停机时间推理服务器,如果您选择其他云服务提供商提供的云服务的独家版本,则需要根据GPU小时收取费用。对于中小型团队而言,这种高成本是无法忍受的,市场上的“本地部署”解决方案主要是蒸馏版本,参数大幅下降。
但是,Ktransformers开源项目的最新更新成功地打破了大规模推理计算能力的阈值:它支持24G图形,即在本地运行DeepSeek-R1和V3的671b“全血式版本”。
早在DeepSeek-V2时代,该项目就以其“专家卸载”技术而闻名,因为它支持只有24GB视频记忆的236B参数大型模型在消费级图形卡上顺利运行,从而将视频记忆需求减少至十分之一。 。
Ktransformers开源项目的重点是在资源有限时进行大型模型的本地部署。 Ktransformers开发团队的一名成员说:“该项目在启动开始时已经讨论了该项目的情况和目标。我们针对中小型用户。就现场而言,这是一种较低的并发 + Ultra的场景 - 视频记忆。 。”
图片显示了Zhihu页面的屏幕截图
Ktransformer的原理大致集中在GPU上,以进行更少的参数和更复杂的计算计算,而FNN(MOE)具有较大的参数和更轻松的计算,将其放置在CPU上以进行计算。
MOE结构的模型非常稀疏。执行推理任务时,一次只能激活某些模型参数。因此,MOE架构需要大量存储空间,但不需要大量的计算资源。在这种情况下,还使用4位量化,仅需要4090 GPU来满足此参数要求。
此外,KtransFormers团队还宣布了V0.3预览版的性能指标。通过集成Intel的AMX指令集,CPU预填充速度高达286个令牌/s,比Llama.cpp快28倍。对于需要处理数万个令牌上下文的长期序列任务,它等同于能够从“分钟级别等待”转变为“二级响应”,从而完全释放了CPU的计算潜力。
用户:与A100/H100服务器相比,成本可以降低95%以上
发布KtransFormers的更新后,许多开发人员还在其设备上对其进行了测试。他们惊讶地发现,本地操作没有问题,并且视频记忆消耗甚至比Github的技术文档中提到的要少。实际内存约为380克,视频记忆占据约14克。
B-Site UP所有者进行了实际测试
AB站的主要官方测试发现,本地部署速度可以达到约6-8个令牌/s,这与基于硅的Flow Free版本的速度相似(但是有一些因素,例如上下文相关性和输出限制的数量)。
一些用户计划了此解决方案的成本:
CPU:黄金6454,两件的价格约为1W4(QS版本)
主板:Gigabyte MS73价格在6,500元之内(双通道主板上总共有16个DDR5 RDIMM接口)
内存:单个64G RDIMM DDR5服务器内存的成本为1,800元,总计1T,总共需要约3W元。
图形卡:低端4060TI 16G,约3999元。推荐的4090 24G,因为可以增加上下文长度。
用户得出的结论是,总成本小于70,000元,比售价200万元的A100/H100服务器的价格低95%。即使租用服务器每小时花费数千元。
当然,该本地解决方案仍然具有许多限制,例如推理速度无法与高价服务器的成本进行比较,并且只能提供单人服务,而服务器可以满足数十个用户的需求同时。目前,总体解决方案还依赖于英特尔的AMX指令集,而其他品牌的CPU目前无法执行这些操作。此外,该解决方案主要针对DeepSeek的Moe模型,其他主流模型的运行可能并不理想。
一些用户认为,在短期内,KtransFormers可能会刺激对消费级图形卡的需求(例如4090),尤其是高视频内存模型。但是,内存价格上涨的可能性很低,因为其核心创新在于优化内存利用率,而不是直接增加内存消耗。但这不会对NVIDIA产生太大影响,因为该技术最终取决于现有资源的优化,而不是颠覆硬件要求。
免责声明:本文的内容和数据仅供参考,并且不构成投资建议。请使用前验证。基于此的操作自负。
各省份高考试卷是一样的吗不一样。各省高考采用的考卷不完全一样,所以试...
亚洲一共有多少个国家亚洲共有48个国家。亚洲的区域划分:1、东亚指亚...
复活节2025年几月几号年复活节是几月几日?2025年复活节是20...
夏家三千金哪年的《夏家三千金》是2011年上映的一部电视剧,是由唐嫣...
天天有喜的结局刘枫和九妹怎么样了大结局讲的是,狐狸小九妹在与金蟾大王...