双卡锐炫来助阵,本地部署DeepSeek也能性价比

2025-03-18 13:37:12     来源:

对于“AI模型是显存杀手”这事,我想就算那些没有本地部署过,甚至没有特别关注过我们显卡和笔记本评测中的AI体验部分的玩家应该也知道这个事实——毕竟从年初到现在,DeepSeek已经足够火爆,以至于公园下棋老大爷都能给您编排出一段AI界的三国演义出来.....回到本文的主题,今天我们还是聊聊本地部署DeepSeek模型这事。

首先还是要说明的是,我们部署的是DeepSeek-R1蒸馏模型,而不是DeepSeek-R1 671B。老实说,671B的满血版确实超出普通玩家的范畴了,和个人范畴内的“性价比”更是毫不相关。不过,蒸馏模型还是能做不少事情的,比如用于翻译服务,而且本地部署有很多好处,除了老生常谈的隐私问题外,还能避免“服务器繁忙,请稍后再试”这种情况发生。

然而就算是蒸馏模型,对于显卡的要求也是相当高。这里不说DeepSeek-R1蒸馏模型中最大的DeepSeek-R1-Distill-Llama-70B了,就算是排第二的DeepSeek-R1-Distill-Qwen-32B,要想单卡运行的话您至少需要一张RTX 5090或者RTX 4090。考虑到它俩现时的价格,这仍然算不上是很“性价比”。那么,还有什么便宜大碗的方案呢?

那当然还是有的,而且可能比买二手显卡这事还要稳——两张英特尔锐炫A770 16GB便是个值得尝试的方案。别被双卡这个概念吓到,以显存容量去评判的话,两张锐炫A770加一块也就3600元,可是要比RTX 4070还要实惠。唯一有要求的可能是您的主板和电源,前者是PCIe速度,后者自然是两张A770的功耗了。

“大显存支持:16GB GDDR6显存(显存带宽560GB/s)为大型模型训练和推理提供了充足的资源,尤其适合需要高显存容量的AI应用和内容创作场景。”——节选自DeepSeek-R1对锐炫A770 16GB的评价。

测试平台

本次测试的平台是英特尔大全套,处理器是酷睿Ultra 9 285K。其实在这次测试中,CPU反而不太重要,拿颗酷睿Ultra 5也行。重点反而是主板,最好选一些两个PCIe 5.0 x8插槽的主板。

您也许会问为什么我给出这样的建议但是却用了技嘉Z890 AORUS MASTER这块配置为PCIe 5.0 x16(CPU)、PCIe 4.0 x1(芯片组)和PCIe 4.0 x4(芯片组)各一个的主板。原因也很简单,本来打算用的Z890主板的Killer网卡比较新,在本次系统里似乎暂时缺乏驱动支持,于是就这样了。

前期准备

目前这个方案只能在Linux环境下面用,因此安装系统便成了首先要解决的问题。根据英特尔树外驱动的要求,我安装了Ubuntu 22.04.1(内核是Kernel 6.5.0-35-generic)。因为Linux基本离不开终端操作,所以接下来我会说得简要一点,毕竟要把一大段命令当成正文颇有种水字数的感觉,不利于阅读(我就假定在读本文的各位和我一样略懂点Ubuntu就好了,反正也就用到sudo apt install这些命令)。

装完系统之后便是树外驱动了。反正照着英特尔的文档添加软件源,然后装上intel-i915-dkms和intel-fw-gpu这两个软件包,把当前用户分到渲染组就可以了。

重启后,用lspci或者xpu-smi(这个需要额外安装)可以看到两张锐炫A770 16GB已经就位。至于多出来的那个non-VGA设备则是酷睿Ultra的NPU,不用去管它。

接下来的操作就很简单了,毕竟我们是通过docker来运行前后端的,如果玩过NAS的话应该知道docker有多好用——只要您有一个足够良好的网络。不过我们有现成的镜像和脚本,倒不用进行拉取这一步,如果您要照做的话,请拉取open-webui(前端)和intelanalytics/ipex-llm-serving-xpu:2.2.0-b12-client(后端)这两个镜像。脚本的话可以结合最下面的链接,同时参考下面的截图。

这里顺便说一下ipex-llm是什么,它是一个为英特尔GPU打造的LLM加速库,支持核显、锐炫独立显卡和数据中心显卡等设备,并已经和llama.cpp、Ollama和vLLM等框架无缝集成。

最后是AI模型DeepSeek-R1-Distill-Qwen-32B-AWQ,这个用huggingface-cli下载就行。记得把环境变量改成镜像站hf-mirror.com,可以提高下载速度;还有就是把模型下到本地文件夹里面,不使用huggingface-cli的缓存系统。

对了,如果您不打算更改上面的脚本内容,这里建议把下载的所有东西都扔到根目录下的/model文件夹中。

参考阅读1:树外驱动安装《Installing Data Center GPU: LTS Releases》

参考阅读2:通过docker部署AI服务《vLLM Serving with IPEX-LLM on Intel GPUs via Docker》

实际体验

准备工作完了之后,接下来就非常简单了,用脚本启动前后端容器,并启动后端应用即可。

在本地机上访问127.0.0.1:8080就能见到Open WebUI的主界面了,这个服务是对局域网开放的,所以我们也可以用连到同一个网络的设备去访问它,比如手机和平板。

接下来的界面相信大家就很熟悉了,就和平时用的网页chatbot一样。只不过这一次所有的服务都运行于本地,不受网络波动的影响,拔掉路由器的WAN口也一切如常。

来看看它的运行速度。单个用户访问时,平均生成速度在26 tokens/s左右。在上图的演示里面,我们让它用HTML写了个贪吃蛇,完成后右侧就出现了窗口,可以马上进行游玩。另外,还可以根据需求叫AI修改代码,比如这次我叫它把贪吃蛇改成自动运行,这样截图会方便一点。

单用户使用

但这显然还不是这套平台的极限。我们试了试在三台设备(本机 + 另一台电脑 + 手机)上同时访问AI服务,平均生成速度可以达到66tokens/s。无论在哪台设备上,AI都没有出现卡壳的现象,输出文字的速度很快。

多用户使用

附加内容:如何切换模型?

正当我们体验DeepSeek-R1蒸馏模型的时候,国内另一家实力同样强劲的大模型团队通义发布了他们的推理模型QwQ-32B。该模型在AIME24、LiveBench等多个基准测试中表现出不弱于DeepSeek-R1 671B也就是满血版DeepSeek-R1的实力,更是要比上面运行的蒸馏模型要强得多。因此我们也在这里介绍一下如何把模型切换成QwQ-32B(以及其他你想体验的模型)。

来源:Qwen博客

首先还是用huggingface-cli把QwQ-32B的模型拖到/model文件夹中,我们这次选择的是QwQ-32B-AWQ,也就是用AWQ量化的版本。

接下来只需要修改上面图片中的ds.sh脚本就行,当然,这里建议直接复制一份并重命名为QwQ.sh再进行修改,便于日后操作。要修改的地方不多,就是前面两行的路径和命名而已。做好这部分工作后重启一下后端容器,用脚本启动即可。

我这里没有改名,直接保存了

至于QwQ-32B-AWQ在这套平台上的运行情况和蒸馏模型时类似,平均生成速度也是26 token/s。另外我们特意用xpu-smi监测了两张显卡的显存占用情况,每张显卡各消耗了14GB显存左右,合起来大约是28GB。如果要仅用一张卡处理这么大的模型,那预算真的要花上不少。

总结

总的来说,两张锐炫A770 16GB确实是一个性价比较高的本地部署AI方案。正如我在开头所说,不把二手设备算在内的话,现在3600元您真的很难买到一张NVIDIA或者AMD的大显存显卡,但是一口气买两张锐炫A770 16GB(甚至还是OC版)是完全有可能的,更进一步地说,由于单卡价格的足够实惠,你还可以买更多张去运行参数量更大的模型(当然,这时候主板和处理器会比锐炫A770要贵得多)。除了硬件上足够有性价比外,我们还要强调一下软件上的优势:锐炫显卡有着来自英特尔完善的驱动和加速库支持,部署时docker镜像一拉就完事,然后运行时双卡都能拼尽全力,这些点也是相当重要的。

接下来也说说这个方案的一些注意的点。首先就是功耗和发热了,虽然您不会每分钟都向AI提问,但是如果把它当作一台全时运行的AI服务器的话,累积下来的耗电(还有制造的热量)还是挺“可观”的。其次就是部署的难度问题,如果您不是从事计算机方面的工作,用Ubuntu这些Linux发行版还是一件蛮有挑战性的事——事实上在测试过程中,我也因为太久没捣鼓路由器和NAS而忘掉一些命令的用法,只好不停地“--help”。

不过话说回来,这两种情况在未来都是可以改变的。英特尔表示在未来,玩家将可以用2块锐炫B580搭建AI服务器,以及加入对Windows 11的支持,对于绝大部分的玩家来说,后者尤其是好事。当然,如果你只是想简单体验英特尔硬件的AI性能,也可以直接下载英特尔AI Playground这个应用就是了。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

抖音健康发布新版《社区公约》,明确治理各类虚假营销言行
DeepSeek如何助力制造业智能跃迁?这场活动给出了答案
微星泰坦18 Ultra/Pro新品游戏本预约:Ultra 9+RTX5090旗舰登陆
领跑港澳、发力BIPV蓝海,中国建筑兴业2024年净利润维持高增
浪潮KaiwuDB 携手 KWDB 开源社区走进南开大学
海信中央空调精彩亮相第15届中国热泵展 折射国品的热力“泵”发
以AI技术引领考试公平与效率革新——全美在线(ATA)的智能化探索之路
3月19日锁定「生而无界」发布会,见证追觅仿生多关节机械手震撼发布
2025三星家电新品发布会将于3月21日启幕,邀您体验“有AI的科技·艺术·家”
华运智远选择华为云Stack+DeepSeek,为矿山设备打造“AI健康管家”
万元旗舰东芝Z600QF PRO即将预售:音画独立双芯碰撞日系精工
从“设计生命”到“再生生命”,摩方精密携手素灵科技为中国高精密生物制造注入新动能
Swisse 携手权威专家,共同探索推出Swisse新生瓶
武汉东湖高新区开源政策落地,鸿蒙又迎重大利好
好太太AI晾衣机-隐嵌大师:以三大革新重新定义智能晾晒标准
新讯×鸿蒙 | HDD·春日鸿蒙生态伙伴论坛,新讯APP鸿蒙原生应用成功发布!
联想手表京东售价低于天猫8折 下单前先比价更省钱
央视网评论:店播越来越火,直播电商行业越来越成熟
AI概念助力股价迅速拉升,股东集中套现的背后,AI眼镜赛道路在何方?
世俱杯官方定制产品海信X3Pro开启预售,为球迷打造沉浸式观赛环境
今日人才选择华为云昇腾AI云服务,基于DeepSeek展开业务创新
新替妥首批发货仪式举行,开启破伤风防治的新篇章
欣农互联与喜为智慧达成战略合作, 共创共建AI+农牧业新发展
创新奇智跻身中国大模型市场份额TOP7,工业大模型商业化提速
第十四届公益节举办,龙环汇丰斩获“2024年度社会责任先锋奖”
​ 助力孩子阅读能力全面提升 叫叫阅读2025焕新升级
当科幻照进现实 您准备好迎接“赛博人生”了吗?
拱墅区杭商DeepSeek发展活动—爱我科技楼畅分享AI技术赋能方案
权威安全测评,国产操作系统获官方认证
2025激光制造与增材制造创新发展大会暨展览会启动