​如何在 NVIDIA GPU 上使用 Unsloth 微调大语言模型(LLM)

2025-12-18 21:19:53     来源:泡泡网

使用 NVIDIA RTX AI PC 和 DGX Spark,在 Unsloth 中更快地微调主流 AI 模型,打造用于学习、工作、创意项目等场景的个性化助手。现可试验全新的 Nemotron Nano 3 开放模型系列。

预设链接: https://blogs.nvidia.cn/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark

现代工作流展示了生成式 AI 和 代理式 AI 在 PC 上的无限可能性。

这些应用场景包括让聊天机器人处理产品支持问题,或作为管理日程的个人助理。但如何让小语言模型(SLM)在执行专用的代理式任务时持续以高准确率进行响应,仍然是一个挑战。

这正是微调发挥作用的地方。

Unsloth 是全球应用最广泛的开源大语言模型(LLM)微调框架之一,为模型定制提供了一个易于上手的途径。它针对 NVIDIA GPU 进行了高效、低显存占用的训练优化,覆盖 GeForce RTX 台式机和笔记本电脑、RTX PRO 工作站,以及全球最小的 AI 超级计算机 DGX Spark。

另一个强大的微调起点是刚刚发布的 NVIDIA Nemotron 3 系列开放模型、数据和代码库。Nemotron 3 引入了目前最高效的开放模型系列,适合用于代理式 AI 的微调。

教会 AI 新招式

微调就像是为 AI 模型进行一次有针对性的训练。通过与特定主题或工作流程相关的示例,模型可以学习新的模式并适应当前任务,从而提升准确性。

为模型选择哪种微调方法,取决于开发者希望对原始模型进行多大程度的调整。根据不同目标,开发者可以采用三种主要的微调方法之一:

参数高效微调(如 LoRA 或 QLoRA):

● 工作原理:仅更新模型的一小部分,以更快、更低成本完成训练。这是一种在不大幅改变模型的情况下提升能力的高效方式。

● 适用场景:几乎适用于所有传统需要完整微调的场景,包括引入领域知识、提升代码准确性、使模型适配法律或科学任务、改进推理能力,或对语气和行为进行对齐。

● 要求:小到中等规模的数据集(100–1,000组示例提示词对)。

完整微调:

● 工作原理:更新模型的所有参数,适用于训练模型遵循特定格式或风格。

● 适用场景:高级应用场景,例如构建 AI 智能体和聊天机器人,这些系统需要围绕特定主题提供帮助、遵循既定的约束规则,并以特定方式进行响应。

● 要求:大规模数据集(1,000+ 组示例提示词对)。

强化学习:

● 工作原理:通过反馈或偏好信号来调整模型行为。模型通过与环境交互进行学习,并利用反馈不断改进自身。这是一种复杂的高级技术,将训练与推理交织在一起,并且可以与 参数高效微调 和 完整微调 技术结合使用。详情请参考 Unsloth 的强化学习指南。

● 适用场景:提升模型在特定领域(如法律或医学)中的准确性,或构建能够为用户设计并执行动作的自主智能体。

● 要求:一个包含行为模型、奖励模型和可供模型学习的环境的流程。

另一个需要考虑的因素是各种方法的显存需求。下表提供了在 Unsloth 上运行每种微调方法的需求概览。

Unsloth:在 NVIDIA GPU 上实现快速微调的高效路径

LLM 微调是一种对内存和计算要求极高的工作负载,在每个训练步骤中都需要进行以十亿次记的矩阵乘法来更新模型权重。这类重型并行计算需要依托 NVIDIA GPU 的强大算力,才能高效、快速地完成。

Unsloth 在这类负载中表现出色,可将复杂的数学运算转化为高效的定制 GPU kernel,从而加速 AI 训练。

Unsloth 可在 NVIDIA GPU 上将 Hugging Face transformers 库的性能提升至 2.5 倍。这些针对 GPU 的优化与 Unsloth 的易用性相结合,使微调对更广泛的 AI 爱好者和开发者更加易于上手。

框架专为 NVIDIA 硬件构建并优化,覆盖从 GeForce RTX 笔记本电脑,到 RTX PRO 工作站以及 DGX Spark,在降低显存占用的同时提供巅峰性能。

Unsloth 提供了一系列实用的指南,帮助用户快速上手并管理不同的 LLM 配置、超参数和选项,以及示例 notebook 和分步骤工作流程。

访问以下链接查看 Unsloth 指南:

● Fine-Tuning LLMs With NVIDIA RTX 50 Series GPUs and Unsloth

● Fine-Tuning LLMs With NVIDIA DGX Spark and Unsloth

查看链接了解如何在 NVIDIA DGX Spark 上安装 Unsloth。阅读 NVIDIA 技术博客,深入了解在 NVIDIA Blackwell 平台上进行微调和强化学习的相关内容。

现已发布:NVIDIA Nemotron 3 开放模型系列

全新的 Nemotron 3 开放模型系列 —— 包含 Nano、Super 和 Ultra 三种规模 —— 基于全新的异构潜在混合专家 (Mixture-of-Experts, MoE) 架构打造,带来了兼具领先准确率与高效率的开放模型系列,非常适合用于构建代理式 AI 应用。

目前已发布的 Nemotron 3 Nano 30B-A3B 是该系列中计算效率最高的模型,针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化,具备较低的推理成本。其异构 MoE 设计带来以下优势:

● 推理 token 数量最多减少 60%,显著降低推理成本。

● 支持 100 万 token 的上下文处理能力,使模型在长时间、多步骤任务中能够保留更多信息。

Nemotron 3 Super 是一款面向多智能体应用的高精度推理模型,而 Nemotron 3 Ultra 则适用于复杂的 AI 应用。这两款模型预计将在 2026 年上半年推出。

NVIDIA 于 12 月 15 日还发布了一套开放的训练数据集合集以及先进的强化学习库。Nemotron 3 Nano 的微调现已在 Unsloth 上提供。

Nemotron 3 Nano 现可在 Hugging Face 获取,或通过 Llama.cpp 和 LM Studio 进行体验。

DGX Spark:紧凑而强大的 AI 算力引擎

DGX Spark 支持本地微调,将强大的 AI 性能集成在紧凑的桌面级超级计算机形态中,让开发者获得比普通 PC 更多的内存资源。

DGX Spark 基于 NVIDIA Grace Blackwell 架构打造,最高可提供 1 PFLOP 的 FP4 AI 性能,并配备 128GB 的 CPU-GPU 统一内存,使开发者能够在本地运行更大规模的模型、更长的上下文窗口以及更高负载的训练工作。

在微调方面,DGX Spark 可实现:

 支持更大规模的模型。参数规模超过 30B 的模型往往会超出消费级 GPU 的 VRAM 容量,但可以轻松运行在 DGX Spark 的统一内存中。

 支持更高级的训练技术。完整微调和基于强化学习的工作流对内存和吞吐量要求更高,在 DGX Spark 上运行速度显著更快。

 本地控制,无需云端排队。开发者可以在本地运行高计算负载任务,无需等待云端实例或管理多个环境。

DGX Spark 的优势不仅限于在 LLM 上。高分辨率扩散模型通常需要超过普通桌面系统所能提供的内存。借助 FP4 支持和大容量统一内存,DGX Spark 可在短短几秒内生成1000张图像,并为创意或多模态工作流提供更高的持续吞吐量。

下表展示了在 DGX Spark 上对 Llama 系列模型进行微调的性能表现。

随着微调工作流的不断发展,全新的 Nemotron 3 开放模型系列为 RTX 系统和 DGX Spark 提供了可扩展的推理能力与长上下文性能优化。

请访问链接了解 DGX Spark 如何支持高强度 AI 任务。

#别错过 — NVIDIA RTX AI PC 的最新进展
转自:泡泡网

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

智能家居x灯光美学:古希奥携手Aqara闪耀台湾
Forrester AI云报告:百度、阿里领跑 分列产品、战略第一
百度AI营销极简投放,中小企业数字化转型的“智能钥匙”
灵犀智能全球首款星座AI潮玩亮相乌镇青少年科技嘉年华
技术全景首揭秘!Xiaomi Vela 在 2025 小米人车家全生态大会定义万物智联底座
聚焦下颌前导治疗,正雅齿科在悉尼大学举办国际交流会
西班牙科技企业投资9亿元落户上海宝山
微算法科技(NASDAQ MLGO)基于区块链的去中心化节点网络构建分布式蜜罐系统缓解DDoS攻击
声姿 | 思必驰×智元精灵G2:工业级交互,为生产力而声动
深度智能,与你共进:霓星AI电摩正式发布,开启城市骑行新纪元
鸿蒙版“青海人社通”更新,人社便民服务一点即达“掌上办”
洋葱学园获评「2025人工智能+优秀标杆案例」
荣耀再续!Kaadas凯迪仕荣膺深圳市制造业单项冠军企业
锻造AI时代基础设施新范式 九章云极斩获金i奖、数字中国建设优秀应用案例双项认可
声网视频SDK首批通过GIIC鸿蒙生态权威评测,获“Harmony Trusted SDK”标识认证
听智慧:未来可穿戴生态是“智慧大脑+AR眼镜+AI耳机”的深度协同
三星将于CES 2026发布全新AI智联生活家电产品阵容
信也科技:深耕新兴市场显成效,技术赋能普惠金融服务
以用户为中心获国际认可,讯飞AI录音笔S6摘得红点用户体验设计大奖
鸿蒙版“辽事通”App让政务服务“一碰即享”“触即达”
火山引擎发布《AI时代企业数据基建升级路线图》
‌双旦焕新家 三星AI神洗烘护组合让冬日穿搭焕然衣新
TRAE CN企业版正式发布,支持10万文件、1.5亿行代码超大仓库索引
从天幕到侧窗,光羿科技正以电致变色技术打开整车调光新格局
超级模型走进物理世界,它石智航全栈技术12.19首秀
创新场景叙事+视效升级,新浪新闻获2025灵眸奖营销策略组奖项
沧州运河区科技馆打造人工智能教育新样板:携手50余校开展AI研学,元萝卜成亮点
从“人防”到“技防”:中感如何通过无人化系统实现煤仓风险的全流程管控
第七届四川省乡村振兴乡土人才创新创业大赛在绵阳举办
鸿蒙星光盛典即将播出,精彩看点问问小艺提前知晓