NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16(RedHatAI, 2025)是一款 9 十亿参数 对话模型。NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 is an open-weights chat model with roughly 9 billion parameters.
by RedHatAI · 9B 参数
最佳适用场景
在 osFoundry 中使用 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 的方式
使用您自己的密钥接入(BYOK)
打开密钥对话框并粘贴您的 RedHatAI API 密钥。osFoundry 会自动发现 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16——在 Pipeline 标签中将其分配给 Maestro 角色(router、direct、orchestrator 或 fallback),即可在每次对话中启用。您的密钥、您的服务商账户——零 token 加价。
部署专属端点
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 为开源权重模型——可在本地免费运行,或在您的工作区部署专属 GPU 端点以获得无速率限制的预留算力。
在 Room App 中使用
Room App 在 manifest 中声明 AI 功能,然后通过 invokeAI 调用:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
从您自己的应用中调用
模型接入工作区后,您可将其托管为 API,并从您自己的服务、脚本或 CI 中(osFoundry 之外)访问。
什么硬件可以运行 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 可在单张 16GB 消费级 GPU上运行(约 6 GB VRAM,含 KV-cache 余量)。全精度推理可在单张 H100 80GB 上以 FP16 精度运行(约 22 GB)。
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 与同类模型对比
许可证
未指定 — 许可证条款未指定——商业使用前请核对上游模型卡。
请查阅上游文档。
关于 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 的常见问题
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 可以免费使用吗?
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 在您自己的硬件上本地运行时可免费使用。通过 osFoundry 的托管访问按用量计费(输入 Free (local),输出 Free (local))。您可随时在本地与托管方式之间切换。
我可以将 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 用于商业用途吗?
允许有条件的商业使用。 许可证条款未指定——商业使用前请核对上游模型卡。 请查阅上游文档。
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 需要多少 VRAM?
Q4 量化下约 6 GB,FP16 全精度下约 22 GB。可在单张 24GB 消费级 GPU 上运行。
我可以在本地运行 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 吗?
可以。NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 为开源权重模型,可在工作站 GPU 上本地运行。osFoundry 的本地运行时负责模型加载、量化与路由。
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 最擅长什么?
NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 非常适合text generation。
如何在 osFoundry 中使用 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16?
在密钥对话框中粘贴您的 RedHatAI API 密钥(若为可自托管的开源权重模型,则部署其权重),在 Pipeline 标签中将 NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16 分配给某个 Maestro 角色,然后即可在对话、通过 invokeAI 的 Room App 或您自己的应用中使用。
由 RedHatAI 发布,发布日期 2025年10月22日。 来源:https://huggingface.co/RedHatAI/NVIDIA-Nemotron-Nano-9B-v2-quantized.w4a16