Llama-3-8B-Instruct-262k-GGUF-smashed
由 PrunaAI 打造,Llama-3-8B-Instruct-262k-GGUF-smashed 是一款 8 十亿参数 对话模型。Llama-3-8B-Instruct-262k-GGUF-smashed is an open-weights chat model with roughly 8 billion parameters.
by PrunaAI · 8B 参数
最佳适用场景
在 osFoundry 中使用 Llama-3-8B-Instruct-262k-GGUF-smashed 的方式
使用您自己的密钥接入(BYOK)
打开密钥对话框并粘贴您的 PrunaAI API 密钥。osFoundry 会自动发现 Llama-3-8B-Instruct-262k-GGUF-smashed——在 Pipeline 标签中将其分配给 Maestro 角色(router、direct、orchestrator 或 fallback),即可在每次对话中启用。您的密钥、您的服务商账户——零 token 加价。
部署专属端点
Llama-3-8B-Instruct-262k-GGUF-smashed 为开源权重模型——可在本地免费运行,或在您的工作区部署专属 GPU 端点以获得无速率限制的预留算力。
在 Room App 中使用
Room App 在 manifest 中声明 AI 功能,然后通过 invokeAI 调用:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
从您自己的应用中调用
模型接入工作区后,您可将其托管为 API,并从您自己的服务、脚本或 CI 中(osFoundry 之外)访问。
什么硬件可以运行 Llama-3-8B-Instruct-262k-GGUF-smashed
Llama-3-8B-Instruct-262k-GGUF-smashed 可在单张 16GB 消费级 GPU上运行(约 5 GB VRAM,含 KV-cache 余量)。全精度推理可在单张 H100 80GB 上以 FP16 精度运行(约 20 GB)。
Llama-3-8B-Instruct-262k-GGUF-smashed 与同类模型对比
许可证
未指定 — 许可证条款未指定——商业使用前请核对上游模型卡。
请查阅上游文档。
关于 Llama-3-8B-Instruct-262k-GGUF-smashed 的常见问题
Llama-3-8B-Instruct-262k-GGUF-smashed 可以免费使用吗?
Llama-3-8B-Instruct-262k-GGUF-smashed 在您自己的硬件上本地运行时可免费使用。通过 osFoundry 的托管访问按用量计费(输入 Free (local),输出 Free (local))。您可随时在本地与托管方式之间切换。
我可以将 Llama-3-8B-Instruct-262k-GGUF-smashed 用于商业用途吗?
允许有条件的商业使用。 许可证条款未指定——商业使用前请核对上游模型卡。 请查阅上游文档。
Llama-3-8B-Instruct-262k-GGUF-smashed 需要多少 VRAM?
Q4 量化下约 5 GB,FP16 全精度下约 20 GB。可在单张 24GB 消费级 GPU 上运行。
我可以在本地运行 Llama-3-8B-Instruct-262k-GGUF-smashed 吗?
可以。Llama-3-8B-Instruct-262k-GGUF-smashed 为开源权重模型,可在工作站 GPU 上本地运行。osFoundry 的本地运行时负责模型加载、量化与路由。
Llama-3-8B-Instruct-262k-GGUF-smashed 最擅长什么?
Llama-3-8B-Instruct-262k-GGUF-smashed 非常适合低延迟对话与路由, 请求路由与分诊, 文本分类。
如何在 osFoundry 中使用 Llama-3-8B-Instruct-262k-GGUF-smashed?
在密钥对话框中粘贴您的 PrunaAI API 密钥(若为可自托管的开源权重模型,则部署其权重),在 Pipeline 标签中将 Llama-3-8B-Instruct-262k-GGUF-smashed 分配给某个 Maestro 角色,然后即可在对话、通过 invokeAI 的 Room App 或您自己的应用中使用。
由 PrunaAI 发布,发布日期 2024年4月25日。 来源:https://huggingface.co/PrunaAI/Llama-3-8B-Instruct-262k-GGUF-smashed