Llama 3.3 70B
Llama 3.3 70B(Meta, 2024)是一款 70 十亿参数 对话模型。Meta's flagship open-weights chat model. Strong reasoning, multilingual, instruction-tuned for dialog and agentic workflows.
by Meta · 70B 参数 · 128K token 上下文窗口
最佳适用场景
- 通用对话与问答
- 智能体编排与工具调用
- 长文档分析与摘要
- 多语言对话
在 osFoundry 中使用 Llama 3.3 70B 的方式
使用您自己的密钥接入(BYOK)
打开密钥对话框并粘贴您的 Meta API 密钥。osFoundry 会自动发现 Llama 3.3 70B——在 Pipeline 标签中将其分配给 Maestro 角色(router、direct、orchestrator 或 fallback),即可在每次对话中启用。您的密钥、您的服务商账户——零 token 加价。
部署专属端点
Llama 3.3 70B 为开源权重模型——可在本地免费运行,或在您的工作区部署专属 GPU 端点以获得无速率限制的预留算力。
在 Room App 中使用
Room App 在 manifest 中声明 AI 功能,然后通过 invokeAI 调用:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
从您自己的应用中调用
模型接入工作区后,您可将其托管为 API,并从您自己的服务、脚本或 CI 中(osFoundry 之外)访问。
什么硬件可以运行 Llama 3.3 70B
Llama 3.3 70B 可在Q4 量化下单张 A100 80GB 或 H100 80GB上运行(约 42 GB VRAM,含 KV-cache 余量)。全精度推理FP16 精度需要多张 H100/H200 GPU(约 168 GB)。
Llama 3.3 70B 与同类模型对比
许可证
Llama 3.3 Community Licence — commercial use under 700M MAU — 允许商业使用,月活跃用户不超过 7 亿;规模更大的部署需要单独许可。
需要 "Built with Llama" 署名。
关于 Llama 3.3 70B 的常见问题
Llama 3.3 70B 可以免费使用吗?
Llama 3.3 70B 在您自己的硬件上本地运行时可免费使用。通过 osFoundry 的托管访问按用量计费(输入 Free (local) / $ 0.59 /1M,输出 Free (local) / $ 0.79 /1M)。您可随时在本地与托管方式之间切换。
我可以将 Llama 3.3 70B 用于商业用途吗?
允许有条件的商业使用。 允许商业使用,月活跃用户不超过 7 亿;规模更大的部署需要单独许可。 需要 "Built with Llama" 署名。
Llama 3.3 70B 的上下文窗口有多大?
Llama 3.3 70B 支持 128K token 的上下文窗口。
Llama 3.3 70B 需要多少 VRAM?
Q4 量化下约 42 GB,FP16 全精度下约 168 GB。可在单张 A100/H100 80GB 上运行。
我可以在本地运行 Llama 3.3 70B 吗?
可以。Llama 3.3 70B 为开源权重模型,可在工作站 GPU 上本地运行。osFoundry 的本地运行时负责模型加载、量化与路由。
Llama 3.3 70B 最擅长什么?
Llama 3.3 70B 非常适合通用对话与问答, 智能体编排与工具调用, 长文档分析与摘要。
如何在 osFoundry 中使用 Llama 3.3 70B?
在密钥对话框中粘贴您的 Meta API 密钥(若为可自托管的开源权重模型,则部署其权重),在 Pipeline 标签中将 Llama 3.3 70B 分配给某个 Maestro 角色,然后即可在对话、通过 invokeAI 的 Room App 或您自己的应用中使用。
由 Meta 发布,发布日期 2024年12月6日。