Name: Llama 3.3 70B
Author: Meta

Question 1

Llama 3.3 70B é gratuito?

Accepted Answer

Llama 3.3 70B é gratuito para rodar localmente no seu próprio hardware. O acesso hospedado via osFoundry é medido (entrada Free (local) / $ 0.59 /1M, saída Free (local) / $ 0.79 /1M). Você pode alternar entre local e hospedado a qualquer momento.

Question 2

Posso usar Llama 3.3 70B comercialmente?

Accepted Answer

Uso comercial é permitido com condições. Permite uso comercial até 700M de usuários ativos mensais; implantações maiores requerem uma licença separada. Atribuição "Built with Llama" obrigatória.

Question 3

Qual é a janela de contexto de Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B suporta uma janela de contexto de 128K tokens.

Question 4

Quanta VRAM Llama 3.3 70B precisa?

Accepted Answer

Aproximadamente 42 GB em quantização Q4, ou 168 GB em precisão FP16 completa. Cabe em uma única A100/H100 80GB.

Question 5

Posso rodar Llama 3.3 70B localmente?

Accepted Answer

Sim. Llama 3.3 70B é open-weights e roda localmente em uma GPU de workstation. O runtime local do osFoundry cuida do carregamento, da quantização e do roteamento do modelo.

Question 6

Em que Llama 3.3 70B é melhor?

Accepted Answer

Llama 3.3 70B é bem adequado para chat geral e perguntas e respostas, orquestração de agentes com uso de ferramentas, análise e sumarização de documentos longos.

Question 7

Como uso Llama 3.3 70B no osFoundry?

Accepted Answer

Cole sua chave de API da Meta no diálogo de chaves (ou implante os pesos abertos para modelos auto-hospedáveis), atribua Llama 3.3 70B a um papel do Maestro na aba Pipeline e use-o em chats, em Room Apps via invokeAI ou nos seus próprios apps.