Name: Llama 3.3 70B
Author: Meta

Question 1

Llama 3.3 70B è gratuito?

Accepted Answer

Llama 3.3 70B è gratuito da eseguire localmente sul suo hardware. L'accesso in hosting tramite osFoundry è a consumo (input Free (local) / $ 0.59 /1M, output Free (local) / $ 0.79 /1M). Può passare tra esecuzione locale e in hosting in qualsiasi momento.

Question 2

Posso usare Llama 3.3 70B a scopo commerciale?

Accepted Answer

L'uso commerciale è consentito a determinate condizioni. Consente l'uso commerciale fino a 700M di utenti attivi mensili; per deployment più ampi serve una licenza separata. Attribuzione "Built with Llama" richiesta.

Question 3

Qual è la finestra di contesto di Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B supporta una finestra di contesto da 128K token.

Question 4

Quanta VRAM richiede Llama 3.3 70B?

Accepted Answer

Circa 42 GB con quantizzazione Q4, o 168 GB in piena precisione FP16. Entra in una singola A100/H100 da 80GB.

Question 5

Posso eseguire Llama 3.3 70B localmente?

Accepted Answer

Sì. Llama 3.3 70B è open-weights e si esegue localmente su una GPU da workstation. Il runtime locale di osFoundry gestisce il caricamento del modello, la quantizzazione e il routing.

Question 6

In che cosa eccelle Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B è particolarmente adatto a chat generica e domande/risposte, orchestrazione di agenti con uso di tool, analisi e riepilogo di documenti lunghi.

Question 7

Come utilizzo Llama 3.3 70B in osFoundry?

Accepted Answer

Incolli la sua API key Meta nella finestra delle chiavi (oppure distribuisca i pesi aperti per i modelli auto-ospitabili), assegni Llama 3.3 70B a un ruolo Maestro nella scheda Pipeline, quindi lo utilizzi in chat, nelle Room App tramite invokeAI o nelle sue applicazioni.