Name: Llama 3.3 70B
Author: Meta

Question 1

Apakah Llama 3.3 70B gratis untuk digunakan?

Accepted Answer

Llama 3.3 70B gratis untuk dijalankan secara lokal pada hardware Anda sendiri. Akses ter-host melalui osFoundry dikenakan biaya (input Free (local) / $ 0.59 /1M, output Free (local) / $ 0.79 /1M). Anda dapat beralih antara lokal dan ter-host kapan saja.

Question 2

Bisakah saya menggunakan Llama 3.3 70B secara komersial?

Accepted Answer

Penggunaan komersial diizinkan dengan syarat. Mengizinkan penggunaan komersial hingga 700 juta pengguna aktif bulanan; deployment yang lebih besar memerlukan lisensi terpisah. Atribusi "Built with Llama" wajib.

Question 3

Berapa context window dari Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B mendukung context window 128K token.

Question 4

Berapa VRAM yang dibutuhkan Llama 3.3 70B?

Accepted Answer

Sekitar 42 GB pada kuantisasi Q4, atau 168 GB pada presisi FP16 penuh. Muat di satu A100/H100 80GB.

Question 5

Bisakah saya menjalankan Llama 3.3 70B secara lokal?

Accepted Answer

Ya. Llama 3.3 70B bersifat open-weights dan berjalan secara lokal di GPU workstation. Runtime lokal osFoundry menangani pemuatan model, kuantisasi, dan routing.

Question 6

Apa keunggulan utama Llama 3.3 70B?

Accepted Answer

Llama 3.3 70B sangat cocok untuk chat umum dan tanya-jawab, orkestrasi agent dengan tool use, analisis dan peringkasan dokumen panjang.

Question 7

Bagaimana cara menggunakan Llama 3.3 70B di osFoundry?

Accepted Answer

Tempelkan API key Meta Anda di dialog key (atau deploy open weights untuk model yang dapat di-self-host), tetapkan Llama 3.3 70B ke peran Maestro di tab Pipeline, lalu gunakan di chat, di Room App via invokeAI, atau di aplikasi Anda sendiri.