What is LoRA?

Abbreviation: LoRA

LoRA (Low-Rank Adaptation, ou Adaptação de Baixo Posto) faz fine-tuning de apenas um pequeno número de parâmetros "adapter" sobre um modelo base congelado, reduzindo drasticamente o custo de treinamento. O osFoundry faz fine-tuning de qualquer um dos mais de 60 modelos base de pesos abertos com LoRA em um fluxo de UI — sem notebook necessário.

Detail

Em vez de atualizar todos os parâmetros do modelo durante o fine-tuning (lento, pesado em memória), o LoRA insere pequenas matrizes treináveis nas camadas de atenção. O modelo base permanece congelado; apenas os pesos do adapter são treinados. Resultado: 100-1000× menos armazenamento, 10× menos tempo de treinamento, qualidade comparável na maioria das tarefas.

Adapters LoRA são minúsculos (~MB em vez de GB), portáteis entre deployments e empilháveis — você pode hot-swap de vários adapters em um modelo base.

How osFoundry approaches LoRA

O osFoundry treina adapters LoRA em minutos a horas, registra-os no catálogo de modelos e faz hot-swap deles em endpoints de modelo base no momento da inferência — muitos comportamentos especializados em uma única GPU compartilhada.