Modelo não é aplicativo
O modelo é o arquivo treinado. LM Studio e llama.cpp são ferramentas para carregar e executar esse arquivo.
modelo + executorSite de apoio da oficina. Reúne links principais, roteiro de navegação, conceitos rápidos, comandos e uma checklist para o aluno acompanhar a prática sem se perder na apresentação.
O aluno abre este site durante a oficina e segue os blocos na mesma ordem da explicação: entender o ecossistema, visitar modelos, escolher arquivo, baixar, rodar e comparar.
IA generativa, modelos abertos, pesos abertos e ferramentas.
Onde procurar modelos, datasets, spaces e documentação.
Como ler tamanho, licença, idioma, contexto e formato.
Por que o mesmo modelo pode ter arquivos de tamanhos diferentes.
Baixar, carregar, conversar e subir servidor local.
Comando, flags, servidor, contexto e desempenho.
Essas ideias aparecem várias vezes quando o aluno navega pelo Hugging Face ou tenta rodar um modelo localmente.
O modelo é o arquivo treinado. LM Studio e llama.cpp são ferramentas para carregar e executar esse arquivo.
modelo + executorNa oficina, GGUF é o caminho mais simples para rodar LLMs em CPU/GPU com ferramentas baseadas em llama.cpp.
arquivo localMenos bits por peso reduzem arquivo e memória, mas podem reduzir qualidade. Q4 costuma ser bom ponto inicial.
tamanho x qualidadeUse a busca ou os filtros. Os links abrem em nova aba para continuar com a apresentação aberta.
Busca principal para encontrar modelos por tarefa, licença, biblioteca, idioma e formato.
Catálogo de tarefas: text generation, image-to-text, speech recognition, embeddings e mais.
Repositório de dados para treinar, avaliar e comparar modelos de IA.
Demonstrações interativas rodando no navegador, úteis para testar ideias antes de instalar algo.
Coleções de modelos, datasets e spaces organizadas por tema ou autor.
Referência para entender descrição, uso recomendado, limitações, licença e avaliação do modelo.
Família de modelos muito usada em texto, código, visão e cenários multilíngues.
Família aberta do Google, comum em testes locais por tamanho, qualidade e disponibilidade.
Família influente no ecossistema de LLMs e referência frequente em ferramentas locais.
Rankings e comparadores. Use como ponto de partida, não como verdade absoluta.
Aplicativo para descobrir, baixar, carregar e conversar com modelos locais.
Projeto para inferência local em C/C++, usado por várias ferramentas e fluxos com GGUF.
Quando abrir uma página de modelo, procure estes pontos antes de clicar em download.
Quanto maior, mais memória e mais tempo de resposta. Para começar, 3B a 8B costuma ser mais seguro.
Para conversar e seguir comandos, prefira modelos Instruct ou Chat.
Para LM Studio e llama.cpp, normalmente você procura a versão GGUF quantizada.
Verifique se o modelo permite uso acadêmico, pessoal ou comercial, conforme sua necessidade.
Use quando o objetivo é experimentar rápido: buscar modelo, baixar, carregar, conversar e comparar respostas.
O aluno não precisa instalar várias bibliotecas. A sequência didática é simples e mostra o funcionamento geral da IA local.
Modelo Instruct/Chat em GGUF. Bom ponto de partida para testar sem travar a máquina.
LM Studio facilita; llama.cpp mostra os botões por baixo: contexto, camadas na GPU, paralelismo, cache, batch e servidor.
./llama-server \ -m /caminho/modelo.gguf \ --host 0.0.0.0 \ --port 8080 \ -ngl 99 \ -c 4096 \ --parallel 1
llama-server.exe ^ -m D:\modelos\modelo.gguf ^ --host 0.0.0.0 ^ --port 8080 ^ -ngl 99 ^ -c 4096 ^ --parallel 1
Os itens marcados ficam salvos no navegador. Serve para o aluno não perder a sequência durante a oficina.
Termos que aparecem no LM Studio, no Hugging Face e nos comandos do llama.cpp.
Pedaço de texto que o modelo processa. Pode ser palavra inteira, parte de palavra ou símbolo.
Janela de texto que o modelo consegue considerar na conversa atual.
Representação numérica de texto, usada para capturar proximidade de significado.
Formato de arquivo usado no ecossistema llama.cpp para modelos locais.
Redução da precisão dos pesos para diminuir arquivo e uso de memória.
Instrução de alto nível que define comportamento, estilo e restrições do modelo.