Software livre · IA aberta · IFPR

FLISOL 2026
IA local
sem internet

Site de apoio da oficina. Reúne links principais, roteiro de navegação, conceitos rápidos, comandos e uma checklist para o aluno acompanhar a prática sem se perder na apresentação.

Mapa da oficina

Um roteiro para não virar caça ao link.

O aluno abre este site durante a oficina e segue os blocos na mesma ordem da explicação: entender o ecossistema, visitar modelos, escolher arquivo, baixar, rodar e comparar.

Ecossistema

IA generativa, modelos abertos, pesos abertos e ferramentas.

Hugging Face

Onde procurar modelos, datasets, spaces e documentação.

Model card

Como ler tamanho, licença, idioma, contexto e formato.

Quantização

Por que o mesmo modelo pode ter arquivos de tamanhos diferentes.

LM Studio

Baixar, carregar, conversar e subir servidor local.

llama.cpp

Comando, flags, servidor, contexto e desempenho.

Antes de baixar qualquer coisa

O mínimo que precisa estar claro.

Essas ideias aparecem várias vezes quando o aluno navega pelo Hugging Face ou tenta rodar um modelo localmente.

01

Modelo não é aplicativo

O modelo é o arquivo treinado. LM Studio e llama.cpp são ferramentas para carregar e executar esse arquivo.

modelo + executor
02

GGUF é o formato prático

Na oficina, GGUF é o caminho mais simples para rodar LLMs em CPU/GPU com ferramentas baseadas em llama.cpp.

arquivo local
03

Quantização é troca

Menos bits por peso reduzem arquivo e memória, mas podem reduzir qualidade. Q4 costuma ser bom ponto inicial.

tamanho x qualidade
Links úteis

Hugging Face sem ficar perdido.

Use a busca ou os filtros. Os links abrem em nova aba para continuar com a apresentação aberta.

Model Hub

HF

Busca principal para encontrar modelos por tarefa, licença, biblioteca, idioma e formato.

Abrir

Tasks

HF

Catálogo de tarefas: text generation, image-to-text, speech recognition, embeddings e mais.

Abrir

Datasets

HF

Repositório de dados para treinar, avaliar e comparar modelos de IA.

Abrir

Spaces

Demos

Demonstrações interativas rodando no navegador, úteis para testar ideias antes de instalar algo.

Abrir

Collections

Curadoria

Coleções de modelos, datasets e spaces organizadas por tema ou autor.

Abrir

Model Cards

Docs

Referência para entender descrição, uso recomendado, limitações, licença e avaliação do modelo.

Abrir

Qwen

Modelos

Família de modelos muito usada em texto, código, visão e cenários multilíngues.

Abrir

Google Gemma

Modelos

Família aberta do Google, comum em testes locais por tamanho, qualidade e disponibilidade.

Abrir

Meta Llama

Modelos

Família influente no ecossistema de LLMs e referência frequente em ferramentas locais.

Abrir

Leaderboards

Ranking

Rankings e comparadores. Use como ponto de partida, não como verdade absoluta.

Abrir

LM Studio

Ferramenta

Aplicativo para descobrir, baixar, carregar e conversar com modelos locais.

Abrir

llama.cpp

Ferramenta

Projeto para inferência local em C/C++, usado por várias ferramentas e fluxos com GGUF.

Abrir
Leitura guiada

Como escolher um modelo sem chute.

Quando abrir uma página de modelo, procure estes pontos antes de clicar em download.

TAMANHO

3B, 7B, 14B, 32B

Quanto maior, mais memória e mais tempo de resposta. Para começar, 3B a 8B costuma ser mais seguro.

TIPO

Base, Instruct, Chat

Para conversar e seguir comandos, prefira modelos Instruct ou Chat.

FORMATO

GGUF

Para LM Studio e llama.cpp, normalmente você procura a versão GGUF quantizada.

LICENÇA

Uso permitido

Verifique se o modelo permite uso acadêmico, pessoal ou comercial, conforme sua necessidade.

Ferramenta visual

LM Studio para começar sem brigar com terminal.

Use quando o objetivo é experimentar rápido: buscar modelo, baixar, carregar, conversar e comparar respostas.

Fluxo da prática

O aluno não precisa instalar várias bibliotecas. A sequência didática é simples e mostra o funcionamento geral da IA local.

  • Instalar LM Studio.
  • Pesquisar modelo pequeno em GGUF.
  • Baixar quantização Q4.
  • Carregar e observar RAM/VRAM.
  • Testar temperatura, contexto e system prompt.
  • Subir servidor local para integração.

Sugestão inicial

7B Q4

Modelo Instruct/Chat em GGUF. Bom ponto de partida para testar sem travar a máquina.

Controle fino

llama.cpp quando você quer entender o motor.

LM Studio facilita; llama.cpp mostra os botões por baixo: contexto, camadas na GPU, paralelismo, cache, batch e servidor.

comando de referência
./llama-server \
  -m /caminho/modelo.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -ngl 99 \
  -c 4096 \
  --parallel 1

O que explicar nesse comando

  • -m: caminho do arquivo do modelo.
  • -ngl: quantas camadas vão para a GPU.
  • -c: tamanho do contexto da conversa.
  • --parallel: número de conversas simultâneas.
  • --host e --port: endereço do servidor local.
Acompanhamento do aluno

Checklist da prática.

Os itens marcados ficam salvos no navegador. Serve para o aluno não perder a sequência durante a oficina.

Consulta rápida

Glossário para voltar durante a oficina.

Termos que aparecem no LM Studio, no Hugging Face e nos comandos do llama.cpp.

Token

Pedaço de texto que o modelo processa. Pode ser palavra inteira, parte de palavra ou símbolo.

Contexto

Janela de texto que o modelo consegue considerar na conversa atual.

Embedding

Representação numérica de texto, usada para capturar proximidade de significado.

GGUF

Formato de arquivo usado no ecossistema llama.cpp para modelos locais.

Quantização

Redução da precisão dos pesos para diminuir arquivo e uso de memória.

System prompt

Instrução de alto nível que define comportamento, estilo e restrições do modelo.

Copiado