Software livre · IA aberta · IFPR

FLISOL 2026
IA local
sem internet

Site de apoio da oficina. Reúne links principais, roteiro de navegação, conceitos rápidos, comandos e uma checklist para o aluno acompanhar a prática sem se perder na apresentação.

Abrir links da oficina Acompanhar prática

Mapa da oficina

Um roteiro para não virar caça ao link.

O aluno abre este site durante a oficina e segue os blocos na mesma ordem da explicação: entender o ecossistema, visitar modelos, escolher arquivo, baixar, rodar e comparar.

Ecossistema

IA generativa, modelos abertos, pesos abertos e ferramentas.

Hugging Face

Onde procurar modelos, datasets, spaces e documentação.

Model card

Como ler tamanho, licença, idioma, contexto e formato.

Quantização

Por que o mesmo modelo pode ter arquivos de tamanhos diferentes.

LM Studio

Baixar, carregar, conversar e subir servidor local.

llama.cpp

Comando, flags, servidor, contexto e desempenho.

Antes de baixar qualquer coisa

O mínimo que precisa estar claro.

Essas ideias aparecem várias vezes quando o aluno navega pelo Hugging Face ou tenta rodar um modelo localmente.

Modelo não é aplicativo

O modelo é o arquivo treinado. LM Studio e llama.cpp são ferramentas para carregar e executar esse arquivo.

modelo + executor

GGUF é o formato prático

Na oficina, GGUF é o caminho mais simples para rodar LLMs em CPU/GPU com ferramentas baseadas em llama.cpp.

arquivo local

Quantização é troca

Menos bits por peso reduzem arquivo e memória, mas podem reduzir qualidade. Q4 costuma ser bom ponto inicial.

tamanho x qualidade

Links úteis

Hugging Face sem ficar perdido.

Use a busca ou os filtros. Os links abrem em nova aba para continuar com a apresentação aberta.

Model Hub

Busca principal para encontrar modelos por tarefa, licença, biblioteca, idioma e formato.

Abrir

Tasks

Catálogo de tarefas: text generation, image-to-text, speech recognition, embeddings e mais.

Abrir

Datasets

Repositório de dados para treinar, avaliar e comparar modelos de IA.

Abrir

Spaces

Demos

Demonstrações interativas rodando no navegador, úteis para testar ideias antes de instalar algo.

Abrir

Collections

Curadoria

Coleções de modelos, datasets e spaces organizadas por tema ou autor.

Abrir

Model Cards

Docs

Referência para entender descrição, uso recomendado, limitações, licença e avaliação do modelo.

Abrir

Qwen

Modelos

Família de modelos muito usada em texto, código, visão e cenários multilíngues.

Abrir

Google Gemma

Modelos

Família aberta do Google, comum em testes locais por tamanho, qualidade e disponibilidade.

Abrir

Meta Llama

Modelos

Família influente no ecossistema de LLMs e referência frequente em ferramentas locais.

Abrir

Leaderboards

Ranking

Rankings e comparadores. Use como ponto de partida, não como verdade absoluta.

Abrir

LM Studio

Ferramenta

Aplicativo para descobrir, baixar, carregar e conversar com modelos locais.

Abrir

llama.cpp

Ferramenta

Projeto para inferência local em C/C++, usado por várias ferramentas e fluxos com GGUF.

Abrir

Leitura guiada

Como escolher um modelo sem chute.

Quando abrir uma página de modelo, procure estes pontos antes de clicar em download.

TAMANHO

3B, 7B, 14B, 32B

Quanto maior, mais memória e mais tempo de resposta. Para começar, 3B a 8B costuma ser mais seguro.

TIPO

Base, Instruct, Chat

Para conversar e seguir comandos, prefira modelos Instruct ou Chat.

FORMATO

GGUF

Para LM Studio e llama.cpp, normalmente você procura a versão GGUF quantizada.

LICENÇA

Uso permitido

Verifique se o modelo permite uso acadêmico, pessoal ou comercial, conforme sua necessidade.

Ferramenta visual

LM Studio para começar sem brigar com terminal.

Use quando o objetivo é experimentar rápido: buscar modelo, baixar, carregar, conversar e comparar respostas.

Fluxo da prática

O aluno não precisa instalar várias bibliotecas. A sequência didática é simples e mostra o funcionamento geral da IA local.

Instalar LM Studio.
Pesquisar modelo pequeno em GGUF.
Baixar quantização Q4.
Carregar e observar RAM/VRAM.
Testar temperatura, contexto e system prompt.
Subir servidor local para integração.

Download oficial Documentação

VRAM disponível

RAM do computador

Prioridade

Sugestão inicial

7B Q4

Modelo Instruct/Chat em GGUF. Bom ponto de partida para testar sem travar a máquina.

Controle fino

llama.cpp quando você quer entender o motor.

LM Studio facilita; llama.cpp mostra os botões por baixo: contexto, camadas na GPU, paralelismo, cache, batch e servidor.

comando de referência

./llama-server \
  -m /caminho/modelo.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  -ngl 99 \
  -c 4096 \
  --parallel 1

llama-server.exe ^
  -m D:\modelos\modelo.gguf ^
  --host 0.0.0.0 ^
  --port 8080 ^
  -ngl 99 ^
  -c 4096 ^
  --parallel 1

O que explicar nesse comando

-m: caminho do arquivo do modelo.
-ngl: quantas camadas vão para a GPU.
-c: tamanho do contexto da conversa.
--parallel: número de conversas simultâneas.
--host e --port: endereço do servidor local.

GitHub Docs do servidor

Acompanhamento do aluno

Checklist da prática.

Os itens marcados ficam salvos no navegador. Serve para o aluno não perder a sequência durante a oficina.

Abri o Hugging Face ModelsUsei filtros ou busca para encontrar modelos de texto. Li um model cardConferi tamanho, licença, formato, idioma e contexto. Escolhi uma versão GGUFPreferi um modelo Instruct/Chat com quantização Q4 ou Q5. Instalei ou abri o LM StudioEntendi onde buscar, baixar e carregar o modelo. Testei dois promptsComparei resposta objetiva e resposta criativa. Mexi nos parâmetrosObservei temperatura, max tokens, contexto e system prompt. Subi servidor localVi a ideia de API local compatível com aplicações. Anotei próximos passosEscolhi um modelo ou ferramenta para testar depois da oficina.

Consulta rápida

Glossário para voltar durante a oficina.

Termos que aparecem no LM Studio, no Hugging Face e nos comandos do llama.cpp.

Token

Pedaço de texto que o modelo processa. Pode ser palavra inteira, parte de palavra ou símbolo.

Contexto

Janela de texto que o modelo consegue considerar na conversa atual.

Embedding

Representação numérica de texto, usada para capturar proximidade de significado.

GGUF

Formato de arquivo usado no ecossistema llama.cpp para modelos locais.

Quantização

Redução da precisão dos pesos para diminuir arquivo e uso de memória.

System prompt

Instrução de alto nível que define comportamento, estilo e restrições do modelo.

FLISOL 2026IA localsem internet

Um roteiro para não virar caça ao link.

Ecossistema

Hugging Face

Model card

Quantização

LM Studio

llama.cpp

O mínimo que precisa estar claro.

Modelo não é aplicativo

GGUF é o formato prático

Quantização é troca

Hugging Face sem ficar perdido.

Model Hub

Tasks

Datasets

Spaces

Collections

Model Cards

Qwen

Google Gemma

Meta Llama

Leaderboards

LM Studio

llama.cpp

Como escolher um modelo sem chute.

3B, 7B, 14B, 32B

Base, Instruct, Chat

GGUF

Uso permitido

LM Studio para começar sem brigar com terminal.

Fluxo da prática

Sugestão inicial

llama.cpp quando você quer entender o motor.

O que explicar nesse comando

Checklist da prática.

Glossário para voltar durante a oficina.

Token

Contexto

Embedding

GGUF

Quantização

System prompt

FLISOL 2026
IA local
sem internet