
Nos módulos anteriores, transformamos seu computador em um cofre de dados e em um ouvido atento. Mas a realidade é que tarefas de IA pesadas (como transcrever 10 vídeos simultâneos ou rodar um modelo de 30GB de parâmetros) podem “engasgar” até o computador mais potente se você estiver tentando editar um vídeo em 4K ao mesmo tempo.
Este módulo ensina a Arquitetura de Distribuição. Vou te mostrar como usar o seu notebook antigo, o computador da recepção ou um servidor doméstico como “Workers” (trabalhadores) que executam as tarefas braçais enquanto você foca na estratégia na sua máquina principal (Master).
Por Que Multi-Hardware?
O maior gargalo da IA Local é o hardware. Modelos grandes exigem memória RAM e potência de GPU. Se você centraliza tudo numa única máquina, cria um ponto único de falha e de lentidão.
A arquitetura Master & Workers permite:
- Produtividade Ininterrupta: A sua máquina principal fica livre para edição, atendimento ou escrita enquanto outra máquina transcreve os áudios em segundo plano.
- Escalabilidade de Custo Zero: Você reaproveita hardware que já possui em vez de comprar uma máquina de R$ 50 mil.
- Paralelismo Real: Você pode transcrever três reuniões diferentes ao mesmo tempo usando três máquinas simples na rede.
A Ferramenta de Conexão: Tailscale e SSH
Para que dois computadores trabalhem juntos como se fossem um só, eles precisam de um túnel de comunicação seguro e invisível. Usamos o Tailscale.
O Tailscale cria uma rede privada entre todos os seus dispositivos (Mac, iPhone, iPad, Windows) independentemente de onde eles estejam. O seu Mac Mini no escritório consegue “falar” com o seu MacBook Air na sua casa como se estivessem conectados pelo mesmo cabo.
Uma vez conectados, usamos o SSH (Secure Shell) para mandar comandos. O “Master” envia o arquivo de áudio para o “Worker”, dá a ordem de transcrever e recebe o texto de volta. Tudo automatizado via scripts.
O Fluxo Master & Worker na Prática
No dia a dia do estúdio, o fluxo funciona assim:
- O Master (Mac Mini M4) detecta um novo vídeo na pasta do cliente.
- O Master fatia o áudio em pequenos pedaços (chunking) para acelerar o processo.
- O Master distribui esses pedaços para os Workers (MacBook Air, Mac Studio, etc.) via rede local.
- Os Workers rodam o modelo local (Gemma 4 / Whisper) e devolvem os textos.
- O Master costura os resultados e salva a tabela final no seu Segundo Cérebro.
Para você, o processo é invisível. Você solta o arquivo na pasta e, alguns minutos depois, a tabela aparece pronta.
Quando a máquina principal precisa ficar livre
O caso mais comum não é futurista. É bem prático.
Você está usando a máquina principal para trabalho que exige fluidez: editar vídeo, revisar layout, atender cliente, gravar aula ou escrever uma peça longa. Ao mesmo tempo, aparece uma tarefa pesada de IA: áudio extenso, diarização, lote de arquivos, revisão de acervo.
Se tudo roda no mesmo computador, a operação começa a brigar consigo mesma.
A resposta madura é separar carga.
A máquina principal continua como mesa de decisão. O worker assume o processamento pesado. Se a rede falha, o sistema precisa diagnosticar se o problema está no download, no túnel, na dependência ou no ambiente da máquina secundária. Essa checagem não precisa virar assunto público em cada detalhe, mas precisa existir no protocolo.
É aqui que a orquestração multi-hardware deixa de ser curiosidade técnica. Ela preserva o trabalho principal enquanto o sistema resolve a logística.
Como Configurar sua Primeira Dupla
Não precisa ser um engenheiro de redes. O passo a passo é direto:
- Instale o Tailscale em ambas as máquinas e logue com a mesma conta.
- Ative o Remote Login (SSH) nos Ajustes do Sistema do Mac que será o Worker.
- Instale o Ollama no Worker e baixe o modelo necessário.
- Configure a Chave SSH: Siga o protocolo de “Confiança Mútua” (ssh-copy-id) para que o Master não peça senha toda vez que enviar um arquivo.
O Exercício Deste Módulo
Se você tem um segundo computador (ou pode pedir um emprestado para testar), instale o Tailscale em ambos. Tente fazer um “Login Remoto” via terminal do seu computador principal para o secundário usando o IP do Tailscale.
ssh seuusuario@ip-do-tailscale "echo Olá do Worker"
Se o “Olá” aparecer na sua tela, você acaba de conectar suas duas máquinas em rede. É a base do sistema distribuído.
Considerações Finais
A orquestração multi-hardware é o que permite processar tarefas pesadas de IA sem comprometer a máquina principal. Ter workers dedicados garante que o sistema roda em paralelo enquanto você edita, escreve e atende clientes.
No Módulo 11, vamos aprender a dar “leitura pesada” para esses workers. Vou te mostrar como fazer o seu sistema ler e memorizar milhares de documentos PDF, e-mails e anotações antigas de uma só vez, criando uma enciclopédia particular do seu conhecimento.
A gente se vê no Módulo 11.
Glossário deste módulo
Os termos que este módulo coloca em uso. Definições completas no glossário da trilha.
Termos que este módulo integra
- Apple Silicon : o chip de cada Mac da rede, Master e Workers, Módulo 8.
- Inferência Local : o que cada Worker roda sem travar a máquina principal, Módulo 8.
- Quantização : a escolha que define qual modelo cabe em cada hardware, Módulo 8.
- ASR Local : a carga típica que se delega ao notebook antigo como Worker, Módulo 9.