Orquestração Multi-Hardware: Master & Workers

Nos módulos anteriores, transformamos seu computador em um cofre de dados e em um ouvido atento. Mas a realidade é que tarefas de IA pesadas (como transcrever 10 vídeos simultâneos ou rodar um modelo de 30GB de parâmetros) podem “engasgar” até o computador mais potente se você estiver tentando editar um vídeo em 4K ao mesmo tempo.

Este módulo ensina a Arquitetura de Distribuição. Vou te mostrar como usar o seu notebook antigo, o computador da recepção ou um servidor doméstico como “Workers” (trabalhadores) que executam as tarefas braçais enquanto você foca na estratégia na sua máquina principal (Master).

Por Que Multi-Hardware?

O maior gargalo da IA Local é o hardware. Modelos grandes exigem memória RAM e potência de GPU. Se você centraliza tudo numa única máquina, cria um ponto único de falha e de lentidão.

A arquitetura Master & Workers permite:

Produtividade Ininterrupta: A sua máquina principal fica livre para edição, atendimento ou escrita enquanto outra máquina transcreve os áudios em segundo plano.
Escalabilidade de Custo Zero: Você reaproveita hardware que já possui em vez de comprar uma máquina de R$ 50 mil.
Paralelismo Real: Você pode transcrever três reuniões diferentes ao mesmo tempo usando três máquinas simples na rede.

A Ferramenta de Conexão: Tailscale e SSH

Para que dois computadores trabalhem juntos como se fossem um só, eles precisam de um túnel de comunicação seguro e invisível. Usamos o Tailscale.

O Tailscale cria uma rede privada entre todos os seus dispositivos (Mac, iPhone, iPad, Windows) independentemente de onde eles estejam. O seu Mac Mini no escritório consegue “falar” com o seu MacBook Air na sua casa como se estivessem conectados pelo mesmo cabo.

Uma vez conectados, usamos o SSH (Secure Shell) para mandar comandos. O “Master” envia o arquivo de áudio para o “Worker”, dá a ordem de transcrever e recebe o texto de volta. Tudo automatizado via scripts.

O Fluxo Master & Worker na Prática

No dia a dia do estúdio, o fluxo funciona assim:

O Master (Mac Mini M4) detecta um novo vídeo na pasta do cliente.
O Master fatia o áudio em pequenos pedaços (chunking) para acelerar o processo.
O Master distribui esses pedaços para os Workers (MacBook Air, Mac Studio, etc.) via rede local.
Os Workers rodam o modelo local (Gemma 4 / Whisper) e devolvem os textos.
O Master costura os resultados e salva a tabela final no seu Segundo Cérebro.

Para você, o processo é invisível. Você solta o arquivo na pasta e, alguns minutos depois, a tabela aparece pronta.

Quando a máquina principal precisa ficar livre

O caso mais comum não é futurista. É bem prático.

Você está usando a máquina principal para trabalho que exige fluidez: editar vídeo, revisar layout, atender cliente, gravar aula ou escrever uma peça longa. Ao mesmo tempo, aparece uma tarefa pesada de IA: áudio extenso, diarização, lote de arquivos, revisão de acervo.

Se tudo roda no mesmo computador, a operação começa a brigar consigo mesma.

A resposta madura é separar carga.

A máquina principal continua como mesa de decisão. O worker assume o processamento pesado. Se a rede falha, o sistema precisa diagnosticar se o problema está no download, no túnel, na dependência ou no ambiente da máquina secundária. Essa checagem não precisa virar assunto público em cada detalhe, mas precisa existir no protocolo.

É aqui que a orquestração multi-hardware deixa de ser curiosidade técnica. Ela preserva o trabalho principal enquanto o sistema resolve a logística.

Como Configurar sua Primeira Dupla

Não precisa ser um engenheiro de redes. O passo a passo é direto:

Instale o Tailscale em ambas as máquinas e logue com a mesma conta.
Ative o Remote Login (SSH) nos Ajustes do Sistema do Mac que será o Worker.
Instale o Ollama no Worker e baixe o modelo necessário.
Configure a Chave SSH: Siga o protocolo de “Confiança Mútua” (ssh-copy-id) para que o Master não peça senha toda vez que enviar um arquivo.

O Exercício Deste Módulo

Se você tem um segundo computador (ou pode pedir um emprestado para testar), instale o Tailscale em ambos. Tente fazer um “Login Remoto” via terminal do seu computador principal para o secundário usando o IP do Tailscale.

ssh seuusuario@ip-do-tailscale "echo Olá do Worker"

Se o “Olá” aparecer na sua tela, você acaba de conectar suas duas máquinas em rede. É a base do sistema distribuído.

Considerações Finais

A orquestração multi-hardware é o que permite processar tarefas pesadas de IA sem comprometer a máquina principal. Ter workers dedicados garante que o sistema roda em paralelo enquanto você edita, escreve e atende clientes.

No Módulo 11, vamos aprender a dar “leitura pesada” para esses workers. Vou te mostrar como fazer o seu sistema ler e memorizar milhares de documentos PDF, e-mails e anotações antigas de uma só vez, criando uma enciclopédia particular do seu conhecimento.

A gente se vê no Módulo 11.

Glossário deste módulo

Os termos que este módulo coloca em uso. Definições completas no glossário da trilha.

Termos que este módulo integra

Apple Silicon : o chip de cada Mac da rede, Master e Workers, Módulo 8.
Inferência Local : o que cada Worker roda sem travar a máquina principal, Módulo 8.
Quantização : a escolha que define qual modelo cabe em cada hardware, Módulo 8.
ASR Local : a carga típica que se delega ao notebook antigo como Worker, Módulo 9.