Se você deseja lançar algo como ChatGPT e tem um computador bastante poderoso, por exemplo com uma placa de vídeo Nvidia RTX, então você pode executar o projeto ollama, que permitirá que você use um dos modelos LLM prontos em sua máquina local, totalmente grátis. ollama oferece a capacidade de se comunicar com modelos LLM, na forma do ChatGPT também na versão mais recente, foi anunciada a capacidade de ler imagens e formatar os dados de saída no formato json;
Também executei o projeto em um MacBook com processador Apple M2 e sei que os modelos mais recentes de placas de vídeo da AMD são suportados.

Para instalar no macOS, acesse o site da ollama:
https://ollama.com/download/mac
Clique em “Baixar para macOS”, você baixará um arquivo no formato ollama-darwin.zip, dentro do arquivo estará Ollama.app que precisa ser copiado para “Aplicativos”. Depois disso, inicie o Ollama.app, provavelmente o processo de instalação ocorrerá na primeira vez que você iniciá-lo. Depois disso, na bandeja você viu o ícone ollama, a bandeja fica no canto superior direito ao lado do relógio.
Depois disso, inicie um terminal macOS normal e digite o comando para baixar, instalar e executar qualquer modelo ollama. Uma lista de modelos disponíveis, descrições e suas características podem ser conferidas no site da ollama:
https://ollama.com/search
Escolha o modelo com menos parâmetros caso ele não caiba na sua placa de vídeo no lançamento.
Por exemplo, comandos para executar o modelo llama3.1:latest:
ollama run llama3.1:latest
A instalação para Windows e Linux é geralmente semelhante, em um caso haverá um instalador ollama e trabalharemos posteriormente com ele através do Powershell.
Para Linux, a instalação é feita por meio de um script, mas recomendo usar a versão do seu gerenciador de pacotes específico. No Linux, ollama também pode ser iniciado através de um terminal bash normal.
Fontes
https://www.youtube.com/watch?v=Wjrdr0NU4Sk
https://ollama.com