Você pode ter lido, assistido e/ou ouvido por aí ao longo desta semana que o DeepSeek mostrou custo-benefício revolucionário. O que surpreendeu foi a inteligência artificial (IA) chinesa ser tão boa – ou quase tão boa – quanto o ChatGPT tendo custado muito menos para ser desenvolvida. A cifra que circulou: OpenAI gastou US$ 60 milhões para criar o ChatGPT, enquanto a DeepSeek gastou US$ 6 milhões para desenvolver sua IA. Mas não é bem assim, segundo especialistas.

Vale explicar: o que a DeepSeek lançou neste mês é revolucionário, sim. Mas no calor do momento, informações se diluíram – seja na mídia, seja nas redes sociais. Por isso, é importante sentar, respirar fundo e assimilar, com calma, o que importa no lançamento da startup. E por que importa.

Para te ajudar a entender isso, o Olhar Digital conversou com Roberto “Pena” Spinelli. Além de colunista do Olhar Digital News, Spinelli é físico pela USP, com especialidade em Machine Learning pela Universidade Stanford (EUA) e pesquisador na área de IA. A reportagem também consultou artigos, postagens e entrevistas com outros especialistas sobre as cifras por trás do DeepSeek (os links estão distribuídos ao longo desta reportagem).

O custo de US$ 6 milhões existe no desenvolvimento do DeepSeek, mas é parte do todo

Se você acessar o DeepSeek agora, vai notar um pequeno botão, abaixo de onde você digita seu comando (prompt), escrito “DeepThink (R1)“. Este é o nome do “motor” atual da IA chinesa, lançado em 22 de janeiro. E ele não foi o primeiro da startup. Este foi o DeepSeek V3 – disponibilizado no Natal de 2024, veja você.

Tela inicial do DeepSeek em um smartphone
“Motor” atual do DeepSeek é o DeepThink R1, segundo lançado pela startup chinesa (Imagem: Poetra.RH/Shutterstock)

“O V3 é o que custou seis milhões de dólares no treinamento. A fase de pré-treinamento foi o que custou esse valor”, explica Spinelli ao Olhar Digital. O pesquisador cita um vídeo (em inglês) publicado por Wes Roth no YouTube no qual especialistas validam essa estimativa.

Após lançar o DeepSeek V3, a startup chinesa começou a treinar o modelo R1 – seu modelo capaz de “raciocinar”. “Eles usaram a base do V3, não treinaram do zero”, diz Spinelli. “O R1 é, basicamente, pegar o mesmo modelo, o V3, e fazer um pós-treinamento em cima.”


O que foi divulgado oficialmente foi o custo do treinamento do V3: 6 milhões de dólares. Mas é óbvio que há vários outros custos para operar uma empresa. O custo da pesquisa do R1 não foi divulgado.

Roberto “Pena” Spinelli, físico pela USP com especialidade em Machine Learning pela Universidade Stanford (EUA) e pesquisador na área de IA, em entrevista ao Olhar Digital

O comentário de Martin Vechev, diretor do Instituto de Ciências da Computação, Inteligência Artificial e Tecnologia (INSAIT) da Bulgária, publicado no site Recursive, complementa a fala de Spinelli.

“Ela [a estimativa de custo de US$ 6 milhões] vem da alegação de que 2.048 GPUs H800 [da Nvidia] foram usadas para um treinamento”, diz Vechev. “Desenvolver tal modelo, no entanto, requer executar esse treinamento, ou uma variação dele, várias vezes, além de muitos outros experimentos. Isso faz com que o custo seja várias vezes maior, sem contar a coleta de dados e outras coisas, um processo que pode ser muito caro.”

(Saiba mais sobre o treinamento do DeepSeek – isto é, seu “molho secreto” – nesta matéria do Olhar Digital.)

Diferença de custo entre DeepSeek e ChatGPT

O post abaixo, publicado por Fabrício Carraro (“autor de IA e host dos podcasts Dev Sem Fronteiras e IA Sob Controle”, segundo sua bio) no X, compara o que se sabe das cifras por trás do R1 da DeepSeek e o1 da OpenAI:

Já este post, publicado por pelo especialista Gavin Baker, analisa o desenvolvimento do DeepSeek e seus custos de tal forma que até Elon Musk ficou impressionado.

“Ainda assim, mesmo considerando um custo maior, parece que o DeepSeek conseguiu treinar o modelo por um valor muito inferior ao das empresas ocidentais“, aponta Spinelli.

A cifra de seis milhões de dólares, por si só, não significa muito, pois há outros custos. Mas, mesmo levando isso em conta, parece que eles conseguiram operar com um orçamento muito menor do que as big techs e, ainda assim, desenvolver um modelo competitivo. Essa é a grande vantagem.

Roberto “Pena” Spinelli, físico pela USP com especialidade em Machine Learning pela Universidade Stanford (EUA) e pesquisador na área de IA, em entrevista ao Olhar Digital

Leia mais:

O que realmente importa no DeepSeek

Apesar do ruído em relação aos custos do treinamento da inteligência artificial chinesa, não é exagero dizer que a DeepSeek mudou tudo no mundo da IA.


Ícones dos aplicativos do ChatGPT e do DeepSeek na tela inicial de iPhone
O que importa nesta história: o custo de uso do DeepSeek é menor em comparação ao ChatGPT (Imagem: Poetra.RH/Shutterstock)

“O que foi revolucionário no que eles fizeram foi o uso de reinforcement learning (aprendizado por reforço)”, diz Spinelli. “Eles aplicaram essa técnica pura, em vez de usar um fine-tuning supervisionado com dados rotulados.”

Outro ponto destacado pelo especialista é o custo da inferência – isto é, o custo para usar a IA chinesa ao gerar respostas. “O custo de inferência do DeepSeek parece ser mais baixo. Isso, para mim, é o mais impressionante”, diz. E ele vai além: “Acho que o custo do treinamento é o menos relevante. O mais importante é o custo de uso.”

Por fim, Spinelli destaca a disponibilização das informações sobre o desenvolvimento do DeepSeek. “Diferente de outras empresas, como OpenAI e Google, que publicam poucos detalhes técnicos, a equipe do DeepSeek divulgou todos os artigos científicos no lançamento do modelo.”

O especialista conclui: “As técnicas que eles usaram são realmente inovadoras. E ainda disponibilizaram tudo como open source. Isso representa uma mudança de paradigma e de consciência na área de inteligência artificial.”

Ficou curioso? Você pode se aventurar nos artigos publicados pela DeepSeek, em inglês, clicando aqui e aqui. Se não estiver afim de ler, vale conferir a coluna de Spinelli desta semana no Olhar Digital News, no qual ele falou sobre a IA chinesa, e esta parte da entrevista publicada pelo Meio na quinta-feira (30), sobre os custos do DeepSeek.