Startup de IA Cerebras constrói um gigantesco computador de IA para a G42 de Abu Dhabi com 27 milhões de núcleos de IA

A máquina está focada no "treinamento" de redes neurais

Jul 24, 2023

Fonte: https://www.zdnet.com/article/ai-startup-cerebras-built-a-gargantuan-ai-computer-for-abu-dhabis-g42-with-27-million-ai-cores/

O fervor em torno da inteligência artificial "não é uma coisa do Vale do Silício, nem mesmo dos EUA, agora é em todo o mundo - é um fenômeno global", de acordo com Andrew Feldman, co-fundador e CEO da startup de computação de IA, Cerebras Systems.

Nesse espírito, a Cerebras anunciou na quinta-feira que contratou para construir o que chama de "o maior supercomputador do mundo para IA", chamado Condor Galaxy, em nome de seu cliente, G42, uma empresa de investimentos de cinco anos com sede em Abu Dhabi, nos Emirados Árabes Unidos.

A máquina está focada no "treinamento" de redes neurais, a parte do aprendizado de máquina em que as configurações de uma rede neural, seus "parâmetros" ou "pesos", precisam ser ajustados a um nível em que são suficientes para a segunda etapa, fazendo previsões, conhecida como a etapa de "inferência".

Condor Galaxy é o resultado, disse Feldman, de meses de colaboração entre Cerebras e G42, e é o primeiro grande anúncio de sua parceria estratégica.

O contrato inicial vale mais de cem milhões de dólares para a Cerebras, Feldman disse à ZDNET em uma entrevista. Isso vai se expandir, em última análise, várias vezes, para centenas de milhões de dólares em receita, à medida que a Cerebras constrói o Condor Galaxy em várias etapas.

Condor Galaxy recebeu o nome de um sistema cosmológico localizado a 212 milhões de anos-luz da Terra. Em sua configuração inicial, chamada CG-1, a máquina é composta por 32 dos computadores de IA de propósito especial da Cerebras, o CS-2, cujos chips, o "Wafer-Scale-Engine", ou WSE, coletivamente possuem um total de 27 milhões de núcleos de computação, 41 terabytes de memória e 194 trilhões de bits por segundo de largura de banda. Eles são supervisionados por 36.352 dos processadores de servidor x86 EPYC da AMD.

A máquina funciona a 2 exa-flops, ou seja, pode processar um bilhão de bilhões de operações de ponto flutuante por segundo.

A grandiosidade é a última instância de grandeza da Cerebras, fundada em 2016 por empreendedores e inovadores experientes em semicondutores e redes. A empresa surpreendeu o mundo em 2019 com a revelação do WSE, o maior chip já feito, um chip que ocupa quase toda a superfície de um wafer de semicondutor de 12 polegadas. É o WSE-2, introduzido em 2021, que alimenta as máquinas CS-2.

Os CS-2s no CG-1 são complementados pelo switch "fabric" de propósito especial da Cerebras, o Swarm-X, e seu hub de memória dedicado, o Memory-X, que são usados para agrupar os CS-2s.

A alegação de ser o maior supercomputador para IA é um tanto hiperbólica, pois não há um registro geral para o tamanho dos computadores de IA. A medida comum de supercomputadores, a lista TOP500, mantida pela Prometeus GmbH, é uma lista de supercomputadores convencionais usados para a chamada computação de alto desempenho.

Essas máquinas não são comparáveis, disse Feldman, porque trabalham com o que é chamado de precisão de 64 bits, onde cada operando, o valor a ser trabalhado pelo computador, é representado ao computador por sessenta e quatro bits. O sistema Cerebras representa dados em uma forma mais simples chamada "FP-16", usando apenas dezesseis bits para cada sistema.

Em máquinas de classe de precisão de 64 bits, Frontier, um supercomputador do Departamento de Energia dos EUA no Oak Ridge National Laboratory, é o supercomputador mais poderoso do mundo, funcionando a 1,19 exa-flops. Mas não pode ser comparado diretamente ao CG-1 a 2 exa-flops, disse Feldman.

Certamente, a pura computação do CG-1 é diferente de muitos computadores no planeta que se pode pensar. "Pense em um único computador com mais poder de computação do que meio milhão de MacBooks da Apple trabalhando juntos para resolver um único problema em tempo real", ofereceu Feldman.

A máquina Condor Galaxy não está fisicamente em Abu Dhabi, mas sim instalada nas instalações da Colovore, com sede em Santa Clara, Califórnia, um provedor de hospedagem que compete no mercado de serviços em nuvem com empresas como Equinix. A Cerebras anunciou anteriormente em novembro uma parceria com a Colovore para um supercomputador modular chamado 'Andromeda' para acelerar grandes modelos de linguagem.

Como parte da parceria de vários anos, Condor Galaxy escalará através da versão CG-9, disse Feldman. A Fase 2 da parceria, esperada para o quarto trimestre deste ano, dobrará a pegada do CG-1 para 64 CS-2s, com um total de 54 milhões de núcleos de computação, 82 terabytes de memória e 388 teraflops de largura de banda. Essa máquina dobrará a taxa de transferência para 4 exa-flops de computação.

Juntando tudo, na fase 4 da parceria, a ser entregue no segundo semestre de 2024, a Cerebras juntará o que chama de "constelação" de nove sistemas interconectados, cada um funcionando a 4 exa-flops, para um total de 36 exa-flops de capacidade, em sites ao redor do mundo, para fazer o que chama de "o maior supercomputador de IA interconectado do mundo".

"Este é o primeiro de quatro máquinas exa-flop que estamos construindo para a G42 nos EUA", explicou Feldman, "E então vamos construir mais seis ao redor do mundo, para um total de nove máquinas interconectadas, quatro exa-flops cada, produzindo 36 exa-flops."

A máquina é a primeira vez que a Cerebras não está apenas construindo um sistema de computadores em cluster, mas também operando-o para o cliente. A parceria oferece à Cerebras várias vias para receita como resultado.

A parceria escalará para centenas de milhões de dólares em vendas diretas para a G42 pela Cerebras, disse Feldman, à medida que avança pelas várias fases da parceria.

"Não apenas este contrato é maior do que todas as outras startups venderam, combinadas, ao longo de suas vidas, mas é destinado a crescer não apenas além dos cem milhões [de dólares] que está agora, mas duas ou três vezes além disso", disse ele, aludindo a startups de IA concorrentes, incluindo Samba Nova Systems e Graphcore.

Além disso, "Juntos, revendemos o excesso de capacidade através de nossa nuvem", ou seja, permitindo que outros clientes da Cerebras aluguem capacidade no CG-1 quando não estiver em uso pela G42. A parceria "dá à nossa nuvem uma escala profundamente nova, obviamente", disse ele, de modo que "agora temos a oportunidade de buscar supercomputadores de IA dedicados como um serviço."

Isso significa que quem quiser capacidade de computação de IA na nuvem poderá "pular em um dos maiores supercomputadores do mundo por um dia, uma semana, um mês, se quiser."

As ambições para a IA parecem ser tão grandes quanto a máquina. "Nos próximos 60 dias, vamos anunciar alguns modelos muito, muito interessantes que foram treinados no CG-1", disse Feldman.

G42 é um conglomerado global, observa Feldman, com cerca de 22.000 funcionários, em vinte e cinco países, e com nove empresas operacionais sob seu guarda-chuva. A subsidiária G42 Cloud da empresa opera a maior nuvem regional do Oriente Médio.

"G42 e Cerebras compartilham a visão de que o Condor Galaxy será usado para enfrentar os desafios mais prementes da sociedade em saúde, energia, ação climática e muito mais", disse Talal Alkaissi, CEO da G42 Cloud, em comentários preparados.

Uma joint venture entre G42 e a empresa de investimentos de Abu Dhabi, Mubadala Investments. Co., M42, é um dos maiores sequenciadores de genomas do mundo.

"Eles são pioneiros no uso de IA e aplicações de saúde em toda a Europa e Oriente Médio", observou Feldman sobre G42. A empresa produziu 300 publicações de IA nos últimos 3 anos.

"Eles [G42] queriam alguém que tivesse experiência na construção de supercomputadores de IA muito grandes, e que tivesse experiência no desenvolvimento e implementação de grandes modelos de IA, e que tivesse experiência na manipulação e gerenciamento de conjuntos de dados muito grandes", disse Feldman, "E essas são todas as coisas que nós, nós tínhamos, meio que, realmente aprimorado nos últimos nove meses."

As máquinas CG-1, Feldman enfatizou, serão capazes de escalar para modelos de redes neurais cada vez maiores sem incorrer em muitas vezes a quantidade adicional de código necessário.

"Um dos elementos-chave da tecnologia é que ela permite que clientes como G42, e seus clientes, obtenham rapidamente benefícios de nossas máquinas", disse Feldman.

Em uma apresentação de slides, ele enfatizou como uma rede neural de 1 bilhão de parâmetros, como o GPT da OpenAI, pode ser colocada em um único chip GPU Nvidia com 1.200 linhas de código. Mas para escalar a rede neural para um modelo de 40 bilhões de parâmetros, que roda em 28.415 GPUs Nvidia, a quantidade de código necessário para ser implantado infla para quase 30.000 linhas, disse Feldman.

Para um sistema CS-2, no entanto, um modelo de 100 bilhões de parâmetros pode ser executado com as mesmas 1.200 linhas de código.

"Se você quiser colocar um modelo de 40 bilhões ou 100 bilhões de parâmetros, ou um modelo de 500 bilhões de parâmetros, você usa exatamente as mesmas 1.200 linhas de código", explicou Feldman. "Isso é realmente um diferenciador central, é que você não precisa fazer isso", escrever mais código, ele disse.

Para Feldman, a escala da última criação representa não apenas a grandeza em si, mas uma tentativa de ter resultados qualitativamente diferentes ao escalar do maior chip para os maiores sistemas em cluster.

"Você sabe, quando começamos a empresa, você acha que pode ajudar a mudar o mundo construindo computadores legais", refletiu Feldman. "E no decorrer dos últimos sete anos, construímos computadores cada vez maiores e maiores, e alguns dos maiores.

"Agora estamos em um caminho para construir, meio que, inimaginavelmente grande, e isso é incrível, caminhar pelo data center e ver rack após rack de seu equipamento zumbindo."

Ouça também nosso Podcast

Apple Podcasts

Spotify

Canal do Youtube

Be Tech AI - Inteligência Artificial

Discussion about this post