|
Alimentando e Refrigerando a IA e a Computação Acelerada no Data Center |
A Inteligência Artificial chegou, e chegou para ficar. \"Cada indústria se tornará uma indústria de tecnologia\", de acordo com o fundador e CEO da NVIDIA, Jensen Huang. Os casos de uso para IA são literalmente ilimitados, de inovações de vanguarda na medicina até prevenção de fraudes de alta precisão. A IA já está transformando as nossas vidas, assim como está transformando cada um dos setores da economia. Ela está também começando a transformar fundamentalmente a infraestrutura dos data centers.
As cargas de trabalho da IA estão impulsionando mudanças expressivas em como alimentamos e refrigeramos os dados processados como parte da computação de alta performance (HPC). Um rack de TI normal costumava rodar cargas de trabalho de 5 a 10 quilowatts (kW) e os racks rodando cargas maiores do que 20 kW eram considerados de alta densidade - uma ocorrência rara fora de aplicações muito específicas e com um alcance pequeno. A TI está sendo acelerada com GPUs que possam dar suporte às necessidades de computação dos modelos de IA, e esses chips de IA podem demandar ao redor de cinco vezes mais energia e cinco vezes mais capacidade1 de refrigeração no mesmo espaço do que um servidor tradicional. Mark Zuckerberg anunciou que até o final de 2024, a Meta gastará bilhões para implementar 350.000 H100 GPUs da NVIDIA. As densidades dos racks de 40 kW por rack estão agora no limite inferior do que é necessário para facilitar as implementações de TI, com densidades de racks ultrapassando 100 kW por rack se tornando um lugar comum e em grande escala em um futuro próximo.
Isso demandará grandes aumentos de capacidade em toda o trem de força, da rede elétrica aos chips em cada rack. Introduzir tecnologias de refrigeração líquida no espaço de produção do data center e, eventualmente, nas salas de servidores empresariais será um requisito para a maioria das implementações, já que os métodos tradicionais de refrigeração não serão capazes de lidar com o calor gerado paras GPUs rodando cálculos de IA. Os investimentos para atualizar a infraestrutura necessária para alimentar e refrigerar o hardware da IA são substanciais e é essencial navegar por esses novos desafios do design.
A Transição para Alta Densidade
A transição para a computação acelerada não acontecerá do dia para a noite. Os projetistas de data centers e de sala de servidores precisam buscar formas para tornar as infraestruturas de energia e de refrigeração preparadas para o futuro, levando em conta o crescimento futuro de suas cargas de trabalho. Levar alimentação suficiente para cada rack requer upgrades da rede até o rack. No espaço de produção (white space) especificamente, isso provavelmente significa barramento blindado de alta intensidade de corrente, ou amperagem, e rack PDUs de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware rodando cargas de trabalho de IA, duas tecnologias de refrigeração líquida estão surgindo como as principais opções:
1. Refrigeração líquida direta no chip: Placas frias ficam em cima dos componentes que geram calor (normalmente chips como CPUs e GPUs) para remover o calor. Fluido bombeado em uma fase ou duas fases removem o calor da placa fria e o liberam para fora do data center, trocando calor - mas não fluidos - com o chip. Isso pode remover entre 70 e 75% do calor gerado pelos equipamentos no rack, deixando de 25 a 30% que precisarão ser removidas pelos sistemas de refrigeração a ar.
2. Trocador de calor de porta traseira: Trocadores de calor ativos ou passivos substituem a porta traseira do rack de TI com serpentinas trocadoras de calor através das quais o fluido absorve o calor produzido no rack. Esses sistemas são muitas vezes combinados com outros sistemas de refrigeração como uma estratégia para manter a neutralidade da sala ou como um design de transição ao começar a jornada para a refrigeração líquida.
Embora a refrigeração líquida direta ao chip ofereça uma capacidade de refrigeração com densidade significativamente maior do que o ar, é importante observar que ainda há excesso de calor que as placas frias não podem capturar. Esse calor será rejeitado para a sala de dados a não ser que seja confinado e removido de outras maneiras, como trocadores de calor de porta traseira ou refrigeração do ar da sala. Para mais detalhes a respeito de soluções para refrigeração líquida para data centers, veja nosso white paper.
Kits Iniciais para IA - para Retrofits e Novas Construções
A alimentação e a refrigeração estão se tornando partes integrantes do design das soluções de TI na sala de dados, tornando menos evidentes os limites entre as equipes de TI e de facilities. Isso acrescenta um alto grau de complexidade no que se refere ao design, implementação e operação. Parcerias e expertise em soluções completas estão no topo da lista de requisitos para uma transição suave para densidades maiores.
Para simplificar a mudança para alta densidade, especialistas introduziram uma variedade de designs otimizados incluindo tecnologias de alimentação e de refrigeração capazes de suportar cargas de até 100 kW por rack em um conjunto de diferentes configurações de implementação.
Esses designs oferecem diversos caminhos para os integradores de sistema, provedores de colocation, provedores de serviços de nuvem ou usuários empresariais para conseguir o data center do futuro, agora. Cada instalação específica pode ter nuances com a contagem de racks e com a densidade dos racks ditadas pela seleção dos equipamentos de TI. Assim, esse conjunto de designs proporcionam uma forma intuitiva para refinar definitivamente para um design base, e customizá-lo exatamente para as necessidades da implementação.
Ao fazer um retrofit ou redirecionar ambientes existentes para IA, nossos designs otimizados ajudam a minimizar a disrupção para as cargas de trabalho existentes ao aproveitar a infraestrutura de refrigeração e a rejeição de calor disponíveis, onde for possível. Por exemplo, podemos integrar a refrigeração líquida direta ao chip com um trocador de calor de porta traseira para manter uma solução de refrigeração neutra em relação a sala. Nesse caso, o trocador de calor de porta traseira evita que o calor excessivo escape para a sala. Para uma instalação refrigerada a ar querendo acrescentar equipamentos de refrigeração líquida sem quaisquer modificações no site propriamente dito, temos disponíveis opções com design de líquido-para-ar. Essa mesma estratégia pode ser implementada para um rack único, em uma fila, ou em escala em uma implementação grande de HPC. Para designs de vários racks, também incluímos barramentos blindados com grande intensidade de corrente e rack PDUs de alta densidade para distribuir energia para cada rack.
Essas opções são compatíveis com uma variedade de diferentes opções de rejeição de calor que podem ser pareadas com refrigeração líquida. Isso estabelece uma trajetória de transição limpa e com ótimo custo-benefício para a refrigeração líquida de alta densidade sem interferir em outras cargas de trabalho na sala de dados.
*Anton Chuchkov é gerente de produto para a equipe de Soluções para TI na Vertiv. *Brad Wilson é vice-presidente de tecnologia, gerenciando o escritório de CTO na Vertiv.
|
|
|
|
|
|