
Apoiado pela Linux Foundation, o novo Consórcio Ultra Ethernet visa aumentar a escala, a estabilidade e a confiabilidade das redes Ethernet para atender aos requisitos de rede de alto desempenho da IA.
Espera-se que as cargas de trabalho de IA coloquem demandas de desempenho e capacidade sem precedentes nas redes, e vários fornecedores de rede se uniram para aprimorar a tecnologia Ethernet atual, a fim de lidar com a escala e a velocidade exigidas pela IA.
CONTEÚDO RELACIONADO – Conectividade da indústria será responsável por 6,5% de incremento na receita do mercado de IoT em 2023
AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta e Microsoft anunciaram o Ultra Ethernet Consortium (UEC), um grupo hospedado pela Linux Foundation que está trabalhando para desenvolver avanços Ethernet nas camadas física, de link, de transporte e de software.
A indústria comemorou o 50º aniversário da Ethernet este ano. A marca registrada da Ethernet tem sido sua flexibilidade e adaptabilidade, e a venerável tecnologia, sem dúvida, desempenhará um papel crítico quando se trata de oferecer suporte a infraestruturas de IA. Mas há preocupações de que as interconexões de rede tradicionais de hoje não possam fornecer o desempenho, a escala e a largura de banda necessários para acompanhar as demandas de IA, e o consórcio visa abordar essas preocupações.
“As cargas de trabalho de IA são exigentes nas redes, pois são intensivas em dados e computação. As cargas de trabalho são tão grandes que os parâmetros são distribuídos por milhares de processadores. Large Language Models (LLMs) como GPT-3, Chinchilla e PALM, bem como sistemas de recomendação como DLRM [recomendação de aprendizagem profunda] e DHEN [rede de conjunto profundo e hierárquico] são treinados em clusters de muitos 1000s de GPUs que compartilham o ‘ parâmetros’ com outros processadores envolvidos na computação”, escreveu o CEO da Arista, Jayshree Ullal, em um blog sobre o novo consórcio. “Neste ciclo de computação-troca-redução, o volume de dados trocados é tão significativo que qualquer desaceleração devido a uma rede ruim/congestionada pode impactar criticamente o desempenho do aplicativo de IA.”
Historicamente, a única opção para conectar os núcleos do processador e a memória tem sido interconexões como InfiniBand, PCI Express, Remote Direct Memory Access over Ethernet e outros protocolos que conectam clusters de computação com descarregamentos, mas têm limitações quando se trata de requisitos de carga de trabalho de IA.
“Os membros fundadores do Consórcio Arista e Ultra Ethernet acreditam que é hora de reconsiderar e substituir as limitações do RDMA. O RDMA tradicional, conforme definido pela InfiniBand Trade Association (IBTA) décadas atrás, está mostrando sua idade no tráfego de rede AI/ML altamente exigente. O RDMA transmite dados em blocos de grandes fluxos, e esses grandes fluxos podem causar links desequilibrados e sobrecarregados”, escreveu Ullal.
“É hora de começar do zero para construir um protocolo de transporte moderno que suporte RDMA para aplicativos emergentes”, escreveu Ullal. “O protocolo UET (Transporte Ultra Ethernet) [do consórcio] incorporará as vantagens da Ethernet/IP enquanto aborda a escala de rede AI para aplicativos, terminais e processos, e mantém o objetivo de padrões abertos e interoperabilidade de vários fornecedores.”
Participe das comunidades IPNews no Instagram, Facebook, LinkedIn e Twitter.