Inovações aceleradas para Sustentabilidade, Open HPC

/content/dam/www/central-libraries/us/en/images/axg-jeff-mcveigh-1080.jpg.rendition.intel.web.480.480.jpg

Jeff McVeigh

Vice president

General manager of the Super Compute Group

Por Jeff McVeigh

À medida que embarcamos na era exascalar e corremos em direção à zettascale, a contribuição da indústria de tecnologia para as emissões globais de carbono também está crescendo. Estima-se que até 2030, entre 3% e 7%¹ da produção global de energia será consumida por data centers, sendo a infraestrutura computacional um dos principais impulsionadores do novo uso de eletricidade.

Este ano, a Intel se comprometeu a alcançar emissões líquidas de gases de efeito estufa em nossas operações globais até 2040 e desenvolver soluções tecnológicas mais sustentáveis. Acompanhar as demandas insaciáveis para a computação, ao mesmo tempo em que cria um futuro sustentável, é um dos maiores desafios para a computação de alto desempenho (HPC). Embora assustador, é possível se abordarmos cada parte da pilha de computação HPC – silício, software e sistemas.

Este é o coração da minha palestra no ISC 2022 em Hamburgo, Alemanha. (Veja o replay no topo desta página.)

Comece com arquitetura computacional silício e heterogênea

Temos um roteiro agressivo do HPC planejado até 2024 que fornecerá um portfólio diversificado de arquiteturas heterogêneas. Essas arquiteturas nos permitirão melhorar o desempenho por ordens de magnitude, reduzindo as demandas de energia em cargas de trabalho de propósito geral e emergentes, como IA, criptografia e análises.

O processador Intel® Xeon® codinome Sapphire Rapids com Memória de Alta Largura de Banda (HBM) é um ótimo exemplo de como estamos aproveitando tecnologias avançadas de embalagem e inovações de silício para trazer desempenho substancial, largura de banda e melhorias de economia de energia para o HPC. Com até 64 gigabytes de memória HBM2e de alta largura de banda no pacote e aceleradores integrados à CPU, somos capazes de liberar cargas de trabalho ligadas à largura de banda de memória, ao mesmo tempo em que oferecemos melhorias significativas de desempenho nos principais casos de uso do HPC. Ao comparar processadores Intel® Xeon® Scalable de 3ª geração com os próximosprocessadores HBM do Sapphire Rapids,estamos vendo aumentos de desempenho de duas a três vezes em todas as cargas de trabalho de pesquisa meteorológica, energia, fabricação e física². Na palestra, o CTO de Ansys, Prith Banerjee, também mostra que o HBM Sapphire Rapids oferece um aumento de desempenho de até 2x nas cargas de trabalho do mundo real da Ansys Fluent e do ParSeNet³.

A densidade computacional é outro imperativo à medida que pressionamos por ordens de ganhos de desempenho de magnitude em cargas de trabalho de supercomputação de HPC e IA. Nossa primeira unidade de processamento gráfico (GPU) de data center da Intel, codinome Ponte Vecchio, já está superando a concorrência por aplicativos complexos de serviços financeiros e inferência de IA e cargas de trabalho de treinamento. Também mostramos que Ponte Vecchio está acelerando a simulação de alta fidelidade em 2x com o OpenMC⁴.

Não vamos parar aqui. Hoje estamos anunciando nosso sucessor para esta GPU de data center, codinome Ponte Rialto. Ao evoluir a arquitetura Ponte Vecchio e combinar telhas aprimoradas com a tecnologia de nó de próximo processo, a Ponte Rialto oferecerá uma densidade, desempenho e eficiência significativamente maiores, ao mesmo tempo em que fornecerá consistência de software.

Durante a Conferência Internacional de Supercomputação em 31 de maio de 2022, em Hamburgo, Alemanha, Jeff McVeigh, vice-presidente e gerente geral do Super Compute Group da Intel Corporation, anunciou a Rialto Bridge, unidade de processamento gráfico (GPU) do data center da Intel. Usando a mesma arquitetura da GPU do data center Intel Ponte Vecchio e combinando telhas aprimoradas com o próximo nó de processo da Intel, a Rialto Bridge oferecerá até 160 núcleos Xe, mais FLOPs, mais largura de banda I/O e limites mais altos de TDP para maior densidade, desempenho e eficiência. (Crédito: Intel Corporation)

Baixe a imagem completa

Olhando para frente, Falcon Shores é a próxima grande inovação de arquitetura em nosso roteiro, trazendo as arquiteturas x86 CPU e X^e GPU juntas em um único soquete. Esta arquitetura é voltada para 2024 e projetada para oferecer benefícios de mais de 5x desempenho por watt, densidade computacional de 5x, capacidade de memória 5x e melhorias na largura de banda⁵.

Durante a Conferência Internacional de Supercomputação em 31 de maio de 2022, em Hamburgo, Alemanha, Jeff McVeigh, vice-presidente e gerente geral do Super Compute Group na Intel Corporation, apresentou Falcon Shores. A próxima grande inovação de arquitetura no roteiro da Intel traz a GPU X86 e XE juntas em um único soquete. (Crédito: Intel Corporation)

Baixe a imagem completa

Princípios de uma estratégia de software bem-sucedida: Open, Choice, Trust

Silício é apenas areia sem software para trazê-lo à vida. Nossa abordagem para o software é facilitar o desenvolvimento aberto em toda a pilha e fornecer ferramentas, plataformas e IP de software para ajudar os desenvolvedores a serem mais produtivos e produzir códigos escaláveis, de melhor desempenho e mais eficientes que possam aproveitar as últimas inovações de silício sem o ônus de refatorar o código. A iniciativa do setor oneAPI fornece aos desenvolvedores do HPC uma programação de arquitetura cruzada para que o código possa ser direcionado para CPUs, GPUs e outros aceleradores especializados de forma transparente e portal.

Durante a Conferência Internacional de Supercomputação em 31 de maio de 2022, em Hamburgo, Alemanha, Jeff McVeigh, vice-presidente e gerente geral do Super Compute Group da Intel Corporation, mostrou que a abordagem da Intel para o software é facilitar o desenvolvimento aberto em toda a pilha e fornecer ferramentas, plataformas e IP de software para ajudar os desenvolvedores a serem mais produtivos e produzirem escaláveis, código mais eficiente e de melhor desempenho que pode tirar proveito das últimas inovações de silício sem o ônus de refazer o código. (Crédito: Intel Corporation)

Baixe a imagem completa

Existem hoje mais de 20 Centros de Excelência da AAPI em instituições líderes em pesquisa e acadêmicos em todo o mundo, e eles estão fazendo progressos significativos. Por exemplo, Simon McIntosh-Smith e sua equipe no Departamento de Ciência da Universidade de Bristol estão desenvolvendo as melhores práticas para alcançar a portabilidade de desempenho em exascale usando a oneAPI e a camada de abstração SYCL do Grupo Khronos para programação de arquitetura cruzada. Seu trabalho garantirá que o código científico possa alcançar alto desempenho em sistemas de supercomuta heterogêneo maciços em todo o mundo.

Unindo: Sistemas para computação heterogênea sustentável

À medida que as cargas de trabalho do data center e do HPC se movem cada vez mais em direção a arquiteturas desagregadas e computação heterogênea, precisaremos de ferramentas que possam nos ajudar a gerenciar de forma eficaz esses complexos e diversos ambientes de computação.

Hoje, estamos introduzindo o Intel® XPU Manager, uma solução de código aberto para monitorar e gerenciar GPUs de data center intel local e remotamente. Ele foi projetado para simplificar a administração, para maximizar a confiabilidade e o tempo de atividade, executando diagnósticos abrangentes, para melhorar a utilização e para executar atualizações de firmware.

Um sistema de arquivos DAOS (Distributed Asynchronous Object Storage, armazenamento de objetos assíncronso distribuído) fornece otimizações em nível de sistema para as tarefas de fome de energia de mover e armazenar dados. O DAOS tem um enorme impacto no desempenho do sistema de arquivos, tanto melhorando o tempo geral de acesso quanto reduzindo a capacidade necessária para o armazenamento para reduzir as pegadas do data center e aumentar a eficiência energética. Em resultados de I/O 500 relativos ao Lustre, o DAOS obteve um aumento de 70x⁶ no desempenho do sistema de arquivos de gravação dura.

Abordando o Desafio de Sustentabilidade do HPC

Estamos orgulhosos de fazer parcerias com clientes com mentes semelhantes e instituições de pesquisa líderes em todo o mundo para alcançar um HPC mais sustentável e aberto. Exemplos recentes incluem nossa parceria com o Centro de Supercomputação de Barcelona para criar um pioneiro laboratório de zettascale RISC-V, e nossa colaboração contínua com a Universidade de Cambridge e a Dell para evoluir o atual Laboratório Exascale para o novo Cambridge Zettascale Lab. Esses esforços baseiam-se em nossos planos para criar um robusto ecossistema de inovação da UE para o futuro da computação.

A questão é que nenhuma empresa pode fazer isso sozinha. Todo o ecossistema precisa se inclinar igualmente, através da fabricação, silício, interconexão, software e sistemas. Fazendo isso juntos, podemos transformar um dos maiores desafios do HPC do século na oportunidade do século – e mudar o mundo para as gerações futuras.

Jeff McVeigh é vice-presidente e gerente geral do Super Compute Group na Intel Corporation.

Avisos e avisos:

¹ Hipóteses de Andrae para uso primário de energia, uso de eletricidade e emissões de CO2 da computação global e sua participação no total entre 2020 e 2030, WSEAS Trans Power Syst, 15 (2020)

² Como medido pelo seguinte:

Cloverleaf

Teste pela Intel a partir de 26/04/2022. 1-node, 2x CPU Intel® Xeon® Platinum 8360Y, 72 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, botões de construção: -xCORE-AVX512 –qopt-zmm-use=high
Teste pela Intel a partir de 19/04/22. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versão 5.16, ifort 2021.5, Intel MPI 2021.5.1, botões de compilação: -xCORE-AVX512 –qopt-zmm-use=high

OpenFOAM

Teste pela Intel a partir de 26/01/2022. 1-node, 2x CpU Intel® Xeon® Platinum 8380), 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Versão SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux versão 4.18., OpenFOAM® v1912, Motocicleta 28M @ 250 iterações; Construir notas: Ferramentas: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
Teste pela Intel a partir de 26/01/2022 1-node, 2x Pré-produção Processador Escalável Intel® Xeon® Cedido de Sapphire Rapids Plus HBM, >40 núcleos, HT Off, Turbo Off, Memória Total de 128 GB (HBM2e a 3200 MHz), plataforma de pré-produção e BIOS, CentOS 8, Linux versão 5.12, OpenFOAM® v1912, Moto 28M @ 250 iterações; Construir notas: Ferramentas: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512

WRF

Teste pela Intel a partir de 05/03/2022. 1-nó, 2x CPU Intel® Xeon® 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), Versão BIOS SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5, versão Linux 4.18, WRF v4.2.2
Teste pela Intel a partir de 05/03/2022. 1-nó, 2x Pré-produção Processador Escalável Intel® Xeon® codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, revisão ucode=0x83000200, CentOS Stream 8, Linux versão 5.16, WRF v4.2.2

YASK

Teste pela Intel a partir de 05/9/2022. 1-node, 2x CpU Intel® Xeon® Platinum 8360Y, 72 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Botões de construção: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
Teste pela Intel a partir de 05/03/22. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, >40 núcleos, HT ON, Turbo ON, Memória Total 128 GB (HBM2e a 3200 MHz), Versão BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versão 5.16, Botões de compilação: fazer -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,

³ Ansys Fluent

Teste pela Intel a partir de 2/2022 1-node, 2x CpU Intel ® Xeon ® Platinum 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Versão SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5 , Versão Linux 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Monte notas: Lançamento comercial usando compilador Intel 19.3 e Intel MPI 2019u
Teste pela Intel a partir de 2/2022 1-node, 2x Pré-produção Intel® Xeon® Scalable Processor nomeia Sapphire Rapids com HBM, >40 núcleos, HT Off, Turbo Off, Memória Total 128 GB (HBM2e a 3200 MHz), plataforma de pré-produção e BIOS, CentOS 8, Versão Linux 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Monte notas: Lançamento comercial usando compilador Intel 19.3 e Intel MPI 2019u8

Ansys ParSeNet

Teste pela Intel a partir de 24/05/2022. 1-node, 2x CPU Intel® Xeon® Platinum 8380, 80 núcleos, HT On, Turbo On, Memória Total 256GB (16x16GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
Teste pela Intel a partir de 18/04/2022. 1-node, 2x Pré-produção Processador escalável Intel® Xeon® com codinome Sapphire Rapids Plus HBM, 112 núcleos, HT On, Turbo On, Memória Total 128GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)

⁴ Teste pelo Laboratório Nacional de Argonne a partir de 23/5/2022, 1-node, 2x AMD EPYC 7532, 256 GB DDR4 3200, HT On, Turbo On, ucode 0x8301038. 1x A100 40GB PCIe. OpenSUSE Leap 15.3, Linux Versão 5.3.18, Libararies: CUDA 11.6 com compilador ClanG OpenMP. Botões de construção: cmake --preset=llvm_a100 -DCMAKE_UNITY_BUILD=ON -DCMAKE_UNITY_BUILD_MODE=BATCH -DCMAKE_UNITY_BUILD_BATCH_SIZE=1000 -DCMAKE_INSTALL_PREFIX=./install -Ddebug=off -Doptimize=on -Dopenmp=on -Dnew_w=on -Ddevice_history=off -Ddisable_xs_cache=on -Ddevice_printf=off. Benchmark: Esgotado o desempenho do lote inativo do combustível no reator HM-Large com partículas de 40M

Teste pela Intel a partir de 25/5/2022, 1-node, 2x Intel(r) Processador escalável 8360Y, 256GB DDR4 3200, HT On, Turbo, On, ucode 0xd0002c1. 1x Pré-produção Ponte Vecchio. Ubunt 20.04, Linux Versão 5.10.54, agama 434, Build Knobs: cmake -DCMAKE_CXX_COMPILER="mpiicpc" -DCMAKE_C_COMPILER="mpiicc" -DCMAKE_CXX_FLAGS="-cxx=icpx -mllvm -indvars-widen-indvars=false -Xclang -fopenmp-declare-target-global-default-no-map -std=c++17 -Dgsl_CONFIG_CONTRACT_CHECKING_OFF -fsycl -DSYCL_SORT -D_GLIBCXX_USE_TBB_PAR_BACKEND=0" --preset=spirv -DCMAKE_UNITY_BUILD=ON -DCMAKE_UNITY_BUILD_MODE=BATCH -DCMAKE_UNITY_BUILD_BATCH_SIZE=1000 -DCMAKE_INSTALL_PREFIX=.. /instalar -Ddebug=off -Doptimize=on -Dopenmp=on -Dnew_w=on -Ddevice_history=off -Ddisable_xs_cache=on -Ddevice_printf=off Benchmark: Depleted Fuel Inactive Batch Performance on HM-Large Reactor with 40M particles

⁵ Falcon Shores metas de desempenho com base em estimativas relativas às plataformas atuais em fevereiro de 2022. Os resultados podem variar.

⁶ Os resultados podem variar. Saiba mais em io500 e "DAOS Performance comparison with Lustre installation" no YouTube.

Todos os planos e roteiros do produto estão sujeitos a alterações sem prévio aviso.

A Intel não controla ou audita dados de terceiros. Você deve consultar outras fontes para avaliar a precisão.

As tecnologias Intel podem exigir ativação de hardware, software ou de serviços.

O desempenho varia de acordo com o uso, a configuração e outros fatores. Saiba mais em www.Intel.com/PerformanceIndex.

Os resultados de desempenho são baseados em testes realizados nas datas especificadas nas configurações e podem não incluir todas as atualizações disponíveis publicamente. Consulte o fabricante para obter os detalhes de configuração. Nenhum produto ou componente pode ser totalmente seguro.

Os custos e resultados podem variar.

Declarações que se referem a planos ou expectativas futuras são declarações prospectivas. Essas declarações são baseadas nas expectativas atuais e envolvem muitos riscos e incertezas que podem causar resultados reais materialmente diferentes daqueles expressos ou implícitos em tais declarações. Para obter mais informações sobre os fatores que podem causar resultados reais materialmente diferentes, consulte nossa mais recente divulgação de resultados e arquivos SEC em www.intc.com.

Selecione o seu idioma

Usando a pesquisa Intel.com

Links rápidos

Pesquisas recentes

Busca avançada

Pesquisar apenas em

Inovações aceleradas para Sustentabilidade, Open HPC

Opinião

Avisos e avisos:

¹ Hipóteses de Andrae para uso primário de energia, uso de eletricidade e emissões de CO2 da computação global e sua participação no total entre 2020 e 2030, WSEAS Trans Power Syst, 15 (2020)

² Como medido pelo seguinte:

Cloverleaf

OpenFOAM

WRF

Teste pela Intel a partir de 05/03/2022. 1-nó, 2x CPU Intel® Xeon® 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), Versão BIOS SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5, versão Linux 4.18, WRF v4.2.2

YASK

³ Ansys Fluent

Ansys ParSeNet

⁵ Falcon Shores metas de desempenho com base em estimativas relativas às plataformas atuais em fevereiro de 2022. Os resultados podem variar.

⁶ Os resultados podem variar. Saiba mais em io500 e "DAOS Performance comparison with Lustre installation" no YouTube.

Todos os planos e roteiros do produto estão sujeitos a alterações sem prévio aviso.

A Intel não controla ou audita dados de terceiros. Você deve consultar outras fontes para avaliar a precisão.

As tecnologias Intel podem exigir ativação de hardware, software ou de serviços.

O desempenho varia de acordo com o uso, a configuração e outros fatores. Saiba mais em www.Intel.com/PerformanceIndex.

Os resultados de desempenho são baseados em testes realizados nas datas especificadas nas configurações e podem não incluir todas as atualizações disponíveis publicamente. Consulte o fabricante para obter os detalhes de configuração. Nenhum produto ou componente pode ser totalmente seguro.

Os custos e resultados podem variar.

Marcadores

Usando a pesquisa Intel.com

Links rápidos

Pesquisas recentes

Busca avançada

Pesquisar apenas em

Inovações aceleradas para Sustentabilidade, Open HPC

Opinião

Avisos e avisos:

1 Hipóteses de Andrae para uso primário de energia, uso de eletricidade e emissões de CO2 da computação global e sua participação no total entre 2020 e 2030, WSEAS Trans Power Syst, 15 (2020)

2 Como medido pelo seguinte:

Cloverleaf

OpenFOAM

WRF

Teste pela Intel a partir de 05/03/2022. 1-nó, 2x CPU Intel® Xeon® 8380, 80 núcleos, HT On, Turbo On, Memória Total 256 GB (16x16GB 3200MT/s, Dual-Rank), Versão BIOS SE5C6200.86B.0020.P23.2103261309, revisão ucode=0xd000270, Rocky Linux 8.5, versão Linux 4.18, WRF v4.2.2

YASK

3 Ansys Fluent

Ansys ParSeNet

5 Falcon Shores metas de desempenho com base em estimativas relativas às plataformas atuais em fevereiro de 2022. Os resultados podem variar.

6 Os resultados podem variar. Saiba mais em io500 e "DAOS Performance comparison with Lustre installation" no YouTube.

Todos os planos e roteiros do produto estão sujeitos a alterações sem prévio aviso.

A Intel não controla ou audita dados de terceiros. Você deve consultar outras fontes para avaliar a precisão.

As tecnologias Intel podem exigir ativação de hardware, software ou de serviços.

O desempenho varia de acordo com o uso, a configuração e outros fatores. Saiba mais em www.Intel.com/PerformanceIndex.

Os resultados de desempenho são baseados em testes realizados nas datas especificadas nas configurações e podem não incluir todas as atualizações disponíveis publicamente. Consulte o fabricante para obter os detalhes de configuração. Nenhum produto ou componente pode ser totalmente seguro.

Os custos e resultados podem variar.

Marcadores

¹ Hipóteses de Andrae para uso primário de energia, uso de eletricidade e emissões de CO2 da computação global e sua participação no total entre 2020 e 2030, WSEAS Trans Power Syst, 15 (2020)

² Como medido pelo seguinte:

³ Ansys Fluent

⁵ Falcon Shores metas de desempenho com base em estimativas relativas às plataformas atuais em fevereiro de 2022. Os resultados podem variar.

⁶ Os resultados podem variar. Saiba mais em io500 e "DAOS Performance comparison with Lustre installation" no YouTube.