Máquinas Virtual Microsoft® Azure® Ddv4 Reduzem o Tempo e o Custo das Tarefas Completas do Genomics Quase na Metade

Genomics Analytics Toolkit

  • Os clusters da MV do Azure Ddv4 concluíram um conjunto de tarefas de genomics em apenas 52% do tempo de outros clusters.

  • Os clusters da MV do Azure Ddv4 concluíram um conjunto de tarefas de genomics em apenas 52% do custo de outros clusters.

MVs com processadores escalável Intel® Xeon® da 2ª Geração executaram um conjunto de tarefas do Genomics Analytics Toolkit em apenas 52% do tempo e apenas 52% do custo das MVs com processadores da geração anterior

Se sua empresa está considerando executar suas cargas de trabalho de genomics na nuvem pública, lembre-se de que as máquinas virtuais (MVs) podem variar muito em termos de desempenho e custos. Como parâmetro de referência de benefícios de tempo e custo, a Intel testou clusters de MV da Microsoft® Azure® de três categorias:

  • Ddv4 série MVs, apresentando exclusivamente processadores escaláveis Intel® Xeon® da 2ª Geração.
  • Dv2 série MVs, com CPUs que variam de processadores Intel® Core™ série i da 4ª Geração a processadores escaláveis Intel® Xeon® da 2ª Geração.
  • Configuração padrão de MVs das seguintes séries: A, Av2, Dv2, Dv3, Ls, Fsv2, com CPUs que variam de processadores Intel® Core™ da 2ª Geração a processadores escaláveis Intel® Xeon® da 2ª Geração.

O teste usou a parâmetro de referência do Cromwell no Azure para medir o desempenho do aplicativo Genomics Analytics Toolkit (GATK). O fluxo de trabalho de teste compreendeu 24 tarefas. Neste resumo analisamos o desempenho relativo e os custos tanto para todo o conjunto de tarefas como para uma das tarefas mais intensivas de recursos.

Clusters de MV Ddv4 com Processadores Escalável Intel® Xeon® da 2ª Geração Executaram Tarefas de Genomics em Tempo Significativamente menor do que outros Clusters de MV

A Figura 1 mostra o tempo relativo para concluir tarefas genomic no aplicativo GATK. Em comparação com as MVs padrão usando uma variedade de processadores mais antigos, a MV Ddv4 com processadores escaláveis Intel® Xeon® da 2ª Geração concluiu o conjunto completo de tarefas em pouco mais da metade do tempo, uma redução de até 48%. Para executar a tarefa HaplotypeCaller de uso intensivo de recursos, a MV Ddv4 precisou de pouco mais de um quarto do tempo que as MVs padrão precisavam, uma redução de até 74%. Essas vantagens podem traduzir para realizar sua análise de genomics com muito mais eficiência.

Figura 1. Tempo relativo para concluir tarefas de genomics. Menos tempo é melhor.

Clusters de MV Ddv4 com Processadores Escalável Intel® Xeon® da 2ª Geração Executaram Tarefas de Genomics em um Custo Significativamente menor do que outros Clusters de MV

Quando um cluster de MV pode executar um conjunto de tarefas em menos tempo, os clientes economizam pagando por menos tempo de atividade da MV. A Figura 2 mostra o custo relativo para concluir as mesmas tarefas do GATK mencionadas na página anterior. Em comparação com as MVs padrão usando uma variedade de processadores mais antigos, a MV Ddv4 com processadores mais novos completou todo o conjunto de tarefas por um pouco mais da metade do custo, uma economia de até 48%. O custo de execução da tarefa HaplotypeCaller de uso intensivo de recursos no cluster da MV Ddv4 foi ligeiramente superior a um terço do custo dos clusters de MV padrão, uma economia de até 63%.

Figura 2. Custo relativo para concluir tarefas de genomics. O custo mais baixo é melhor.

Conclusão

Os aplicativos de análise de genomics são muito intensivos em computação, tornando especialmente importante selecionar uma MV em nuvem com desempenho robusto. Nossos testes mostraram que optar por MVs Azure Ddv4 com processadores escaláveis Intel® Xeon® da 2ª Geração reduziu o tempo para concluir tarefas de genomics — e o custo para concluí-las — quase pela metade em comparação com o uso de MVs padrão com processadores mais antigos.

Saiba Mais

Para começar a executar suas cargas de trabalho genomics em máquinas virtuais Microsoft Azure Ddv4 com processadores escalonáveis Intel Xeon da 2ª Geração, visite https://docs.microsoft.com/en-us/azure/virtual-machines/ddv4-ddsv4-series.

Todos os testes da Intel no Azure/uswest2. Todos os testes: Linux, conjunto de dados de entrada 30X Coverage Human Whole Genome Sequence (WGS); NA12878, Workload GATK Best Practices Pipeline para Germline Variant Calling com pré-processamento, GATK 4.0.10.1, Genomics Kernel Library (GKL) 0.8.6, Cromwell 52, Picard 2.20, BWA 0.7.15-r1140, Samtools 1.3.1. Ferramentas em https://hub.docker.com/r/broadinstitute/genomes-in-the-cloud/: us.gcr.io/broad-gotc-prod/genomes-in-the-cloud:2.4.3-1564508330, us.gcr.io/broad-gatk/gatk:4.0.10.1. Fluxo de trabalho definido: https://github.com/microsoft/gatk4-genome-processing-pipeline-azure. Execute Iterations:3. Detalhes da MV: Ddv4 séria: 8272CL: Standard_D16d_v4: 16 vCPUs, 64GiB RAM, 600GiB SSD; Standard_D8d_v4: 8 vCPUs, 32GiB RAM, 300GB SSD; Standard_D4d_v4: 4 vCPUs, 16GiB RAM, 150GiB SSD; Standard_D2d_v4: 2 vCPUs, 8GiB, 75GiB SSD; Dv2 series: 8272CL, 8171M, E5-2673 v4, or E5-2673 v3: Standard_D3_v2: 4 vCPUs, 14GiB RAM, 200GiB SSD; Standard_D4_v2: 8 vCPUs, 28GiB RAM, 400GiB SSD; Standard_D5_v2: 16 vCPUs, 56 GiB RAM, 800GiB SSD; Standard_D2_v2: 2 vCPUs, 7GiB RAM, 100GiB SSD; Standard_D1_v2: 1 vCPU, 3.5GiB RAM, 50GiB SSD; Default Config: E5-2660 (A); E5-2660, E5-2673 v4 (Av2); 8272CL, 8171M, E5-2673v4, E5-2673v3 (Dv2, Dv3); E5-2673 (Ls); 8168, 8272CL (Fsv2): Standard_A2: 2 vCPUs, 3.5GiB RAM, 135GiB SSD; Standard_A3: 4 vCPUs, 7GiB RAM, 285GiB SSD; Standard_A1_v2: 1 vCPU, 2GiB RAM, 10GiB SSD; Standard_D2_v3: 2 vCPUs, 8GiB RAM, 50GiB SSD; Standard_F16s_v2: 16 vCPUs, 32GiB RAM, 128GiB SSD; Standard_L4s: 4 vCPUs, 32GiB RAM, 678GiB SSD.