A preview is not available for this record, please engage by choosing from the available options ‘download’ or ‘view’ to engage with the material
Descrição
Aproximar a inferência da IA da fonte de dados oferece vantagens significativas em custo, privacidade e desempenho. Os avanços recentes em modelos GenAI leves (por exemplo, parâmetros de 1-8B) oferecem uma oportunidade disruptiva para mudar a implantação de GenAI da nuvem para a borda, mas as alternativas para a GenAI baseada em nuvem precisam ser práticas e eficientes. Esta publicação técnica descreve uma abordagem estratégica para transferir implantações genAI de soluções nativas em nuvem (ou seja, baseadas em GPU) para soluções de borda (por exemplo, baseadas em hardware) usando a aceleração de computação integrada de CPU-GPU-NPU (por exemplo, processadores Intel® Core™ Ultra Intel® Arc™ GPUs) e modelos GenAI de código aberto. A implantação no dispositivo oferece baixo custo total de propriedade (TCO), capacidades off-line, soberania dos dados e latência reduzida, tornando os poderosos modelos GenAI acessíveis entre regiões e setores que podem ter enfrentado barreiras para a implantação.