Alexa agora é executado em instâncias de nuvem mais poderosas, abrindo a porta para novos recursos complexos
Da amazon Computação em Nuvem O serviço de voz Alexa está prestes a se tornar muito mais poderoso, pois a equipe do Amazon Alexa migrou a grande maioria de suas cargas de trabalho de inferência de máquinas baseadas em GPU para instâncias do Amazon EC2 Inf1.
Essas novas instâncias são alimentadas por AWS Inferentia e a atualização resultou em latência de ponta a ponta 25% menor e custo 30% menor em comparação com instâncias baseadas em GPU para cargas de trabalho de texto pela voz de Alexa.
Como resultado da mudança para EC2 Os engenheiros do Inf1, Alexa, agora podem começar a usar algoritmos mais complexos para melhorar a experiência geral dos novos proprietários. Amazon Echo e outros dispositivos com tecnologia Alexa.
Além dos dispositivos Amazon Echo, mais de 140.000 modelos de alto-falantes, luzes, plugues, TVs inteligentes e câmeras inteligentes são alimentados pelo serviço de voz baseado em nuvem da Amazon. Todos os meses, dezenas de milhões de clientes interagem com Alexa para controlar seus dispositivos domésticos, ouvir música e rádio, se manter informado ou ser educado e entretido por mais de 100.000 Habilidades de Alexa disponíveis para a plataforma.
em um Comunicado de imprensaO evangelista técnico da AWS Sébastien Stormacq explicou por que a equipe do Amazon Alexa decidiu se afastar das cargas de trabalho de inferência de máquinas baseadas em GPU, dizendo:
“Alexa é um dos serviços de aprendizado de máquina em hiperescala mais populares do mundo, com bilhões de solicitações de inferência todas as semanas. Das três principais cargas de trabalho de inferência do Alexa (ASR, NLU e TTS), as cargas de trabalho TTS inicialmente eram executadas em instâncias baseadas em GPU. Mas a equipe Alexa decidiu mudar para instâncias Inf1 o mais rápido possível para melhorar a experiência do cliente e reduzir o custo de processamento do serviço. “
AWS Inferentia
AWS Inferentia é um chip personalizado desenvolvido pela AWS para acelerar as cargas de trabalho de inferência de aprendizado de máquina enquanto otimiza os custos.
Cada chip contém quatro NeuronCores e cada núcleo implementa um motor de multiplicação de matriz sistólica de alto desempenho que ajuda a acelerar bastante aprendizado profundo operações como convolução e transformadores. O NeuronCores também vem equipado com um grande cache no chip que reduz os acessos à memória externa para reduzir drasticamente a latência e aumentar o desempenho.
Para usuários que desejam aproveitar as vantagens do AWS Inferentia, o chip personalizado pode ser usado nativamente em estruturas de aprendizado de máquina populares, incluindo TensorFlow, PyTorch e MXNet com o AWS Neuron Software Development Kit.
Além da equipe Alexa, Amazon Rekognition Também está adotando o novo chip, já que a execução de modelos como classificação de objetos em instâncias Inf1 resultou em latência oito vezes menor e desempenho dobrado em comparação com a execução desses modelos em instâncias de GPU.