As plataformas de inferência para grandes modelos de linguagem (LLMs) são conjuntos de hardware e software desenvolvidos pela NVIDIA para acelerar a inferência de modelos de IA generativa, incluindo chatbots, conteúdo de texto para imagem e IA de vídeo. A marca divulgou a chegada da novidade nesta semana (21).
Tais plataformas combinam o software de inferência da verdinha com processadores otimizados para cargas de trabalho específicas de inferência de IA generativa, incluindo a GPU NVIDIA L4 Tensor Core, a GPU NVIDIA H100 NVL, a NVIDIA L40 e a NVIDIA Grace Hopper.
Cada plataforma é otimizada para cargas de trabalho sob demanda e inclui softwares especializados, como o NVIDIA TensorRT e o NVIDIA Triton Inference Server. Essas plataformas são usadas por empresas como Google Cloud, D-ID e Cohere para fornecer novos serviços e insights. Com a implementação dessas plataformas, a verdinha está atendendo à crescente demanda de grandes empresas por plataformas de IA mais poderosas para acelerar suas operações e entregar serviços de alta qualidade aos usuários finais.