¿Por qué usar las instancias Inf1 de Amazon EC2?
Empresas de diversos sectores aspiran a transformarse gracias a la inteligencia artificial (IA) para impulsar la innovación empresarial, mejorar la experiencia del cliente y procesar las mejoras. Los modelos de machine learning (ML) que permiten ejecutar aplicaciones de IA son cada vez más complejos, lo que hace que aumenten los costos de la infraestructura de computación subyacente. Hasta el 90 % de la inversión en infraestructura para el desarrollo y ejecución de aplicaciones de ML va para la inferencia. Los clientes buscan soluciones de infraestructura rentables para implementar sus aplicaciones de ML en producción.
Las instancias Inf1 de Amazon EC2 ofrecen una inferencia de ML de alto rendimiento y bajo costo. Ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Las instancias Inf1 se crean desde cero para ser compatibles con las aplicaciones de inferencia de ML. Cuentan con hasta 16 chips de AWS Inferentia, chips de inferencia de ML de alto rendimiento diseñados y creados por AWS. Además, las instancias Inf1 incluyen procesadores Intel Xeon escalables de segunda generación y redes de hasta 100 Gbps para lograr una inferencia de alto rendimiento.
Los clientes pueden usar las instancias Inf1 para ejecutar aplicaciones de inferencia de ML a gran escala, como la búsqueda, los motores de recomendaciones, la visión artificial, el reconocimiento de voz, el procesamiento de lenguaje natural (NLP), la personalización y la detección de fraudes.
Los desarrolladores pueden implementar sus modelos de machine learning en instancias Inf1 con el SDK de AWS Neuron, el cual está integrado en marcos conocidos de machine learning, como TensorFlow, PyTorch y Apache MXNet. Pueden usar los mismos procesos de ML y migrar aplicaciones sin complicaciones a instancias Inf1, con cambios mínimos en el código y sin usar soluciones específicas de un solo proveedor.
Comenzar a usar instancias Inf1 es fácil con Amazon SageMaker, las AMI de aprendizaje profundo de AWS (DLAMI) preconfiguradas con el SDK de Neuron o Amazon Elastic Container Service (Amazon ECS) o Amazon Elastic Kubernetes Service (Amazon EKS) para las aplicaciones de ML en contenedores.
Instancias Inf1 de Amazon EC2
Beneficios
Características
Testimonios de clientes y socios
Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias Inf1 de Amazon EC2.
-
Snap Inc.
Incorporamos el machine learning en muchos aspectos de Snapchat y el análisis de la innovación en este campo es una prioridad clave. Una vez que nos enteramos de Inferentia, comenzamos a colaborar con AWS a fin de adoptar instancias Inf1/Inferentia que nos ayudaran con la implementación del machine learning, incluidos el rendimiento y el costo. Comenzamos con nuestros modelos de recomendación y planificamos adoptar más modelos con las instancias Inf1 en el futuro.
Nima Khajehnouri, VP Engineering en Snap Inc. -
Sprinklr
La plataforma de administración unificada de la experiencia del cliente impulsada por IA de Sprinklr (Unified-CXM) permite a las empresas recopilar y traducir los comentarios de los clientes en tiempo real a través de varios canales a información procesable, lo que resulta en una resolución proactiva de problemas, desarrollo de productos mejorado, marketing de contenido mejorado, mejor servicio al cliente y mucho más. Mediante el uso de Inf1 de Amazon EC2, pudimos mejorar significativamente el rendimiento de uno de nuestros modelos de procesamiento de lenguaje natural y mejorar el rendimiento de uno de nuestros modelos de visión artificial. Planificamos seguir usando Inf1 de Amazon EC2 para ofrecer mejores servicios a nuestros clientes globales.
Vasant Srinivasan, vicepresidente sénior de ingeniería de productos en Sprinklr -
Finch Computing
Nuestro producto de NLP de vanguardia, Finch for Text, ofrece a los usuarios la capacidad de extraer, desambiguar y enriquecer distintos tipos de entidades en grandes volúmenes de texto. Finch for Text necesita recursos de computación significativos para proporcionar a nuestros clientes enriquecimientos de baja latencia en orígenes de datos globales. Ahora, utilizamos instancias Inf1 de AWS en nuestros modelos de NLP, traducción y desambiguación de entidades con PyTorch. Pudimos reducir los costos de inferencia en más de un 80 % (con respecto a las GPU) con optimizaciones mínimas, además de mantener la velocidad de inferencia y el rendimiento. Gracias a esta mejora, nuestros clientes pueden enriquecer textos en francés, español, alemán y neerlandés en tiempo real en orígenes de datos en streaming y a escala mundial, lo cual es fundamental para nuestros clientes en servicios financieros, agregadores de datos y el sector público.
Scott Lightner, Chief Technology Officer en Finch Computing -
Dataminr
Alertamos sobre muchos tipos de eventos en todo el mundo en muchos idiomas y en diferentes formatos (imágenes, video, audio, sensores de texto, combinaciones de todos estos tipos) desde cientos de miles de orígenes. Optimizar la velocidad y el costo dada esa escala es absolutamente fundamental para nuestro negocio. Con AWS Inferentia, hemos reducido la latencia de los modelos y hemos conseguido un rendimiento por dólar hasta 9 veces superior. Esto nos permitió aumentar la precisión de los modelos y expandir las capacidades de nuestra plataforma al implementar modelos de aprendizaje profundo más sofisticados y procesar un volumen de datos cinco veces mayor, al mismo tiempo que mantenemos nuestros costos bajo control.
Alex Jaimes, Chief Scientist y Senior Vice President of AI en Dataminr -
Autodesk
Autodesk potencia la tecnología cognitiva de nuestro asistente virtual con tecnología de IA, Autodesk Virtual Agent (AVA), con el uso de Inferentia. AVA responde más de 100 000 preguntas de clientes por mes gracias a la comprensión del lenguaje natural (NLU) y las técnicas de aprendizaje profundo (DL) para extraer el contexto, la intención y el significado de las consultas. Mediante el uso de Inferentia, podemos obtener un rendimiento 4,9 veces mayor que G4dn para nuestros modelos de NLU y planificamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia.
Binghui Ouyang, Sr. Data Scientist en Autodesk -
Screening Eagle Technologies
El uso del georradar y la detección de defectos visuales suele ser el campo de los topógrafos expertos. Una arquitectura basada en microservicios de AWS nos permite procesar los videos capturados por los vehículos de inspección automatizados y los inspectores. Al migrar nuestros modelos internos de las instancias tradicionales basadas en la GPU a Inferentia, pudimos reducir los costos en un 50 %. Además, pudimos ver mejoras de rendimiento cuando comparamos los tiempos con una instancia de GPU G4dn. Nuestro equipo planifica ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia.
Jesús Hormigo, Chief of Cloud y AI Officer en Screening Eagle Technologies -
NTT PC Communications
NTT PC Communications, un proveedor de soluciones de comunicaciones y servicios de red en Japón, es líder en telecomunicaciones en la introducción de nuevos productos innovadores en el mercado de tecnologías de la información y las comunicaciones.
NTT PC desarrolló AnyMotion, un servicio de plataforma de API de análisis de movimiento basado en modelos avanzados de ML de estimación de postura. Implementamos nuestra plataforma AnyMotion en instancias Inf1 de Amazon EC2 mediante Amazon ECS para ofrecer un servicio de orquestación de contenedores totalmente administrado. Al implementar nuestros contenedores AnyMotion en Inf1 de Amazon EC2, obtuvimos un rendimiento 4,5 veces mayor, una latencia de inferencia un 25 % menor y un costo un 90 % menor en comparación con las instancias de EC2 basadas en GPU de la generación actual. Estos resultados superiores mejorarán la calidad del servicio AnyMotion a escala.
Toshiki Yanagisawa, Software Engineer en NTT PC Communications Inc. -
Anthem
Anthem es una de las principales compañías de seguros de salud de los EE. UU. Atiende las necesidades de atención médica de más de 40 millones de miembros en docenas de estados.
El ritmo de crecimiento del mercado de las plataformas digitales aún es extraordinario. La recopilación de información sobre este mercado es una tarea difícil debido a la gran cantidad de datos de las opiniones de los clientes y a su naturaleza desestructurada. Nuestra aplicación automatiza la generación de conocimientos procesables a partir de las opiniones de los clientes a través de modelos de lenguaje natural de aprendizaje profundo (Transformers). Nuestra aplicación hace un uso intensivo de la computación y se tiene que implementar de una manera muy eficiente. Implementamos sin problemas nuestra carga de trabajo de inferencia de aprendizaje profundo en las instancias Inf1 de Amazon EC2 impulsadas por el procesador de AWS Inferentia. Las nuevas instancias Inf1 ofrecen un rendimiento dos veces mayor que el de las instancias basadas en GPU y nos han permitido optimizar nuestras cargas de trabajo de inferencia.
Numan Laanait y Miro Mihaylov, PhDs, Principal AI/Data Scientists en Anthem -
Condé Nast
La cartera global de Condé Nast abarca más de 20 marcas de medios líderes, como Wired, Vogue y Vanity Fair. En unas pocas semanas, nuestro equipo pudo integrar nuestro motor de recomendaciones con los chips de AWS Inferentia. Esta combinación permite múltiples optimizaciones de tiempo de ejecución para modelos de lenguaje natural de última generación en instancias Inf1 de SageMaker. Como resultado, se observó una reducción de costos del 72 % en comparación con las instancias de GPU implementadas anteriormente.
Paul Fryzel, Principal Engineer, AI Infrastructure en Condé Nast -
Ciao Inc.
Ciao evoluciona las cámaras de seguridad convencionales transformándolas en cámaras de análisis de alto rendimiento, con una capacidad equivalente a la del ojo humano. Con nuestra aplicación, se están realizando avances en prevención de desastres, monitoreando las condiciones ambientales usando soluciones de cámara con IA basadas en la nube para alertar de las condiciones antes de que el desastre se produzca. Estas alertas permiten reaccionar a la situación en forma anticipada. Basándose en la detección de objetos,también podemos brindar conocimientos estimando la cantidad de invitados entrantes a partir de videos (sin personal) en tiendas físicas. Ciao Camera adoptó comercialmente instancias Inf1 basadas en AWS Inferentia con un 40 % de mejora en el rendimiento de precios con respecto a G4dn con YOLOv4. Esperamos con ansias desarrollar más servicios con Inf1 para aprovechar su eficiencia significativa en los costos.
Shinji Matsumoto, Software Engineer en Ciao Inc. -
The Asahi Shimbun Company
Asahi Shimbun es uno de los periódicos más populares de Japón. Media Lab, establecido como uno de los departamentos de nuestra empresa, tiene las misiones de alcanzar la tecnología más reciente, especialmente la IA, y conectarse con tecnologías de vanguardia para nuevos negocios. Con el lanzamiento de instancias Inf1 de Amazon EC2 basadas en AWS Inferentia en Tokio, probamos nuestra aplicación de IA de resúmenes de texto basada en PyTorch en estas instancias. Esta aplicación procesa una gran cantidad de texto y genera titulares y oraciones de resumen entrenada con artículos de los últimos 30 años. Con Inferentia, disminuimos los costos por una orden de magnitud a través de instancias basadas en la CPU. Esta drástica reducción en costos nos permitirá implementar nuestros modelos más complejos a escala, que anteriormente se creía que no eran posible desde el punto de vista económico”.
Hideaki Tamori, PhD, Senior Administrator, Media Lab en The Asahi Shimbun Company -
CS Disco
CS Disco reinventa la tecnología legal como proveedor líder de soluciones de IA para la detección electrónica, las cuales fueron desarrolladas por abogados para abogados. La IA de Disco acelera la ingrata tarea de analizar terabytes de datos, reduce los tiempos de revisión y mejora la precisión de la revisión al usar los complejos modelos de procesamiento de lenguaje natural, que son costosos y prohibitivos desde el punto de vista de la computación. Disco descubrió que las instancias Inf1 basadas en AWS Inferentia reducen el costo de inferencia en la IA de Disco en al menos un 35 % en comparación con las instancias de GPU actuales. Sobre la base de esta experiencia positiva con las instancias Inf1, CS Disco aprovechará las oportunidades para la migración a Inferentia.
Alan Lockett, director sénior de Investigación de CS Disco -
Talroo
En Talroo, nuestros clientes tienen acceso a una plataforma basada en datos que facilita la atracción y contratación de candidatos para trabajos específicos. Estamos constantemente explorando nuevas tecnologías para asegurarnos de ofrecer los mejores productos y servicios a nuestros clientes. Con Inferentia, extraemos información de un corpus de datos de texto para mejorar nuestra tecnología de búsqueda y coincidencia potenciada por IA. Talroo utiliza las instancias Inf1 de Amazon EC2 para crear modelos de comprensión del lenguaje natural de alto nivel de rendimiento con SageMaker. Las pruebas iniciales de Talroo muestran que las instancias inf1 de Amazon EC2 ofrecen una latencia de inferencia un 40 % menor y un rendimiento dos veces más elevado en comparación con las instancias basadas en las GPU G4dn. En función de estos resultados, Talroo planea utilizar instancias Inf1 de Amazon EC2 como parte de su infraestructura en AWS.
Janet Hu, Software Engineer en Talroo -
Digital Media Professionals
Digital Media Professionals (DMP) proyecta el futuro con una plataforma ZIA™ basada en IA. Las eficientes tecnologías de clasificación de visión computarizada de DMP se utilizan para desarrollar la comprensión de gran cantidad de datos de imágenes en tiempo real, como la observación de condiciones y la prevención de delitos y de accidentes. Hemos identificado que nuestros modelos de segmentación de imágenes se ejecutan cuatro veces más rápido en instancias Inf1 basadas en AWS Inferentia que en instancias G4 basadas en GPU. Debido a este mayor rendimiento y menor costo, Inferentia nos permite implementar toda la carga de trabajo de nuestra IA, tales como aplicaciones para cámaras de automóviles a escala.
Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group en Digital Media Professionals -
Hotpot.ai
Hotpot.ai permite a aquellos que no son diseñadores crear gráficos atractivos y ayuda a los diseñadores profesionales a automatizar las tareas rutinarias.
Debido a que el machine learning es el núcleo de nuestra estrategia, nos entusiasmó probar los casos de instancias Inf1 basadas en AWS Inferentia. Descubrimos que las instancias Inf1 eran fáciles de integrar en nuestra canalización de investigación y desarrollo. Sobre todo, observamos un impresionante aumento del rendimiento en comparación con las instancias basadas en la GPU G4dn. Con nuestro primer modelo, las instancias Inf1 produjeron un 45% más de rendimiento y redujeron el costo por inferencia en casi un 50%. Queremos trabajar en estrecha colaboración con el equipo de AWS para trasladar otros modelos y migrar la mayor parte de nuestra infraestructura de inferencia de ML a AWS Inferentia.
Clarence Hu, fundador de Hotpot.ai -
SkyWatch
SkyWatch procesa cientos de billones de píxeles de datos de observación de la Tierra, los cuales se captan desde el espacio todos los días. La adopción de las nuevas instancias Inf1 basadas en AWS Inferentia mediante Amazon SageMaker para la detección de nubes en tiempo real y la puntuación de la calidad de imágenes fue rápida y fácil. Todo fue cuestión de cambiar el tipo de instancia en nuestra configuración de desarrollo. Al cambiar los tipos de instancia a Inf1 basada en Inferentia, mejoramos el rendimiento en un 40 % y redujimos los costos generales en un 23 %. Esto es una gran victoria. Nos ha permitido reducir los costos operativos generales a la vez que seguimos ofreciendo imágenes satelitales de alta calidad a nuestros clientes, con mínimos gastos generales de ingeniería. Buscamos realizar la transición de todos nuestros procesos de ML por lotes y puntos de conexión de inferencia para usar instancias Inf1 y mejorar aún más la fiabilidad de los datos y la experiencia de los clientes.
Adler Santos, Engineering Manager en SkyWatch -
Money Forward Inc.
Money Forward Inc. brinda servicios a empresas y particulares con una plataforma financiera abierta y justa. Como parte de esta plataforma, HiTTO Inc., una empresa del grupo Money Forward, ofrece un servicio de chatbot con IA que utiliza modelos de NLP personalizados para abordar las diversas necesidades de sus clientes corporativos.
Migrar nuestro servicio de chatbot con IA a instancias Inf1 de Amazon EC2 fue sencillo. Finalizamos la migración en 2 meses y lanzamos un servicio a gran escala en las instancias Inf1 con Amazon ECS. Pudimos reducir nuestra latencia de inferencia en un 97 % y nuestros costos de inferencia en más del 50 % (en comparación con instancias basadas en GPU similares), al ofrecer varios modelos por instancia Inf1. Planificamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia.
Kento Adachi, Technical Lead, CTO Office en Money Forward Inc. -
Amazon Advertising
Amazon Advertising ayuda a las empresas de todos los tamaños a conectar con sus clientes en cada etapa de su proceso de compra. Cada día se revisan, clasifican y publican millones de anuncios, tanto con texto como con imágenes, con el objetivo de ofrecer una experiencia óptima al cliente.
Lea el blog de noticiasPara el procesamiento de nuestros anuncios con texto, implementamos modelos BERT basados en PyTorch de forma global en instancias Inf1 basadas en AWS Inferentia. Con el paso a Inferentia desde las GPU, conseguimos reducir los costos un 69 % sin afectar el rendimiento. Compilar y probar nuestros modelos para AWS Inferentia nos llevó menos de tres semanas. Gracias a que utilizamos Amazon SageMaker para implementar nuestros modelos en instancias Inf1, nos aseguramos de que la implementación fuera escalable y fácil de administrar. Cuando analicé por primera vez los modelos compilados, el rendimiento con AWS Inferentia fue tan impresionante que hasta tuve que volver a ejecutar los puntos de referencia para asegurarme de que eran correctos. En un futuro, tenemos previsto migrar nuestros modelos de procesamiento de anuncios con imágenes a Inferentia. Ya comprobamos que la latencia es un 30 % menor y conseguimos un ahorro de costos del 71 % en comparación con instancias similares basadas en GPU para estos modelos.
Yashal Kanungo, Applied Scientist en Amazon Advertising -
Amazon Alexa
La inteligencia basada en IA y ML de Amazon Alexa, con tecnología de AWS, está disponible en más de 100 millones de dispositivos hoy en día. Además, nuestra promesa a los clientes es que Alexa será cada vez más inteligente, más conversacional, más proactiva y aún más encantadora. El cumplimiento de esta promesa requiere mejoras continuas en los tiempos de respuesta y en los costos de la infraestructura de machine learning, por lo que estamos encantados de utilizar Inf1 de Amazon EC2 para reducir la latencia de inferencia y el costo por inferencia en la conversión de texto a voz de Alexa. Gracias a Inf1 de Amazon EC2, podremos mejorar aún más el servicio para las decenas de millones de clientes que utilizan Alexa cada mes.
Tom Taylor, Senior Vice President en Amazon Alexa -
Amazon Prime Video
Amazon Prime Video usa modelos de ML de visión artificial para analizar la calidad de los videos de los eventos en vivo y garantizar una experiencia de visualización óptima para los miembros de Prime Video. Implementamos nuestros modelos de ML de clasificación de imágenes en instancias Inf1 de EC2 y vimos una mejora en el rendimiento 4 veces superior y hasta un 40 % de ahorro en el costo. Ahora, queremos aprovechar este ahorro de costos para innovar y crear modelos avanzados que puedan detectar defectos más complejos, como diferencias de sincronización entre los archivos de audio y video, para ofrecer una experiencia de visualización mucho mejor a los miembros de Prime Video.
Victor Antonino, Solutions Architect en Amazon Prime Video -
Amazon Rekognition and Video
Amazon Rekognition es una aplicación simple y fácil de análisis de imágenes y videos que ayuda a los clientes a detectar objetos, personas, textos y actividades. Amazon Rekognition necesita una infraestructura de aprendizaje profundo de alto rendimiento que pueda analizar miles de millones de imágenes y videos diariamente para nuestros clientes. Con las instancias Inf1 basadas en AWS Inferentia, la ejecución de modelos de Amazon Rekognition, como la clasificación de objetos, dio como resultado una latencia 8 veces menor y el doble de rendimiento que la ejecución de estos modelos en GPU. En función de estos resultados, estamos trasladando Amazon Rekognition a Inf1, lo que permite a nuestros clientes obtener resultados precisos más rápido.
Rajneesh Singh, director, SW Engineering en Amazon Rekognition and Video
Detalles del producto
* Los precios que se muestran son para la región EE. UU. Este (Norte de Virginia) de AWS. Los precios de las instancias reservadas para 1 y 3 años son para las opciones de pago “parcial por adelantado”, y “sin pago por adelantado” para instancias sin la opción de pago parcial.
Las instancias Inf1 de Amazon EC2 se encuentran disponibles en las regiones EE. UU. Este (Norte de Virginia) y EE. UU. Oeste (Oregón) de AWS como instancias bajo demanda, reservadas o de spot.