El lunes pasado, una enfermera sugirió que probáramos un monitor inalámbrico para realizar un seguimiento de mis signos vitales y los de mi bebé por nacer.
“A este dispositivo lo llamamos “¡Mónica, el monitor!” Trabajar con él es un sueño o una pesadilla total”, me dijo la enfermera.
Ese día, “Mónica” (en realidad, el sistema de parcheo inalámbrico Novii) tuvo un desempeño excepcionalmente bueno. Pude moverme libremente, sin la molestia de los cables, mientras daba a luz a mi hija. Esta tecnología aprovecha la adquisición pasiva de señales para diferenciar entre las señales cardíacas fetales y maternas y para detectar las contracciones uterinas. Los datos se transmiten de forma inalámbrica a una unidad de monitoreo para su observación en tiempo real. Este sistema mejora la precisión y reduce las falsas alarmas, ofreciendo la movilidad tan necesaria durante el trabajo de parto.
Pensé: escribir y teorizar sobre tecnologías es una cosa, pero experimentar sus notables capacidades de primera mano es otra muy distinta, especialmente cuando un dispositivo funciona a la perfección. Surgió una pregunta: ¿Qué pueden agregar los modelos de base a los wearables? Inmediatamente después de mi experiencia con “Mónica”, me llamó la atención un artículo reciente de Google Research y investigadores del MIT. Titulado ' Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data ' y escrito por Kim et al., este artículo profundiza en la aplicación de LLM en el sector de la salud, centrándose en la interpretación de datos de sensores portátiles para la predicción de la salud. Curiosamente, estos modelos se alimentan de datos no de registros médicos o notas del médico, sino de dispositivos portátiles como Fitbits, que rastrean los pasos diarios, la frecuencia cardíaca, los patrones de sueño y más, similar a 'Mónica'.
La investigación evaluó ocho LLM de vanguardia: Med-Alpaca, PMC-Llama, Asclepius, ClinicalCamel, Flan-T5, Palmyra-Med, GPT-3.5 y GPT-4, en seis conjuntos de datos de salud pública. Realizaron experimentos en trece tareas de predicción de la salud relacionadas con la salud mental, la actividad, el metabolismo, el sueño y las evaluaciones cardíacas.
El equipo experimentó con varios métodos, incluyendo indicaciones de disparo cero y de pocos disparos (enseñar el modelo con ejemplos mínimos o nulos), ajuste fino de instrucción (adaptación del modelo a tareas específicas) e incluso algunos ajustes finos eficientes en parámetros para eficiencia computacional.
Particularmente fascinante es la efectividad de la mejora del contexto en las indicaciones, que implica agregar contexto del usuario, conocimiento de salud e información temporal. Este enfoque arrojó hasta un 23,8% de mejora en el rendimiento.
La atención sanitaria es un campo extremadamente sensible, pero los beneficios potenciales de la IA generativa para los humanos son inmensos, especialmente con el poder de los modelos básicos. Health-LLM explora el futuro en el que los dispositivos portátiles no sean solo rastreadores pasivos sino guardianes proactivos de la salud.
Otro artículo innovador reciente en atención médica proviene de investigadores de Stanford y Stability AI, titulado CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation . El aspecto más fascinante de este artículo es el desarrollo de CheXagent, un modelo de base avanzado diseñado específicamente para interpretar radiografías de tórax. Este modelo combina de forma única un LLM clínico, un codificador de visión especializado y una red puente visión-lenguaje, lo que demuestra un rendimiento excepcional en la interpretación de imágenes médicas complejas. Su capacidad para superar a los modelos existentes en evaluaciones de precisión y equidad marca un avance significativo en la tecnología de IA de imágenes médicas. ¡Puede ahorrar mucho tiempo! Y posiblemente viva.
(La niña recién nacida, Reason Leeloo Joy, le envía saludos. La semana pasada nos tomamos una semana libre, pero ahora volvemos a la normalidad, explorando el mundo de la IA para comprender cómo ella y sus cuatro hermanos vivirán en él y navegarán por él).
Noticias de Los sospechosos habituales ©
Sam Altman y OpenAI
- OpenAI lanzó dos nuevos modelos de incrustación (text-embedding-3-small y text-embedding-3-large) y versiones actualizadas de GPT-4 Turbo, GPT-3.5 Turbo y un modelo de moderación de texto. Los nuevos modelos de integración representan el contenido como secuencias numéricas, mejorando las tareas de aprendizaje automático como la agrupación o la recuperación. También son más eficientes y rentables.
- Mientras tanto, Sam Altman está en conversaciones con patrocinadores de Medio Oriente, incluidos inversores adinerados y fabricantes de chips como TSMC, para lanzar una nueva empresa de chips. Esta medida tiene como objetivo satisfacer las crecientes necesidades de semiconductores de OpenAI y reducir la dependencia de Nvidia. La estructura de la empresa no está clara y podría ser una entidad separada o una subsidiaria de OpenAI.
Blackstone interviene
- Otro gran actor está invirtiendo fuertemente en la revolución de la IA. Blackstone está construyendo una red de centros de datos de uso intensivo de energía valorada en 25.000 millones de dólares en todo Estados Unidos. Tras la adquisición de QTS, un importante operador de centros de datos, por 10.000 millones de dólares, Blackstone está desarrollando instalaciones masivas para satisfacer las crecientes demandas digitales y de inteligencia artificial de los gigantes tecnológicos. Estos proyectos, que consumen electricidad equivalente a millones de hogares, están remodelando comunidades y generando debates sobre el uso de recursos y los beneficios locales. A pesar de los desafíos, incluidos los problemas de suministro de energía y la reacción pública, Blackstone considera que esta empresa es una de sus mejores inversiones potenciales, lo que ilustra la creciente importancia y complejidad de la infraestructura de datos en la era de la IA.
Elon Musk, xAI y Tesla
- Elon Musk ha estado en los titulares recientemente, buscando una inversión de 6 mil millones de dólares para xAI por parte de inversores globales en Medio Oriente, Hong Kong, Japón y Corea. Si tiene éxito, la valoración de xAI podría alcanzar los 20.000 millones de dólares, superando los 18.400 millones de dólares de Anthropic pero quedando por detrás de los 100.000 millones de dólares de OpenAI. Sin embargo, la reciente amenaza de Musk de eliminar los proyectos de IA de Tesla a menos que consiga un control del 25% ha provocado insatisfacción entre los inversores actuales y podría afectar las conversaciones con posibles nuevos patrocinadores. Mientras tanto, Tesla está planeando una inversión de 500 millones de dólares en una supercomputadora "Dojo" en sus instalaciones de Buffalo, Nueva York, lo que subraya el compromiso de la compañía con el avance de la tecnología de IA.
Google y la cara abrazadora
- La asociación recientemente anunciada entre Hugging Face y Google Cloud tiene como objetivo hacer que la IA sea más accesible. Se centra en iniciativas compartidas en ciencia y código abierto, aprovechando tanto los modelos abiertos de Hugging Face como la tecnología de Google Cloud. El objetivo es facilitar el desarrollo de tecnologías de IA para una gama más amplia de usuarios y aplicaciones.
- Mientras tanto, Google Bard ha ascendido a la segunda posición en la tabla de clasificación Chatbot Arena de HuggingFace, superando a GPT-4 y ahora solo detrás de GPT-4 Turbo en las clasificaciones LLM impulsadas por la comunidad.
Los artículos de investigación más recientes, categorizados para su conveniencia.
Compresión y eficiencia del modelo
- SLICEGPT : una técnica para comprimir de manera eficiente modelos de lenguaje grandes eliminando parámetros y manteniendo el rendimiento → lea el artículo
- DeepSeek-Coder : se centra en el desarrollo de modelos de generación de código multilingüe de alto rendimiento con una amplia gama de parámetros →leer el artículo
- SPACTOR-T5 : presenta un método de preentrenamiento eficiente para modelos T5, que reduce los requisitos computacionales →leer el artículo
- MEDUSA : un marco para acelerar la inferencia de modelos de lenguaje grandes utilizando múltiples cabezales de decodificación →leer el artículo
Capacidades y evaluación de LLM
- De GPT-4 a Gemini y más allá : evalúa la generalización, confiabilidad y causalidad de los MLLM en múltiples modalidades → lea el artículo
- MaLA-500 : desarrolla un LLM multilingüe que admite más de 500 idiomas, mejorando la accesibilidad del modelo lingüístico →leer el artículo
- Detección de LLM con binoculares : presenta un método para la detección cero de texto generado por modelos de lenguaje grandes → lea el artículo
Modelos multimodales y especializados
- Repensar la dependencia de parches para codificadores automáticos enmascarados : examina el mecanismo de decodificación en codificadores automáticos enmascarados para mejorar el procesamiento de imágenes →leer el artículo
- MM-LLM : una encuesta completa sobre los avances y capacidades de los modelos de lenguajes grandes multimodales →leer el artículo
- CMMMU : establece un punto de referencia para evaluar grandes modelos multimodales en el contexto chino →leer el artículo
- SpatialVLM : mejora los modelos de visión y lenguaje con capacidades avanzadas de razonamiento espacial →leer el artículo
Técnicas de formación de IA y generación de datos
- Aprendizaje de predictores universales : explora el entrenamiento de redes neuronales para estrategias de predicción universal, acercándose a la inducción de Solomonoff →leer el artículo
- Unitxt : una biblioteca de Python para la preparación de datos flexible y reproducible en PNL generativa →leer el artículo
- GENIE : un método para generar datos sintéticos basados en contenido de alta calidad utilizando modelos de lenguaje grandes →leer el artículo
- MambaByte : investiga un modelo de lenguaje sin tokens que aprende directamente de bytes sin formato →leer el artículo
- Meta-Prompting : mejora los modelos de lenguaje con una técnica de andamiaje independiente de la tarea para un mejor rendimiento →leer el artículo
- WARM : Un enfoque para alinear modelos de lenguaje grandes con las preferencias humanas en el aprendizaje por refuerzo →leer el artículo
Modelos de lenguaje y juegos de roles
- El modelo de lenguaje pequeño se combina con el vocabulario de visión reforzado : presenta un modelo compacto que integra vocabulario de visión mejorado para una codificación eficiente de la información visual →leer el artículo
- Los modelos de lenguaje grandes son superposiciones de todos los caracteres : desarrolla un método para representar diálogos utilizando modelos de lenguaje grandes →leer el artículo
- Orion-14B : presenta una colección de modelos de lenguaje multilingüe de gran tamaño para aplicaciones conversacionales →leer el artículo
En otros boletines
- Gran inmersión en la “Actualización sobre aplicaciones distribuidas en la Unión Europea” de Apple de Hardcore Software
- Lectura divertida de Interconnects sobre la fusión de modelos "Cuando lo que parece pura magia negra de LLM está respaldado por la literatura"
- ¿Es este el año en que Apple despierta con la IA? La opinión de los inversores de Madrona.
- Andrew Ng describe su experiencia en Davos y el Foro Económico Mundial. Se trata de IA, pero con el estilo humanista característico de Ng.