¿Pueden los LLM Predecir tu Café? El Test que los Humilla

Un experimento simple con agua hirviendo y una taza de cerámica dejó en evidencia las limitaciones reales de los LLM en predicciones del mundo real. El blog Dynomight pidió a varios modelos de IA — entre ellos Claude, GPT y Gemini — que predijeran cómo se enfriaría el café con el tiempo. El resultado: todos generaron ecuaciones de decaimiento exponencial razonables, pero ninguno acertó con precisión a la dinámica térmica real. Claude 4.6 Opus fue el que más se acercó, con un costo de apenas 0,61 dólares en tokens.

En 30 segundos

  • Un experimento midió agua hirviendo (226,8 g) en una taza cerámica de 0,57 kg enfriándose a temperatura ambiente (20 °C), y les pidió a varios LLM que predijeran la curva de temperatura
  • Todos los modelos generaron ecuaciones con decaimiento exponencial, pero subestimaron la caída inicial rápida y sobreestimaron el enfriamiento final lento
  • Claude 4.6 Opus obtuvo la predicción más cercana a la realidad por apenas 0,61 dólares, aunque ningún modelo fue realmente preciso
  • El benchmark PHYBench confirma el problema a escala: el mejor LLM (Gemini 2.5 Pro) solo alcanza un 36,9 % en física, contra un 61,9 % humano
  • Los World Models — sistemas que simulan estados físicos en lugar de predecir texto — emergen como la alternativa que podría resolver esta limitación

Los modelos de lenguaje grandes (LLM) son sistemas de IA entrenados para predecir la siguiente palabra en una secuencia de texto. Eso los hace extraordinarios para escribir código, resumir documentos y mantener conversaciones complejas. Pero predecir qué pasa en el mundo físico — algo tan mundano como a qué temperatura va a estar tu café en 20 minutos — es una tarea fundamentalmente distinta. Y ahí es donde empiezan los problemas.

El experimento de Dynomight no es nuevo en concepto, pero sí en ejecución. Es la clase de test que no necesita un laboratorio ni millones en infraestructura: solo un termómetro digital, agua hirviendo y paciencia. Lo que revela sobre las capacidades reales de la IA, sin embargo, tiene implicaciones serias para cualquiera que piense usar estos modelos en ingeniería, simulación o ciencia aplicada.

El experimento viral: pedirle a una IA que prediga la temperatura del café

La premisa es brutalmente simple. El autor del blog Dynomight hirvió 226,8 gramos de agua (8 onzas) y la vertió en una taza de cerámica de 0,57 kg (1,25 libras), con la temperatura ambiente estable en 20 °C. Después midió la temperatura con un termómetro digital a intervalos regulares — cada 5 segundos al principio, espaciando las mediciones hasta cada 60 segundos conforme el enfriamiento se hacía más lento.

Con esos datos, le dio a cada LLM exactamente la misma información: la masa del agua, la masa de la taza, la temperatura inicial del agua (~100 °C) y la temperatura ambiente. La consigna era clara: generá una ecuación que prediga la temperatura del agua en función del tiempo. Sin acceso a internet, sin herramientas externas. Solo razonamiento puro.

Lo que hace a este experimento tan revelador es justamente su simplicidad. No es un problema de física cuántica ni de dinámica de fluidos turbulenta. Es la ley de enfriamiento de Newton, un concepto que se enseña en el primer año de ingeniería. Si un LLM no puede resolver esto con precisión, ¿qué pasa cuando le pedís que modele algo realmente complejo?

La ley de enfriamiento de Newton dice que la tasa de pérdida de calor de un cuerpo es proporcional a la diferencia de temperatura entre el cuerpo y su entorno. La ecuación diferencial es: dT/dt = -k(T – T_ambiente). En la práctica, esto produce una curva de decaimiento exponencial donde la temperatura cae rápido al principio y cada vez más lento a medida que se acerca a la temperatura del ambiente. Cualquier estudiante de física la conoce. La pregunta era si los LLM también.

Qué modelos se pusieron a prueba y cómo les fue

Dynomight testeó varios de los modelos más potentes disponibles en 2026. Todos recibieron el mismo prompt con las mismas condiciones experimentales. Lo interesante no es solo quién ganó, sino que todos siguieron una estrategia similar: generar una ecuación de decaimiento exponencial con dos tasas de enfriamiento — una rápida para la fase inicial y una lenta para la fase final.

ModeloTipo de ecuaciónPrecisión relativaCosto en tokens
Claude 4.6 OpusDoble exponencial con ajuste térmicoMejor del grupoUS$ 0,61
GPT-4oDecaimiento exponencial dobleAceptable, con desvío en fase media~US$ 0,40
GeminiExponencial con corrección linealAceptable, sobrestimó fase final~US$ 0,35
Otros modelos testeadosVariantes de exponencial simple/dobleMenor precisión generalVariable
llm predicciones mundo real diagrama explicativo

Claude 4.6 Opus fue el que más se acercó a los datos medidos, con un costo total de 0,61 dólares en tokens. Pero “más cercano” no significa “preciso”. El autor de Dynomight calificó los resultados como “aceptables pero ninguno excelente” — una evaluación que aplica a todos los modelos sin excepción.

El patrón común fue que todos los modelos predijeron correctamente la forma general de la curva (enfriamiento exponencial), pero erraron en los detalles. En la fase inicial, los primeros 5-10 minutos, el agua real se enfrió más rápido de lo que cualquier modelo estimó. En la fase final, cuando la temperatura se acercaba a los 40-50 °C, el agua real se enfrió más lento de lo predicho. Básicamente, la realidad fue más extrema en ambos extremos de lo que los modelos calcularon.

Eso sí: que Claude haya ganado no significa necesariamente que “entienda” mejor la física. Puede ser que su entrenamiento incluya más textos técnicos sobre termodinámica, o que su cadena de razonamiento sea más larga y le permita hacer más ajustes antes de dar una respuesta final. Es una distinción sutil pero importante. Si te interesa, podés leer más sobre herramientas de IA que potencian estos modelos.

Donde fallaron: la física real vs. la predicción estadística

El problema central es que una taza de café enfriándose no sigue un decaimiento exponencial simple. La ley de Newton es una buena aproximación de primer orden, pero en la realidad intervienen factores que complican el modelo: la taza de cerámica absorbe calor del agua inicialmente (lo que acelera el enfriamiento al principio), la evaporación desde la superficie genera una pérdida de calor adicional no lineal, y la convección del aire alrededor de la taza cambia a medida que la diferencia de temperatura disminuye.

Ningún LLM modeló la absorción térmica de la cerámica como un factor separado. Ninguno incorporó la evaporación superficial como variable. Y ninguno ajustó la convección de forma dinámica. Todos simplificaron el problema a una o dos exponenciales y lo dieron por resuelto.

Un ejemplo concreto: en los primeros 2 minutos, la temperatura real del agua cayó desde ~100 °C hasta aproximadamente 82-85 °C — una caída de casi 15-18 grados. Los modelos predecían una caída de entre 8 y 12 grados en ese mismo intervalo. ¿Por qué la diferencia? Porque en esos primeros minutos, la cerámica fría está absorbiendo calor agresivamente mientras que además el agua pierde calor por evaporación a alta temperatura. Es un efecto combinado que una exponencial simple no captura.

En el otro extremo, después de 30-40 minutos, el agua real ya estaba casi en equilibrio térmico con el ambiente, enfriándose apenas fracciones de grado por minuto. Los modelos seguían prediciendo una tasa de enfriamiento mayor. La realidad es más “pegajosa” en las cercanías del equilibrio de lo que una exponencial sugiere.

Por qué los LLM no entienden el mundo físico (y las predicciones del mundo real les quedan grandes)

Yann LeCun, jefe de IA en Meta y una de las voces más influyentes del campo, lo viene diciendo hace años: “los LLM manipulan muy bien el lenguaje, pero la parte realmente difícil es entender el mundo real”. El experimento del café es la demostración perfecta de esta tesis.

Un LLM no “piensa” en temperatura, masa o transferencia de calor. Lo que hace es predecir qué secuencia de tokens es más probable dado el contexto. Cuando le pedís que modele el enfriamiento de una taza de café, lo que realmente está haciendo es buscar en sus patrones de entrenamiento qué tipo de ecuación aparece más frecuentemente asociada a ese tipo de problema. Si en su corpus de entrenamiento hay miles de ejemplos de la ley de Newton aplicada al enfriamiento, va a generar algo parecido. Pero no está resolviendo la ecuación diferencial desde primeros principios.

Los datos del benchmark PHYBench confirman esto a una escala mucho mayor. Este benchmark evalúa la capacidad de los LLM para resolver problemas de física universitaria que requieren razonamiento multi-paso: mecánica, electromagnetismo, termodinámica, óptica. Los resultados son contundentes: Gemini 2.5 Pro, el mejor modelo en este test, solo alcanza un 36,9 %. El baseline humano está en 61,9 %. Hay una brecha de 25 puntos porcentuales que ningún modelo ha cerrado.

El tema es que esta limitación no es un bug que se pueda parchear con más entrenamiento. Es consecuencia directa de la arquitectura. Un LLM procesa y genera lenguaje. No mantiene un modelo interno del mundo físico donde pueda “correr” simulaciones. Cada vez que le pedís que razone sobre física, está improvisando en base a patrones textuales, no calculando en base a leyes. A veces la improvisación es brillante. Otras veces, como con el café, se nota la diferencia.

World Models: la alternativa que sí aprende física

Si los LLM predicen palabras, los World Models predicen estados del mundo. Esa es la diferencia fundamental. Un World Model es un sistema de IA entrenado para construir una representación interna de cómo funciona el entorno físico y usarla para anticipar qué va a pasar después. No genera texto: genera predicciones sobre estados futuros.

Los proyectos más avanzados en esta línea son Google Genie 2, que genera entornos 3D interactuables a partir de imágenes; Meta V-JEPA 2, basado en la arquitectura que impulsa el propio LeCun, que aprende representaciones del mundo sin necesidad de generar píxeles; y en cierta medida OpenAI Sora, que aunque se presentó como generador de video, funciona internamente como un proto-World Model que “entiende” física básica para generar movimientos realistas.

Según análisis del sector, la inversión en World Models durante 2026 superó los 12 mil millones de dólares, el triple de lo invertido en 2025. Es el área de IA con mayor crecimiento de inversión, superando incluso a los propios LLM en términos de aceleración interanual.

La analogía más útil: los World Models están hoy donde estaban los LLM en 2020, antes de ChatGPT. Son prometedores en demos controladas pero todavía lejos de un producto masivo. Ahora bien, si seguimos la trayectoria de los LLM, en 2-3 años podríamos ver World Models capaces de simular sistemas físicos complejos con una precisión que hoy parece ciencia ficción. O no — la historia de la IA está llena de promesas que tardaron décadas más de lo esperado. Si te interesa, podés leer más sobre montar tu propio servidor para experimentar.

Qué puede (y qué no puede) hacer tu IA favorita con ciencia

Acá es donde conviene separar la paja del trigo. Los LLM actuales son excelentes en algunas tareas científicas y francamente malos en otras. El problema es que los benchmarks de marketing no siempre distinguen entre ambas.

En razonamiento científico teórico — responder preguntas de nivel posgrado sobre química, biología y física conceptual — Gemini lidera con un 94,3 % en GPQA (Graduate-level Google-Proof QA). Es impresionante. Pero GPQA evalúa conocimiento y razonamiento sobre texto, no predicción del mundo real. Es la diferencia entre saber explicar la ley de Newton y poder predecir correctamente cuándo tu café va a estar a 60 °C.

Claude Opus 4.6 destaca en coding con un 80,8 % en SWE-bench, lo que lo hace ideal para escribir simulaciones — pero escribir el código de una simulación no es lo mismo que generar la predicción correcta desde cero. GPT-4o se ubica en un punto intermedio, con buen rendimiento general pero sin dominar ninguna categoría específica.

Donde sí funcionan: tareas científicas basadas en patrones

Los LLM rinden bien cuando el problema se puede resolver reconociendo patrones en datos existentes. Ejemplos: predicción meteorológica donde GraphCast de DeepMind supera a modelos numéricos tradicionales en pronósticos de 10 días, descubrimiento de nuevos materiales donde GNoME identificó 2,2 millones de cristales estables, y predicción de estructuras proteicas con AlphaFold (que técnicamente no es un LLM, pero usa arquitectura transformer similar).

Donde fallan: simulación física desde primeros principios

Cuando necesitás que el modelo genere predicciones sobre sistemas físicos específicos que no están en su entrenamiento — como la temperatura exacta de tu café en tu taza — los resultados son mediocres. Un caso documentado en la comunidad de investigación: cuando se le pidió a GPT que simulara órbitas del sistema solar, confundió unidades astronómicas (AU) con kilómetros, generando órbitas que eran 149 millones de veces más pequeñas de lo que deberían ser. Es el tipo de error que un humano con conocimiento básico de física no cometería.

Lo que este experimento nos dice sobre el futuro de la IA

La limitación del razonamiento físico en los LLM no es un bug: es una consecuencia de diseño. Estos modelos fueron creados para procesar lenguaje, y en eso son extraordinarios. Pedirles que además entiendan la física del mundo real es como pedirle a un escritor brillante que sea también ingeniero mecánico. Puede saber mucho de mecánica por lo que leyó, pero no tiene la formación para diseñar un motor.

El futuro más probable apunta a sistemas híbridos. Imaginá un modelo que use un LLM para entender tu pregunta en lenguaje natural (“¿cuándo va a estar listo mi café para tomar?”), un World Model para simular la termodinámica del sistema, y un motor de cálculo para resolver las ecuaciones. Esa combinación podría dar respuestas precisas Y accesibles. Hoy no existe algo así en producción, pero los componentes ya están en desarrollo.

Las implicaciones van mucho más allá del café. La robótica necesita modelos que entiendan cómo interactúan los objetos físicos. La conducción autónoma depende de predecir cómo se van a mover otros vehículos y peatones. La simulación industrial requiere modelar procesos termodinámicos, mecánicos y químicos con precisión. En todos estos campos, el enfoque puro de LLM es insuficiente.

Me parece que el experimento de Dynomight, con toda su simplicidad, es un correctivo necesario. En un momento donde el hype de la IA infla expectativas hasta niveles absurdos, un test con agua hirviendo y un termómetro de 15 dólares demuestra que todavía hay cosas básicas que estos modelos no pueden hacer. No por falta de potencia computacional ni de datos de entrenamiento, sino por limitaciones fundamentales de arquitectura. Y reconocer eso es el primer paso para construir algo mejor. Si te interesa, podés leer más sobre buenas prácticas de seguridad en tus proyectos.

Errores comunes

“Si el LLM genera una ecuación correcta, la predicción va a ser precisa” — No necesariamente. Un modelo puede generar una ecuación de decaimiento exponencial que es conceptualmente correcta pero con parámetros (tasas de enfriamiento, coeficientes) que no reflejan las condiciones específicas del sistema real. Generar la forma de la ecuación no es lo mismo que calibrarla para un caso concreto. Siempre verificá las predicciones de un LLM contra datos empíricos antes de confiar en ellas.

“Los LLM más caros o más grandes son mejores en razonamiento físico” — El benchmark PHYBench muestra que no hay una correlación directa entre el tamaño del modelo y su capacidad para resolver problemas de física. Gemini 2.5 Pro lidera con 36,9 %, pero modelos más grandes no necesariamente superan a modelos más chicos en esta tarea. El cuello de botella no es la escala sino la arquitectura: predecir tokens no es lo mismo que simular física, sin importar cuántos parámetros tenga el modelo.

“Si un LLM responde con confianza y detalle sobre física, probablemente tenga razón” — Este es quizás el error más peligroso. Los LLM están entrenados para generar respuestas fluidas y convincentes, no para ser precisos. Un modelo puede explicarte la termodinámica de una taza de café con una confianza aplastante y al mismo tiempo darte valores numéricos que están un 30 % fuera de la realidad. La confianza del output no correlaciona con la precisión del resultado. En cualquier aplicación donde la precisión física importa, necesitás validación independiente.

Preguntas Frecuentes

¿Pueden ChatGPT o Claude predecir fenómenos físicos reales con precisión?

Pueden generar aproximaciones razonables basadas en ecuaciones conocidas, pero no predicciones precisas. En el experimento del café, el mejor modelo (Claude 4.6 Opus) se acercó a la curva real pero con errores significativos en las fases inicial y final del enfriamiento. Para predicciones físicas precisas, necesitás herramientas de simulación dedicadas, no un modelo de lenguaje.

¿Qué son los World Models y en qué se diferencian de los LLM?

Los World Models son sistemas de IA que construyen representaciones internas del mundo físico para predecir estados futuros, en lugar de predecir texto. Mientras un LLM genera la siguiente palabra más probable, un World Model simula qué va a pasar en un entorno dado. Proyectos como Google Genie 2 y Meta V-JEPA 2 lideran este campo, con una inversión que superó los 12 mil millones de dólares en 2026.

¿Por qué los modelos de lenguaje fallan al razonar sobre física?

Porque están diseñados para predecir secuencias de texto, no estados físicos. Un LLM no mantiene un modelo interno del mundo donde pueda “correr” simulaciones. Cuando le pedís que resuelva un problema de física, busca en sus patrones de entrenamiento qué ecuaciones aparecen asociadas a ese tipo de problema. Puede acertar la forma de la ecuación pero errar en los parámetros específicos, porque no está calculando desde primeros principios.

¿Cuál es el mejor modelo de IA para razonamiento científico en 2026?

Depende del tipo de razonamiento. Para preguntas teóricas de nivel posgrado (benchmark GPQA), Gemini lidera con 94,3 %. Para coding científico (SWE-bench), Claude Opus 4.6 alcanza 80,8 %. Pero para predicción del mundo físico real (PHYBench), el mejor modelo apenas llega al 36,9 % contra un 61,9 % humano. No existe un modelo que domine todas las categorías simultáneamente.

Conclusión

El experimento de Dynomight demostró algo que el hype de la IA tiende a oscurecer: los LLM no entienden la física, la imitan. Una taza de café enfriándose es un problema que cualquier estudiante de ingeniería puede modelar con papel y lápiz, y sin embargo los modelos más avanzados del mercado solo logran aproximaciones “aceptables pero no excelentes”. La brecha entre lo que estos modelos saben decir sobre física y lo que pueden predecir con precisión sigue siendo enorme.

Para vos, como usuario o como profesional que evalúa estas herramientas, el takeaway es claro: usá los LLM para lo que son buenos — entender tu pregunta, escribir código, explicar conceptos — pero no confíes en sus predicciones numéricas sobre el mundo físico sin validación independiente. Si tu proyecto depende de simulaciones precisas, usá software de simulación dedicado. Y mantené el ojo en los World Models, que son el campo donde se está intentando resolver esta limitación de raíz. Todavía faltan años para que sean herramientas maduras, pero la dirección es clara: el futuro de la IA no es solo predecir la siguiente palabra, sino entender el siguiente estado del mundo.

Fuentes

Similar Posts