A comienzos del siglo XX, Berlín contuvo el aliento ante un caballo. Lo llamaban Hans y, frente a una pizarra de números, hacía sonar el casco como si cada golpe arrancara una cifra del aire. La multitud juraba ver inteligencia en su mirada; su entrenador, Wilhelm von Osten, lo presentaba sin cobrar entrada, como quien ofrece un pequeño milagro.

El asombro fue tan grande que, entre 1904 y 1907, se organizó una investigación oficial. Primero, la llamada Comisión Hans descartó engaños burdos: no había hilos, ni claves pactadas, ni trucos circenses. Después, el psicólogo Oskar Pfungst diseñó experimentos controlados: cambió al interrogador, ocultó las expresiones faciales, varió la posición del público e incluso impidió el contacto visual. Cuando quien preguntaba no conocía la respuesta, o cuando Hans no podía “leer” a las personas, el caballo fallaba.

Pero el prodigio tenía costuras humanas: Hans no resolvía aritmética, leía cuerpos; detectaba señales mínimas —una ceja, un leve enderezarse el cuerpo, la respiración que se cambia justo en el número esperado— y detenía su casco en el punto exacto de la expectativa ajena. Así nació el término que aún usamos en ciencia: el “efecto Clever Hans”.
Esta historia es un espejo útil para la inteligencia artificial moderna. Los modelos –de GPT-4 no “descifran” el mundo: ajustan sus salidas a los patrones y pistas presentes en los datos, en las instrucciones y en el contexto que les damos. Igual que Hans, responden con asombrosa verosimilitud cuando las señales son ricas y la guía es nítida; y, también como Hans, fallan cuando retiramos esas pistas o las contaminamos. La enseñanza no es que el caballo fuera un fraude, sino que nuestra mirada lo era sin querer: fuimos nosotros quienes, con gestos invisibles, le dictamos la respuesta.
La inteligencia que creíamos observar estaba en la coreografía invisible de quienes hacían la pregunta. Hoy, cuando diseñamos, probamos o usamos sistemas de IA, necesitamos protocolos tan estrictos como los de Pfungst: preguntas ciegas, controles que eviten pistas espurias, validaciones con datos no vistos y entornos donde la respuesta correcta no pueda “adivinarse” por atajos. Porque la frontera entre comprender y simplemente complacer nuestras expectativas puede ser tan fina como el temblor de un músculo.
BIBLIOGRAFÍA
Samhita L, Gross HJ. The «Clever Hans Phenomenon» revisited. Commun Integr Biol. 2013 Nov 1;6(6):e27122. doi: 10.4161/cib.27122.
Khraisha Q, Put S, Kappenberg J, Warraitch A, Hadfield K. Can large language models replace humans in systematic reviews? Evaluating GPT-4’s efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages. Res Synth Methods. 2024 Jul;15(4):616-626. doi: 10.1002/jrsm.1715.
Pfungst O. Clever Hans (The Horse of Mr. von Osten): A contribution to experimental animal and human psychology. New York: Henry Holt; 1911. Project Gutenberg (eBook n.º 33936). Disponible en: https://www.gutenberg.org/ebooks/33936?