¿Qué puede aprender la IA de los cerebros de los animales?

¿Qué puede aprender la IA de los cerebros animales?

Para entender el desarrollo de los algoritmos de IA y la forma en que mejoran a medida que aprenden con el tiempo, es muy importante dar un paso atrás de los sistemas de inteligencia artificial y centrarse en cómo funcionan los cerebros. Resulta que los sistemas de IA funcionan de la misma manera que los cerebros humanos. Por lo tanto, primero debo explicar, al menos a un alto nivel, cómo funcionan los cerebros animales, y específicamente humanos.

La pieza más importante es la teoría de Aprender a Aprender, que describe cómo el cerebro aprende la técnica para aprender nuevos temas. El cerebro humano aprende y codifica información durante el sueño o al menos en momentos de descanso despierto, convertidamente la memoria a corto plazo a largo plazo, a través de la repetición de la hipocampo, la corteza visual y la amígdala. El cerebro también utiliza el mismo circuito que decodifica la información almacenada en el hipocampo, la corteza visual y la amígdala para predecir el futuro. Una vez más, al igual que el cerebro humano, los sistemas de IA decodifican la información anterior para crear escenas futuras, como lo que puede suceder a continuación en un vídeo.

Inspiraciones biológicas para el aprendizaje profundo

La verdad es que un ser humano es solo un algoritmo breve: 10 247 líneas. Son engañosamente simples. Una vez que los conoces, su comportamiento es bastante predecible.

— Westworld,
final de la segunda temporada (2018)

CEREBRO ANIMAL

Los humanos se han considerado durante mucho tiempo como el pináculo de las habilidades cognitivas entre los animales. Algo único en nuestros cerebros nos hace capaces de cuestionar nuestra existencia y, al mismo tiempo, creer que somos el rey del reino animal. Construimos carreteras, Internet e incluso naves espaciales, y estamos en la cima de la cadena alimentaria, por lo que nuestros cerebros deben tener algo que ningún otro cerebro tiene. * Nuestras habilidades cognitivas nos permiten permanecer en la cima aunque no seamos los animales más rápidos, fuertes o más grandes.

El cerebro humano es especial, pero la masa pura no es la razón por la que los humanos tienen más cognición que los animales diferentes. Si ese fuera el caso, entonces los elefantes estarían en la cima de la pirámide debido a sus cerebros más grandes. Pero no todos los cerebros son iguales. * Los primates tienen una clara ventaja sobre otros mamíferos. La evolución resultó en una forma económica en la que las neuronas se añaden a sus cerebros sin el aumento masivo en el tamaño medio de las células que se observa en otros animales.

Los primates también tienen otra ventaja sobre otros mamíferos en la capacidad de usar herramientas complejas. Los humanos no son los únicos primates que pueden hacer esto: los chimpancés, por ejemplo, usan ramitas para realizar muchas tareas, desde rascarse la espalda hasta cavar termitas. El uso de herramientas tampoco está restringido a los primates. Los cuervos también usan palos para extraer presas de sus escondites. E incluso pueden convertir sus palos en mejores herramientas, como hacer un gancho de talla al final de una ramita para llegar mejor a su presa. *

Otros animales también tienen habilidades cognitivas similares a las de los humanos. Los chimpancés y gorilas, que no pueden vocalizar por razones anatómicas, aprenden a comunicarse con el lenguaje de señas. Un chimpancé en Japón llamado Ai (que significa “amor” en japonés) juega en un ordenador mejor que el humano promedio. * Con su extensa investigación sobre los chimpancés, Jane Goodall demostró que podían entender los estados mentales de otros chimpancés y humanos y engañar a otros en función de su comportamiento. * Incluso los pájaros parecen conocer los estados mentales de otras personas. Por ejemplo, las urracas córeras cogiendo comida en presencia de los espectadores y luego la trasladan a un lugar secreto tan pronto como los espectadores se hayan ido. Las aves también pueden aprender el idioma. Alex,* un loro gris africano propiedad de la psicóloga Irene Pepperberg,* aprendió a producir palabras que simbolizan objetos. * Los chimpancés, los elefantes,* los delfines* e incluso las urracas* parecen reconocerse en el espejo. *

Entonces, ¿qué hace que los humanos sean más inteligentes que los chimpancés que, a su vez, son más inteligentes que los elefantes? La investigación de la profesora Suzana Herculano-Houzel mostró que el número de neuronas en la corteza cerebral de los mamíferos y el palio de las aves tiene una alta correlación con su capacidad cognitiva. *

La corteza cerebral y el pallium de las aves son la parte más externa del cerebro y más evolutiva avanzada que otras regiones cerebrales. Cuantas más neuronas en estas regiones específicas, independientemente del tamaño del cerebro o del cuerpo, mejor se desempeña una especie en la misma tarea. Por ejemplo, las aves tienen un gran número de neuronas comprimidas en su cerebro en comparación con los mamíferos, a pesar de que el tamaño de sus cerebros es más pequeño.

No solo eso, sino que el tamaño de la neocorteza, la parte más grande y moderna de la corteza, también es una restricción para el tamaño del grupo en los animales, es decir, en las relaciones sociales.

Robin Dunbar sugiere que existe un límite cognitivo para el número de personas con las que puedes mantener una relación. Su trabajo llevó a lo que se llama el número de Dunbar, y postula que la respuesta es 150 según el tamaño del cerebro humano y el número de neuronas corticales. *

Figura: La capacidad cognitiva de los animales y el número respectivo de neuronas corticales y paliales en sus cerebros. * Esta imagen muestra que hay una clara correlación entre la capacidad cognitiva y el rendimiento, y el número de neuronas corticales o paliales. El porcentaje de rendimiento en el eje y es la finalización de una tarea simple.
Figura: La capacidad cognitiva de los animales y el número respectivo de neuronas corticales y paliales en sus cerebros. * Esta imagen muestra que hay una clara correlación entre la capacidad cognitiva y el rendimiento, y el número de neuronas corticales o paliales. El porcentaje de rendimiento en el eje y es la finalización de una tarea simple.

Hay una respuesta simple sobre cómo nuestros cerebros pueden ser al mismo tiempo similares a otros en sus limitaciones evolutivas y, sin embargo, tan avanzados para crear un lenguaje y desarrollar herramientas tan complejas como nosotros. Ser primates otorga a los humanos la ventaja de un gran número de neuronas envasadas en una pequeña corteza cerebral. *

LA CONEXIÓN ENTRE EL CEREBRO Y LA INTELIGENCIA ARTIFICIAL

¿Qué tienen que ver los cerebros de los animales con los sistemas de IA y los humanos? En primer lugar, la capacidad cognitiva de algunos animales sugiere que no somos tan únicos como algunos piensan. Mientras que algunos argumentan que hay ciertas capacidades que solo los humanos pueden realizar, se ha demostrado que están equivocadas una y otra vez. En segundo lugar, la correlación de la capacidad cognitiva y el número de neuronas podría ser una indicación de que las redes neuronales funcionarán mejor a medida que aumente el número de neuronas artificiales. Estas redes neuronales artificiales, por supuesto, necesitan los datos correctos y el tipo de software correcto, como se discutió en la sección anterior.

Si bien el número de neuronas afecta a la capacidad cognitiva de los animales, sus cerebros tienen muchas más neuronas que la mayoría de los modelos de aprendizaje profundo. Las redes neuronales de hoy en día tienen alrededor de 1 millón de neuronas, aproximadamente el mismo número que una abeja. Puede que no sea una coincidencia que a medida que las redes neuronales aumenten de tamaño, mejor se desempeñen en diferentes tareas. A medida que se acercan al número de neuronas en un cerebro humano, alrededor de 100 mil millones de neuronas, podría ser que realicen todas las tareas humanas con la misma capacidad.

APLICACIÓN DE LOS CEREBROS DE LOS ANIMALES A LA IA

Existe una clara correlación entre la capacidad cognitiva de los animales y el número de neuronas paliales o corticales. Por lo tanto, se deduce que el número de neuronas en una red neuronal artificial debería afectar el rendimiento de estos modelos, ya que las redes neuronales se diseñaron en función de cómo las neuronas interactúan entre sí.

Una red neuronal puede representar cualquier tipo de programa, y las redes neuronales que tienen un mayor número de neuronas y capas pueden representar programas más complejos. Debido a que los problemas más complejos requieren programas más complicados, las redes neuronales más grandes son la solución. A medida que el aprendizaje automático evolucionó para hacer algoritmos más eficientes, las redes neuronales necesitaban más capas y neuronas. Pero con ese avance surgió el problema de averiguar los pesos de todas estas neuronas.

Con 1000 conexiones, al menos21000 ≈ 10300las configuraciones son posibles, suponiendo que cada peso pueda ser 0 o 1. Dado que los pesos suelen ser números reales entre 0 y 1, el número de configuraciones es infinito. Por lo tanto, averiguar los pesos se volvió intratable, pero la retropropagación resolvió este problema. Esa técnica ayudó a los investigadores a determinar los pesos cambiándolos primero en la última capa y luego bajando las capas hasta llegar a la primera. Esto hizo que el problema fuera más manejable y permitió a los desarrolladores e investigadores utilizar redes neuronales multicapa para diferentes algoritmos. Por cierto, este trabajo se llevó a cabo independientemente de la investigación en neurociencia.

Años de investigación demostraron que la técnica de retropropagación utilizada en la informática también ocurre en el cerebro. Los neurocientíficos tienen modelos que podrían mostrar que el cerebro humano podría emplear un método similar para el aprendizaje, y el cerebro realiza el mismo algoritmo de aprendizaje que los investigadores crearon para actualizar sus redes neuronales artificiales. Los pulsos cortos de dopamina* se liberan en muchos dendritas, lo que impulsa el aprendizaje sináptico en el cerebro humano, parte del error de predicción de las neuronas por no predecir lo que se esperaba. El aprendizaje profundo, la retropropagación funciona actualizando los pesos de la red neuronal en función del error de predicción de la salida del modelo en comparación con la salida esperada. Tanto el cerebro como las redes neuronales artificiales utilizan estos errores para actualizar los pesos o las sinapsis. La investigación sobre el cerebro y la informática parecen converger. Es como si los ingenieros mecánicos desarrollaran aviones simplemente para descubrir que las aves usan la misma técnica. En este caso, los informáticos desarrollaron redes neuronales artificiales que demuestran cómo funcionan los cerebros.

Los cerebros humanos* y los algoritmos de IA se desarrollaron por separado y a lo largo del tiempo, pero aún así funcionan de maneras similares. Puede que no sea una coincidencia que miles de millones de años de evolución hayan llevado a algoritmos de mejor rendimiento, así como a técnicas mejoradas para aprender e interactuar con el medio ambiente. Por lo tanto, es valioso entender cómo funciona el cerebro y compararlo con el software que desarrollan los informáticos.

Aprender a aprender teoría

Los algoritmos que están ganando en juegos como Go o Dota 2 utilizan el aprendizaje por refuerzo para entrenar redes neuronales multicapa. El cerebro animal también utiliza el aprendizaje de refuerzo a través de la dopamina. Pero la investigación muestra que el cerebro humano realiza dos tipos de aprendizaje de refuerzo uno encima del otro. Esta nueva teoría implementa una técnica llamada Learning to Learn, también llamada aprendizaje de meta-refuerzo, que puede beneficiar a los algoritmos de aprendizaje automático.

EL MODELO ESTÁNDAR DE APRENDIZAJE

La dopamina es el neurotransmisor asociado con la sensación de deseo y motivación.

Las neuronas liberan dopamina cuando una recompensa por una acción es sorprendente. Por ejemplo, cuando un perro recibe un tratamiento inesperadamente, la dopamina se libera en el cerebro. Lo contrario también es cierto. Cuando el cerebro predice una recompensa y el animal no la recibe, se produce una caída en la dopamina. En pocas palabras, la dopamina sirve como una forma de que el cerebro aprenda a través del aprendizaje por refuerzo.

Estas fluctuaciones de dopamina son lo que los científicos llaman la señalización de un error de predicción de recompensas. Hay una explosión de dopamina cuando las cosas están mejor de lo esperado y una caída cuando las cosas están peor. Docenas de estudios muestran que la ráfaga de dopamina, cuando llega al estriado, ajusta la fuerza de las conexiones sinápticas. ¿Cómo impulsa eso el comportamiento? Cuando ejecutas una acción en una situación en particular, si se produce una recompensa inesperada, entonces fortaleces la asociación entre esa situación y la acción. La intuición dice que si haces algo y te sorprenden gratamente, entonces deberías hacerlo más a menudo en el futuro. Y si haces algo y te sorprenden desagradablemente, entonces deberías hacerlo con menos frecuencia.

Dentro del cerebro de las personas, los niveles de dopamina aumentan cuando hay una diferencia entre la recompensa prevista y la recompensa por una tarea. Butdopamina también aumenta cuando predice que una recompensa está a punto de suceder. Por lo tanto, engaña al cerebro de la gente para que haga el trabajo, incluso si la recompensa no llega. Por ejemplo, cuando entrenas a un perro para que haga algo como venir a ti cuando haces sonar un silbato, la dopamina es lo que impulsa el cambio sináptico. Enseñas a tu perro a venir cuando se le llama recompensándolo, como darle un regalo, cuando hace lo que quieres. Después de un tiempo, ya no necesitas recompensar al perro porque su cerebro libera dopamina, esperando la recompensa (tratar). La dopamina es parte de lo que se conoce como aprendizaje de refuerzo sin modelos.

APRENDIZAJE DE REFUERZO SIN MODELO FRENTE A APRENDIZAJE BASADO EN MODELOS

Pero ese no es el único sistema en el cerebro de las personas que se beneficia del aprendizaje de refuerzo. La corteza prefrontal, la parte de la corteza que está en la parte delantera del cerebro, también utiliza recompensas de aprendizaje de refuerzo en sus actividades o dinámicas.

La corteza prefrontal junto con el resto del cerebro tiene dos circuitos que crean lo que se llama Aprender a Aprender. El aprendizaje basado en modelos se produce vía dopamina y el aprendizaje sin modelos actúa sobre ese circuito en la corteza prefrontal.

Una forma de describir la diferencia entre el aprendizaje de refuerzo sin modelos y basado en modelos es que este último utiliza un modelo de la tarea, es decir, una representación interna de las contingencias de la tarea. Si hago esto, entonces esto sucederá, o si hago eso, entonces sucederá la otra cosa. Sin embargo, el aprendizaje sin modelos no lo hace. Solo responde al fortalecimiento o debilitamiento de las asociaciones de estímulo-respuesta. El aprendizaje sin modelos no sabe lo que va a pasar a continuación y simplemente reacciona a lo que está sucediendo ahora. Es por eso que un perro puede aprender, con dopamina, cómo llegar cuando se le llama, incluso si dejas de darle golosinas. No tenía ningún modelo del evento, pero aprendió que el estímulo, como el silbido, es algo bueno.

VALOR INFERIDO

Si el mecanismo de aprendizaje de la dopamina no tiene modelo, entonces no debe reflejar algo llamado valor inferido. Explico lo que eso significa que el siguiente experimento ayudará a explicar este concepto

Un mono mira un punto fijo central y ve objetivos a la izquierda y a la derecha. Si el mono mueve los ojos hacia un objetivo, se le da una recompensa o no, dependiendo del lado hacia el que se le pidió que mirara. A veces se recompensa a la izquierda y otras veces a la derecha. Estas contingencias de recompensa permanecen las mismas durante un tiempo y luego se revierten de una manera que no se indica al animal, excepto por las propias recompensas. Por lo tanto, digamos que la izquierda es recompensada todo el tiempo y la derecha no lo es, pero de repente, la derecha es recompensada todo el tiempo y eso continúa durante un tiempo.

Inicialmente, el mono recibió una recompensa por mirar a la izquierda, y el cerebro inmediatamente recibió dopamina. En este caso, si el mono se ve bien, la dopamina no se libera porque el mono no va a recibir una recompensa. Pero en el momento de la reversión, el mono piensa que recibirá una recompensa por mirar a la izquierda, pero no recibe nada. Cuando el objetivo cambia a la derecha, el mono recibe una recompensa por esa nueva tarea. Una vez que el animal entiende la nueva tarea, mirar hacia la izquierda ya no debería desencadenar la respuesta a la dopamina porque el animal tiene experiencia y evidencia para decir que hay una inversión. La tarea que solía excitar la dopamina decepciona al sistema de dopamina, y el objetivo que anteriormente no estimulaba el sistema de dopamina ahora lo hace. El animal ha experimentado una asociación estímulo-recompensa, y el sistema dopamina se ajusta a eso.

Pero considera un escenario diferente. El animal fue recompensado por mirar a la izquierda, pero en el siguiente juicio, el derecho es el objetivo. No tiene experiencia con el derecho en este nuevo régimen. Pero lo que encuentras es que si el derecho no fue recompensado antes y el animal defiere que el derecho debe ser recompensado, entonces se libera dopamina. Dado que el mono sabe que ha habido una reversión ahora, puede decir que el próximo objetivo debe ser recompensado. Esta es una inferencia basada en modelos, ya que se basa en el conocimiento de la tarea, y esa presunta recompensa se llama valor inferido.

TAREAS EN DOS PASOS

Dado el concepto de valor inferido, es posible determinar que algunas partes del cerebro aprenden a través del aprendizaje sin modelo y otras a partir del aprendizaje de refuerzo basado en modelos. La respuesta a la dopamina claramente no muestra un valor inferido porque no se basa en un modelo de la tarea, pero el cerebro todavía realiza el aprendizaje de refuerzo basado en modelos en su circuito de corteza prefrontal. La técnica para mostrar esto se llama tarea de dos pasos y funciona de la siguiente manera.

Digamos que juegas a un juego en el que conduces un coche. Las únicas dos acciones son girar a la izquierda o a la derecha. Si giras a la izquierda, morirás y perderás el juego. Pero si giras a la derecha, entonces sigues jugando.

Si el conductor vuelve a jugar, un sistema sin modelo dice: “Si giré a la derecha y no morí la última vez, entonces debería girar a la derecha de nuevo. Girar a la derecha es “bueno”. Un sistema basado en modelos entenderá la tarea en cuestión y girará a la derecha cuando la carretera vaya a la derecha y girará a la izquierda cuando la carretera vaya a la izquierda. Por lo tanto, alguien que aprenda a conducir usando un algoritmo de aprendizaje de refuerzo sin modelo nunca aprenderá a conducir estas carreteras correctamente. Pero un conductor que aprenda a conducir con un algoritmo basado en modelos lo hará bien.

Esta sencilla tarea nos da una forma de separar la selección de acciones sin modelos y basada en modelos. Si traza el comportamiento del comienzo de la prueba, puede mostrar si el sistema es un algoritmo de aprendizaje de refuerzo sin modelo o basado en modelos. La tarea de dos pasos muestra la huella dactilar del algoritmo.

Los estudios con humanos e incluso animales, incluidas las ratas, que miden las señales cerebrales en la tarea de dos pasos muestran que la corteza prefrontal presenta el patrón basado en el modelo. En 2015, Nathaniel Daw demostró ese comportamiento en el circuito prefrontal humano a través de señales cerebrales y la tarea de dos pasos. * Esto implica que el circuito prefrontal aprende de su propio procedimiento de aprendizaje de refuerzo autónomo, que es distinto del algoritmo de aprendizaje de refuerzo utilizado para establecer los pesos de la red neuronal, el aprendizaje de refuerzo basado en modelos basados en dopamina.

APRENDIZAJE SIN MODELOS Y BASADO EN MODELOS, TRABAJANDO JUNTOS

Estos dos tipos de circuitos trabajan juntos para formar lo que se conoce como Aprender a Aprender. La dopamina funciona sobre la corteza prefrontal como parte de un sistema de aprendizaje de refuerzo libre de modelos para actualizar las conexiones del circuito, mientras que el circuito de la corteza prefrontal aprende a través del aprendizaje de refuerzo basado en modelos.

El tipo de aprendizaje de refuerzo implementado en el circuito prefrontal se puede ejecutar incluso cuando los pesos sinápticos están congelados. Eso significa que el circuito neuronal en el cerebro no actualiza los pesos de las sinapsis para implementar el aprendizaje de refuerzo.

Es diferente del algoritmo de aprendizaje de refuerzo realizado por la dopamina que entrena los pesos sinápticos en la corteza prefrontal. En el circuito prefrontal, la estructura de la tarea esculpe el algoritmo de aprendizaje de refuerzo aprendido, lo que significa que cada tarea tendrá un tipo diferente de algoritmo de aprendizaje de refuerzo basado en modelos que se ejecuta en el circuito prefrontal.

En un tipo diferente de experimento, los monos tienen dos objetivos, A y B, frente a ellos y la probabilidad de recompensa entre los dos objetivos cambia con el tiempo. * El mono mira el punto central entre los objetivos, y luego elige mirar fijamente a un objetivo u otro y recibe una recompensa después de un minuto más o menos. Este experimento demostró que el cerebro tiene los dos tipos de algoritmos de aprendizaje de refuerzo trabajando juntos, uno basado en dopamina sin modelo sobre un algoritmo basado en modelos.

Con eso en mente, Matthew Botvinick diseñó una red neuronal de aprendizaje profundo que tenía las mismas características que los cerebros de los monos, es decir, que aprendieron a aprender.

Los resultados mostraron que si entrenas un sistema de aprendizaje profundo en esta tarea utilizando un algoritmo de aprendizaje de refuerzo y sin ninguna suposición adicional, la propia red instanciaba un algoritmo de aprendizaje de refuerzo separado; es decir, la red imitaba lo que se encontraba en el cerebro. *

Dormir y aprender

Y solo después de ver al hombre como su inconsciente, revelado por sus sueños, nos lo presenta que lo entenderemos plenamente. Porque como Freud le dijo a Putnam: “Somos lo que somos porque hemos sido lo que hemos sido”.André Tridon*

Es un hecho bien conocido que la formación de la memoria y el aprendizaje están relacionados con el sueño. Una mente descansada es más capaz de aprender conceptos, y el cerebro humano no tiene un recuerdo tan detallado de ayer como lo tiene de hoy. En este capítulo, detallo cómo aprende el cerebro durante el sueño, describiendo la repetición hipocampal, la repetición visual de la corteza y la repetición de la amígdala. Todos son mecanismos que el cerebro utiliza para convertir la memoria a corto plazo en memoria a largo plazo, codificando el conocimiento almacenado a lo largo del día. El mismo circuito responsable de decodificar la información de la neocorteza para apoyar la recuperación de la memoria también se utiliza para la imaginación, lo que indica que el cerebro no registra cada momento y pasa tiempo aprendiendo durante la noche.

TEORÍA DE SISTEMAS DE APRENDIZAJE COMPLEMENTARIO

En 1995, se introdujo la teoría de los sistemas de aprendizaje complementario (CLS),* una idea que tenía sus raíces en el trabajo anterior de David Marr. * Según esta teoría, el aprendizaje requiere dos sistemas complementarios. El primero, que se encuentra en el hipocampo, permite un rápido aprendizaje de los detalles de los elementos y la experiencia individuales. El segundo, ubicado en la neocortex, sirve como base para la adquisición gradual de conocimientos estructurados sobre los entornos.

La neocorteza adquiere gradualmente conocimientos estructurados*, y el hipocampo aprende rápidamente los detalles. El hecho de que el daño bilateral al hipocampo afecte profundamente la memoria para obtener información nueva, pero deja intactos el lenguaje, el conocimiento general y las habilidades cognitivas adquiridas apoya esta teoría. La memoria episódica, es decir, la memoria relacionada con colecciones de experiencias personales pasadas que ocurren en un momento y lugar en particular, es ampliamente aceptada para depender del hipocampo.

Figura: Ubicación del hipocampo dentro del cerebro humano.
Figura: Ubicación del hipocampo dentro del cerebro humano.

REPETICIÓN DE HIPPOCAMPAL

El hipocampo es responsable de la memoria espacial (¿dónde estoy?), la memoria declarativa (saber qué), la memoria explícita (recuerda la cena de anoche) y el recuerdo (recuperación de información adicional sobre un elemento en particular como el color del teléfono de su madre).

La repetición del hipocampo es el proceso por el cual, durante el sueño o el reposo despierto, las mismas células del hipocampo activadas durante una actividad inicial se activan durante el sueño en el mismo orden, o en el orden completamente inverso, pero a una velocidad mucho más rápida. Se ha demostrado que la repetición del hipocampo tiene un papel causal en la consolidación de la memoria.

Howard Eichenbaum y Neal J. Cohen capturó esta opinión en 1988 con su sugerencia de que estas neuronas hipocampo deberían llamarse células relacionales en lugar del término más estrecho “células de lugar”. *

El hipocampo es una parte esencial de cómo se forman los recuerdos. * Cuando un ser humano experimenta una nueva situación, la información sobre ella se codifica y registra tanto en las regiones del hipocampo como en las regiones corticales. La memoria se conserva en el hipocampo hasta una semana después del aprendizaje inicial. Durante esta etapa, el hipocampo enseña cada vez más a la neocorteza sobre la información. Este proceso se llama repetición del hipocampo. Por ejemplo, durante el día, un ratón queda atrapado en un laberinto y aprende el camino para salir. Esa noche, el hipocampo reproduce las mismas neuronas que se dispararon en el hipocampo y codifica la información espacial en la neocorteza. La próxima vez que el ratón esté en el mismo laberinto, sabrá a dónde ir en función de la información codificada.

En esta teoría, el hipocampo, donde las sinapsis cambian rápidamente, se encarga de almacenar los recuerdos temporalmente, mientras que las sinapsis neocorticales cambian con el tiempo. Las lesiones realizadas en el hipocampo y las estructuras asociadas en los animales están asociadas con déficits en la memoria de trabajo espacial y un fallo en el reconocimiento de entornos familiares. Por lo tanto, la consolidación puede ser un proceso activo mediante el cual se seleccionan nuevas trazas de memoria e incorporan al corpus de conocimiento existente a tasas variables y con éxito diferencial según su contenido.

REPRODUCCIÓN VISUAL DE LA CORTEZA

La corteza visual presenta el mismo tipo de repetición y actúa en sincronía con el hipocampo. * Los experimentos muestran que la repetición temporalmente estructurada se produce en la corteza visual y el hipocampo de una manera organizada llamada marcos. Las secuencias de disparo multicelular evocadas por las experiencias despiertas se reproducen durante estos marcos en ambas regiones. No solo eso, sino que los eventos de repetición en la corteza sensorial y el hipocampo se coordinan para reflejar la misma experiencia.

REPETICIÓN DE AMYGDALA

Las ratas despiertas aterradoras reactivan el centro de miedo de su cerebro, la amígdala, cuando se van a dormir. * En 2017, los científicos de la Universidad de Nueva York (NYU), György Buzsáki y Gabrielle Girardeau, demostraron esto añadiendo ratas a un laberinto y luego dándoles una experiencia desagradable pero inofensiva, como una bocanada de aire. * A partir de entonces, las ratas temían ese lugar. “Se ralentizaron antes de la ubicación de la bocanada de aire, luego [se alejaron] súper rápido de ella”. El equipo también registró la actividad en las células de la amígdala, que mostró el mismo patrón de disparo que el hipocampo. Sus amígdalas se volvieron más activas cuando revisitaron mentalmente el temible lugar. * Estos eventos pueden ocurrir con el fin de almacenar la información retenida en una parte diferente de nivel inferior del cerebro, así como en la neocorteza, que es una parte más avanzada evolutivamente del cerebro.

Buzsáki señaló que no está claro si las ratas experimentaron esto como un sueño o si la experiencia condujo a pesadillas. “No podemos preguntarles”. Continuó diciendo: “Ha sido bastante bien documentado que el trauma conduce a malos sueños. La gente tiene miedo de irse a dormir”.

RETIRADA DE MEMORIA FRENTE A FORMACIÓN DE MEMORIA

Cuando las personas tienen nuevas experiencias, la memoria formada por ellas se almacena en el cerebro en diferentes partes del hipocampo y otras estructuras cerebrales. Diferentes áreas del cerebro almacenan diferentes partes de la memoria, como la ubicación de donde ocurrió el evento y las emociones asociadas con él. *

Durante mucho tiempo, los neurocientíficos que estudiaron el cerebro creyeron que cuando recordamos los recuerdos, nuestros cerebros activan el mismo circuito hipocampo que cuando se formaron inicialmente los recuerdos. Pero un estudio en 2017,* realizado por neurocientíficos del MIT, mostró que recordar una memoria requiere un circuito de desvío, llamado subiculum, que se ramifica del circuito de memoria original. *

“Este estudio aborda una de las preguntas más fundamentales en la investigación cerebral, a saber, cómo se forman y recuperan las memorias episódicas, y proporciona evidencia de una respuesta inesperada: circuitos diferenciales para la recuperación y formación”, dice Susumu Tonegawa, profesor de Biología y Neurociencia de Picower. *

El estudio también tiene ideas potenciales sobre el Alzheimer y el circuito del subículo. Si bien los investigadores no estudiaron específicamente la enfermedad, descubrieron que los ratones con Alzheimer en etapa temprana tenían dificultades para recordar recuerdos, aunque continuaron creando otros nuevos.

En 2007, un estudio publicado por Demis Hassabis mostró que los pacientes con daño en su hipocampo no podían imaginarse en nuevas experiencias. * El hallazgo muestra que hay un vínculo claro entre el proceso constructivo de la imaginación y el recuerdo episódico de la memoria. Lo discutiremos más a fondo en el próximo capítulo.

LA RELACIÓN DEL SUEÑO CON EL APRENDIZAJE PROFUNDO

Todas las partes de bajo nivel del cerebro, incluido el hipocampo, la corteza visual y la amígdala, se reencuen durante el sueño para codificar la información. Es por eso que es fácil recordar lo que almorzaste el mismo día, pero es difícil recordar lo que comiste ayer. Los recuerdos a corto plazo en los niveles más bajos permanecen hasta que tu cerebro los almacena y codifica todo el conocimiento durante el sueño. El neocortex almacena información relevante codificada y compactada.

Las redes neuronales profundas también sirven como una forma de codificar la información. Por ejemplo, cuando una red neuronal profunda clasifica una imagen, la codifica en los objetos clasificados porque la imagen contiene más bits de datos que una simple etiqueta. Una manzana puede verse de mil maneras diferentes, pero todas se llaman manzanas. Convertir la memoria a corto plazo en memoria a largo plazo implica comprimir toda la información, incluyendo visual, táctil y cualquier otro material sensorial en datos compactos. Por lo tanto, alguien puede decir que se comió una manzana jugosa ayer, pero no recuerda todos los detalles de cómo se veía o sabía la manzana.

La memoria y la imaginación sirven como una forma de decodificar la información de las partes superiores del cerebro, incluida la neocorteza, a las partes inferiores del cerebro, incluida la amígdala, la corteza visual y el hipocampo. La memoria y la imaginación solo pueden decodificar la información que se almacena en la neocorteza.

Predecir el futuro

¿Qué es la codificación predictiva?

John Anderton: ¿Por qué cogiste eso?

Danny Witwer: Porque iba a caer.

John Anderton: ¿Estás seguro?

Danny Witwer: Sí.

John Anderton: Pero no se cayó. Lo has pillado. El hecho de que hayas evitado que sucediera no cambia el hecho de que iba a suceder.

Informe de la minería (2002)

CODIFICACIÓN PREDICTIVA

Un estudio realizado en 1981 por James McClelland y David Rumelhart en la Universidad de California, San Diego, mostró que el cerebro humano procesa la información generando una hipótesis de la entrada y luego actualizándolo a medida que el cerebro recibe datos de sus sentidos. * Demostraron que las personas son capaces de identificar las letras cuando están situadas en el contexto de las palabras, en comparación con las palabras sin esa configuración semántica.

En 1999, los neurocientíficos Rajesh Rao y Dana Ballard crearon un modelo computacional de visión que replicaba muchos efectos de campo receptivo bien establecidos. * El documento demostró que podría haber un modelo generativo de una escena (procesamiento de arriba hacia abajo) que recibiera retroalimentación a través de señales de error (cuánto variaba la entrada visual de la predicción), lo que a su vez llevó a actualizar la predicción. El proceso de creación del modelo generativo de la escena se llama codificación predictiva, por la que el cerebro crea información de nivel superior y llena los huecos de lo que genera la entrada sensorial.

Figura: Un ejemplo de una oración que ha volteado las palabras. El cerebro utiliza la codificación predictiva para corregirlos.
Figura: Un ejemplo de una oración que ha volteado las palabras. El cerebro utiliza la codificación predictiva para corregirlos.

Un ejemplo de codificación predictiva es cuando lees una oración que contiene una palabra que está invertida o que contiene una letra en el medio que no debería estar allí, como en la imagen de arriba. El cerebro borra el error y la oración parece correcta. Esto sucede porque el cerebro espera que la redacción sea correcta cuando se encuentra por primera vez. A medida que nuestro cerebro procesa la oración, predice lo que debe escribirse y envía esa información aguas abajo a los niveles inferiores del cerebro. La codificación predictiva funciona no solo en oraciones, sino también en muchos sistemas diferentes dentro del cerebro.

EL PUNTO CIEGO

Figura: La codificación predictiva funciona en el cerebro, prediciendo qué imágenes están en el punto ciego de los ojos de las personas.
Figura: La codificación predictiva funciona en el cerebro, prediciendo qué imágenes están en el punto ciego de los ojos de las personas.

El ojo humano tiene un punto ciego, que es causado por la falta de receptores visuales dentro de la retina, donde se encuentra el nervio óptico, que transmite información a la corteza visual. Este punto ciego no produce una imagen en el cerebro de las personas, pero no notan la brecha porque el cerebro humano la llena de la misma manera que el cerebro actualiza una palabra incorrecta en una oración. El cerebro humano espera la parte que falta de la imagen a pesar de que no está allí. El cerebro se encarga de rellenar imágenes y corregir palabras subconscientemente.

Figura: Demostración del punto ciego. Cierra un ojo y enfoca el otro en la letra R. Coloque el ojo a una distancia de la pantalla aproximadamente igual a tres veces la distancia entre la R y la L. Mueve el ojo hacia o lejos de la pantalla hasta que notes que la letra L desaparece.
Figura: Demostración del punto ciego. Cierra un ojo y enfoca el otro en la letra R. Coloque el ojo a una distancia de la pantalla aproximadamente igual a tres veces la distancia entre la R y la L. Mueve el ojo hacia o lejos de la pantalla hasta que notes que la letra L desaparece.

Para demostrar que el punto ciego está presente en sus ojos, coloque sus ojos a una distancia equivalente a tres veces la distancia entre la R y la L en la figura anterior. Cierra uno de tus ojos y enfoca el otro ojo en la letra apropiada. Si el ojo derecho está abierto, concéntrate en la R o viceversa. Acércate o más lejos de la pantalla hasta que la otra letra desaparezca. La carta desaparecerá debido al punto ciego del ojo. *

CODIFICACIÓN PREDICTIVA EN EL SOFTWARE

Yann LeCun, el científico jefe de inteligencia artificial de Facebook AI Research y fundador de CNNs, está trabajando en hacer que la codificación predictiva funcione en las computadoras. *

En informática, la codificación predictiva es un modelo de redes neuronales que genera y actualiza un modelo del entorno, prediciendo lo que sucederá a continuación.

La técnica de LeCun se llama aprendizaje predictivo, que alude al hecho de que está tratando de predecir lo que va a suceder en un futuro cercano, así como llenar los vacíos cuando la información está incompleta o incorrecta. * Desarrolló la técnica utilizando redes adversarias generativas para crear un vídeo de lo que es más probable que suceda en el futuro. Para lograrlo, el software de LeCun analizó fotogramas de vídeo y, basándose en ellos, creó los siguientes fotogramas del vídeo. La técnica minimiza la diferencia entre los fotogramas generados de los fotogramas de vídeo analizados, una medida conocida como distancia. Por ejemplo, si los fotogramas generados contienen una imagen de un gato y los fotogramas originales no, entonces la distancia entre los fotogramas será alta. Si contienen elementos muy similares, entonces la distancia es pequeña. Actualmente, la técnica puede predecir hasta los próximos ocho fotogramas en el futuro, pero no es demasiado impensable ver un futuro en el que las máquinas puedan predecir los resultados futuros mejor que los humanos.

Figura: El primer fotograma proviene de un vídeo real, y una máquina predice el siguiente paso del vídeo en el segundo fotograma.
Figura: El primer fotograma proviene de un vídeo real, y una máquina predice el siguiente paso del vídeo en el segundo fotograma.
86

PLANIFICACIÓN Y PENSAMIENTO FUTURO

El hipocampo no solo es responsable de recordar, sino también de planificar y pensar en el futuro, es decir, construir escenarios potenciales. Los pacientes con daño hipocampo tienen dificultades para imaginar el futuro y no pueden describir escenas ficticias. Además, la resonancia magnética funcional (fMRI) indica múltiples áreas del cerebro, incluido el hipocampo, involucradas durante la memoria y la imaginación de eventos.

La investigación muestra que la repetición del hipocampo invertido con más frecuencia representa la novela en lugar de entornos familiares. Este efecto, medido por coactivaciones de pares celulares, fue más pronunciado el primer día de exposición a un entorno nuevo que en los días siguientes.

UNA TEORÍA DE CODIFICACIÓN Y DECODIFICACIÓN

Las redes adversarias generativas sirven como una forma de construir imágenes y escenarios. Sin embargo, de alguna manera, los GAN decodifican la información. Existen técnicas para generar imágenes basadas en unos pocos parámetros. Por ejemplo, pueden generar imágenes de una mujer sonriente.

Del mismo modo, el proceso de recordar o imaginar el futuro, que lo realiza el hipocampo, a veces es activado por la corteza prefrontal y se ve como información decodificadora con parámetros. Los GAN consisten en dos redes neuronales, una que codifica información y la otra que la decodifica. De la misma manera, el cerebro humano tiene dos circuitos que codifican la información desde el hipocampo hasta la corteza prefrontal y decodifican la información en la otra dirección. No será de extrañar que el mismo mecanismo que entrena los GAN (y los autocodificadores) se realice en el cerebro humano.

Los GAN podrían servir para simular el mundo real y ya se utilizan para crear imágenes y vídeos reproducidos. El problema es que la mayoría de los mejores sistemas de IA están hechos para motores de juegos. Algunos argumentan que la razón por la que los sistemas de IA funcionan tan bien en los juegos es que los motores de juegos son su propia versión del mundo. Eso significa que los sistemas de IA pueden practicar y aprender en un entorno virtual.

En el mundo real, por ejemplo, un sistema de conducción autónoma no puede conducir un coche por un acantilado miles de veces para aprender. De hecho, un coche que sale de un acantilado ya es fatal, y un sistema que sale de un acantilado una vez no puede funcionar en el mundo real. Algunos dicen que para entrenar un sistema de inteligencia artificial, es necesario entrenarlo en un mundo simulado. Para los algoritmos de aprendizaje supervisados y no supervisados, el sistema debe ver al menos 1.000 ejemplos de lo que está tratando de aprender. Los algoritmos de aprendizaje de refuerzo también deben practicar y aprender a través de muchos casos. Los investigadores deben crear algoritmos más eficientes que puedan aprender con menos ejemplos o reproducir muchas situaciones en las que el sistema pueda adquirir experiencia.

Para los juegos, puedes usar el propio motor de juego para entrenar el sistema, ya que todas las restricciones se definen allí y ya simulan muchos de estos posibles escenarios. Por lo tanto, si diseñas un agente de IA para que actúe en un juego, el agente puede jugar varias variaciones diferentes que quiere probar y averiguar el mejor movimiento que debería hacer en el futuro.

El problema con los agentes de IA en el mundo real es que son mucho más difíciles de simular en comparación con un juego. No existe una forma clara de crear el mundo real y probar algunas hipótesis. Los GAN podrían ayudar a resolver este problema. LeCun ya los está utilizando para crear predicciones futuras de fotogramas de vídeo. Pueden terminar siendo utilizados para predicciones más a largo plazo del futuro. Y no sería una coincidencia que el cerebro también usara el mismo sistema para la imaginación y la memoria.

Los humanos pueden realizar simulaciones en sus mentes de posibles escenarios y aprender de esas escenas. Por ejemplo, pueden imaginarse conduciendo un coche y las diferentes situaciones que surgirían en función de las acciones que tomen. ¿Qué pasaría si giran a la izquierda en lugar de a la derecha? Algunas personas argumentan que para que las computadoras funcionen tan bien como los humanos, necesitan realizar algo similar. Eso significa que ellos, con algunas variables como girar a la izquierda o a la derecha, pueden simular e imaginar el escenario y jugarlo para averiguar la mejor acción a tomar en el futuro en función de esa situación.