Riesgos e impacto de la IA

Si quieres guardar un secreto, también debes ocultarlo a ti mismo.

George Orwell, 1984

Un sábado por la noche, Ehmet se despertó como cualquier otro día y decidió ir a la tienda de comestibles cerca de su casa. Pero de camino a la tienda, fue detenido por una patrulla policial. A través de una aplicación que utiliza el reconocimiento facial, la policía lo identificó como uno de los pocos miles de uigures que vivían en la región. Ehmet fue enviado a uno de los “campos de reeducación” con más de un millón de musulmanes uigures

A pesar de que esto parece un futuro distópico, donde la gente se identifica por un estado vigilante de todos los presentes, ya está sucediendo bajo el Partido Comunista Chino. La novela de George Orwell 1984 no podría estar más cerca de la realidad. Es poco probable que este escenario ocurra en otros países, pero en este capítulo, repaso algunas empresas que están utilizando el poder de la IA para vigilar a los ciudadanos en otros lugares.

Una de estas empresas que convierte la versión distópica del futuro en realidad es Clearview AI. Los departamentos de policía de todo Estados Unidos han estado utilizando la herramienta de reconocimiento facial de Clearview AI para identificar a los ciudadanos. De hecho, la principal agencia de aplicación de la ley de inmigración en los EE. UU., el Departamento de Justicia y los minoristas, incluidos Best Buy y Macy’s, se encuentran entre los miles de entidades gubernamentales y empresas de todo el mundo que han utilizado la base de datos de Clearview AI de miles de millones de fotos para identificar a los ciudadanos

La compañía tiene usuarios en el FBI, Aduanas y Protección Fronteriza (CBP), Interpol y el Departamento de Policía de Nueva York.

El sistema de Clearview funciona rastreando por la web abierta en búsqueda de fotos de personas, creando una base de datos basada en esas imágenes y combinando diferentes fotos basadas en las características faciales de las personas. Busca imágenes en sitios web como Facebook, Twitter, LinkedIn, MySpace e incluso Tumblr. Y crea una base de datos sin conexión que se actualiza con frecuencia, uniendo todas las fotos pertenecientes a una sola persona.

 

Alguien en un departamento de policía que quiera buscar a una persona específica puede usar la aplicación Clearview AI iPhone para cargar su foto, y la aplicación puede devolver el nombre completo de la persona, así como otras imágenes asociadas con ella.

Esta herramienta no solo está siendo utilizada por las agencias gubernamentales para identificar a los ciudadanos; también ha sido utilizada por empresas privadas para vigilar a las personas. Buzzfeed ha descubierto a través de los registros de Clearview que alrededor de 2.900 instituciones han utilizado el servicio de la compañía para buscar ciudadanos de todo el mundo

En los EE. UU. y otros países, algunos organismos encargados de hacer cumplir la ley ni siquiera son conscientes de que sus funcionarios y empleados están utilizando los servicios de Clearview. Es preocupante que esta herramienta se esté utilizando sin ningún descuido.

AUDIO

ShotSpotter es otra herramienta que utiliza el aprendizaje automático para ayudar a los departamentos de policía de todo el mundo. Tiene redes de micrófonos desplegadas en 110 comunidades diferentes de los EE. UU., incluida la ciudad de Nueva York.

Los micrófonos graban y comparten audio en directo en un servidor central. A continuación, un algoritmo analiza los sonidos para identificar posibles disparos en áreas cercanas. Los departamentos de policía que utilizan esta herramienta son notificados del posible tiroteo con la ubicación del incidente. Pueden verificar que el sonido es en realidad de un disparo o volver a etiquetar el sonido como otra cosa.

La tecnología no solo está siendo utilizada por los departamentos de policía para averiguar si hay un posible tiroteo, sino también por los fiscales como prueba de delitos, a pesar de que ShotSpotter no ha sido completamente probado para su precisión.

Eso es realmente problemático, ya que no se ha demostrado que la herramienta sea completamente precisa y podría etiquetar falsamente otros sonidos como tomas. La Associated Press ha descubierto que las pruebas de ShotSpotter se han utilizado en 200 casos judiciales en todo el país. ¿Podría esto llevar a personas inocentes a terminar en la cárcel?

En uno de esos casos, los registros judiciales muestran que ShotSpotter inicialmente etiquetó un sonido como fuegos artificiales. Luego fue reetiquetado por un humano como un disparo y utilizado como evidencia en un caso. O el humano o la máquina estaban equivocados. Cualquiera de los dos casos no es genial.

Algoritmos de recomendación

  • ¿Cómo funcionan los algoritmos de recomendación?
  • ¿Cómo funciona el algoritmo de TikTok?
  • ¿Cómo funciona el algoritmo de YouTube?

Todos hemos estado allí. Empiezas a ver un vídeo en YouTube. Antes de que te des cuenta, es la 1 a.m., y estás viendo vídeos sobre filósofos griegos y su influencia en el mundo moderno.

Esto se conoce como el “cuboce de conejo de YouTube”, el proceso de ver vídeos de YouTube sin parar. La mayoría de estos vídeos se presentan mediante el algoritmo de recomendación de YouTube, que determina qué sugerir que veas en función de tus historiales de visualización y los de otros usuarios.

TikTok, Netflix, Twitter, Facebook, Instagram, Snapchat y todos los servicios que presentan contenido tienen un algoritmo subyacente que distribuye y determina el material presentado a los usuarios. Esto es lo que impulsa la madriguera de YouTube.

Para TikTok, una investigación realizada por el Wall Street Journal encontró que la aplicación solo necesita una información importante para averiguar lo que un usuario quiere: la cantidad total de tiempo que un usuario se queda en un contenido. * A través de esa poderosa señal, TikTok puede aprender los intereses de las personas y llevar a los usuarios a los agujeros de conejo de contenido. Los algoritmos de YouTube y TikTok están basados en el compromiso, pero según Guillaume Chaslot, los algoritmos de TikTok aprenden mucho más rápido. *

Estos servicios impulsan el compromiso recomendando contenido que es probable que los usuarios vean, pero Netflix fue un paso más allá y personaliza las imágenes en miniatura de sus programas para aumentar la tasa de clics y el tiempo total de visualización. Netflix descubrió que la imagen en miniatura que atrae a un usuario a hacer clic depende del tipo de películas que a esa persona le gusta ver. Por ejemplo, si un usuario ve muchas películas románticas, la miniatura debería mostrar una imagen de una escena romántica.

Vamos a sumergirnos en uno de estos sistemas de recomendación. Veremos el sistema de YouTube, ya que se ha discutido públicamente. Los sistemas de otros funcionan de manera similar.

DESCRIPCIÓN GENERAL DEL SISTEMA

El sistema de recomendación de YouTube funciona en dos etapas diferentes. El primero es para la generación de candidatos, que selecciona vídeos que son posibles opciones que se presentarán a los usuarios. La segunda etapa es para la clasificación, que determina qué vídeos están en la parte superior y cuáles en la parte inferior de las fuentes de los usuarios. *

La generación de candidatos toma como entrada el historial de YouTube de los usuarios. La red de clasificación funciona de manera un poco diferente. Asigna una puntuación a cada vídeo utilizando un rico conjunto de funciones que describen el vídeo y al usuario. Vamos a repasar ambas etapas.

Etapa 1: Generación de candidatos

El modelo de la primera etapa está inspirado en la arquitectura de un modelo de lenguaje continuo de bolsa de palabras. * La bolsa continua de palabras es una forma de representar las oraciones como puntos de datos. Intenta predecir la palabra objetivo actual (la palabra central) en función de las palabras de contexto de origen (palabras envolventes). Eso significa que solo utiliza un pequeño contexto alrededor de la palabra objetivo para representarla.

El modelo generará una representación del vídeo llamada incrustación. Luego, la red neuronal recibe incrustaciones que se han aprendido de cada vídeo y se organizan en un vocabulario fijo.

Los datos sobre el historial de visualización de cada usuario se transforman en diferentes matrices de ID de vídeo y se asignan en una representación vectorial densa. Con eso, el algoritmo de YouTube utiliza datos de entrenamiento de videos anteriores y su tiempo de visualización para entrenar su red neuronal y calcular el tiempo de visualización esperado para otros vídeos.

Los modelos suelen estar sesgados al hacer predicciones basadas en datos anteriores. Pero el contenido relevante reciente es vital para YouTube como plataforma, ya que ayuda a mantener a los usuarios comprometidos y actualizados. Para corregir esto, YouTube establece la edad de los datos de entrenamiento como una característica y lo optimiza para que los vídeos más recientes tengan más probabilidades de aparecer como candidatos y en la parte superior de la lista.

Etapa 2: Clasificación

La segunda parte del sistema de recomendación implica la clasificación de vídeos. Para recomendar contenido de calidad, YouTube necesita una forma de determinar qué contenido están viendo y disfrutando los usuarios.

Los autores observaron que las interacciones anteriores con un vídeo en particular o similares al mismo eran muy importantes a la hora de predecir las recomendaciones. Esto es intuitivo porque si un espectador disfruta de tipos particulares de contenido, es probable que vea muchos vídeos en ese nicho. También se dieron cuenta de que los vídeos procedentes de canales particulares también eran muy importantes para decidir qué recomendar a continuación. Así que usaron estas características y otras para la red neuronal para predecir la clasificación de un vídeo.

Los vídeos que retienen la atención del espectador suelen considerarse de mayor calidad. Para recomendar vídeos de calidad, el modelo está entrenado para que pueda predecir cuánto tiempo verá un espectador un vídeo. Este aspecto también influye en la forma en que el algoritmo clasifica los vídeos.

Con todo eso, el equipo entrenó una red neuronal que toma entradas como el ID de vídeo, los ID de vídeo vistos, el idioma del vídeo, el idioma del usuario, la hora desde el último reloj, el número de impresiones anteriores y otras características para predecir la hora esperada de reloj. La tasa de clics y la cantidad total gastada por usuario aumentaron según las recomendaciones de YouTube.

Resumen

El algoritmo de YouTube se basa en redes neuronales que tienen como objetivo maximizar el compromiso. Eso podría ser un buen indicador para saber si el usuario está disfrutando viendo esos vídeos, ya que el usuario pasa más tiempo viéndolos. Pero no hay tanta comprensión de lo que estas redes neuronales están optimizando exactamente.

Existe el riesgo de que, debido a que estos algoritmos sirven a un porcentaje tan grande de los puntos de vista, puedan ser controlados por un pequeño grupo de personas. Por ejemplo, la mayoría de las plataformas de redes sociales en China no permiten que los ciudadanos chinos publiquen imágenes de Winnie the Pooh porque se parece al dictador chino, Xi Jinping. *

En la siguiente sección, repaso cómo los investigadores están tratando de entender lo que estas redes neuronales están haciendo bajo el capó.

Interpretabilidad de las redes neuronales

PREGUNTAS COMUNES CUBIERTAS AQUÍ
¿Qué hay dentro de las redes neuronales?
¿Cómo se pueden interpretar las redes neuronales?
¿Qué es un microscopio de red neuronal?

“Con la ayuda de microscopios, no hay nada tan pequeño como para escapar de nuestra investigación; por lo tanto, hay un nuevo mundo visible descubierto para la comprensión”.Robert Hooke*

Mary pasó toda la mañana en su TikTok recibiendo vídeos sobre cómo funcionan las lámparas. Su feed de TikTok es sobre todo eso y lindos vídeos de perros. Al igual que con muchos que han interactuado con TikTok u otras aplicaciones de redes sociales, nunca se dio cuenta de que la mayor parte de su feed de redes sociales está determinado principalmente por algoritmos que le dicen qué ver a continuación.

Esto no es un problema cuando está viendo vídeos de perros, pero un día estaba navegando y comenzó a ver vídeos deprimentes, y el algoritmo solo lo reforzó.

Una red neuronal está detrás de los vídeos que ella ve, recomendando el 70 % de ellos. * Y el algoritmo es principalmente una caja negra. Es decir, los humanos que escribieron la red neuronal no conocen su funcionamiento interno exacto. La mayor parte de lo que saben es que el uso de estos algoritmos aumenta el compromiso. ¿Pero eso es suficiente?

Si muchas de nuestras vidas están determinadas por lo que deciden las redes neuronales, desde los precios del alojamiento hasta la conducción de nuestros coches, podría valer la pena entender cómo y por qué estas redes neuronales están tomando sus decisiones.

Ahí es donde entra en juego la interpretabilidad de las redes neuronales. Comprender cómo funcionan estas “cajas negras” podría ser importante para entender por qué se toman diferentes decisiones y si son correctas.

MICROSCOPIO DE LA RED NEURONAL

Se han hecho muchos descubrimientos científicos cuando los científicos pudieron “zoom”. Por ejemplo, los microscopios permiten a los científicos ver las células, y la cristalografía de rayos X les permite ver el ADN. De la misma manera, los científicos de IA dirigidos por un joven investigador, Chris Olah, han estado estudiando y “zoomeando” las redes neuronales que se utilizan para la clasificación de imágenes. *

Para estudiar esas redes neuronales, el equipo de OpenAI analizó cada neurona en diferentes redes neuronales y sus características, así como las conexiones entre diferentes neuronas. Para observar lo que las diferentes neuronas representan en cada red neuronal, el equipo analizó cómo las neuronas se disparan y se activan cuando se ejecutan diferentes imágenes a través de la red neuronal. Lo que encontraron fue muy interesante. *

El equipo creó el equivalente a un microscopio, pero para redes neuronales “visuales”, redes neuronales que se utilizan para detectar objetos en imágenes. Con Microscope, los investigadores pueden visualizar sistemáticamente todas las neuronas en las redes neuronas comunes, incluido InceptionV1. En contraste con la imagen típica de las redes neuronales como una caja negra, los investigadores se sorprendieron por lo accesible que es la red a esta escala.

Las neuronas se volvieron comprensibles. Algunos representan conceptos abstractos como bordes o curvas, y otros, rasgos como ojos de perro o hocicos. El equipo también pudo explicar las conexiones entre cada neurona. Las conexiones representan algoritmos significativos. Por ejemplo, una conexión puede corresponder a unir dos capas diferentes, una que representa a los perros en una orientación y la otra a los perros en otra. Estas conexiones, o “circuitos”, incluso pueden representar una lógica simple, como AND, OR o XOR, sobre características visuales de alto nivel.

32.1

Figura: Curvas y formas relacionadas que representan neuronas dentro de diferentes redes neuronales.

Los investigadores de OpenAI establecieron una base para mostrar que estas neuronas probablemente están mapeando estas características. No demostraron que era el caso, pero al probar la activación de tales neuronas con muchos ejemplos diferentes, mostraron un vínculo causal entre el disparo de estas neuronas y las imágenes que supuestamente representan. También han demostrado que las neuronas no se disparan con imágenes cercanas pero no iguales a las que estas neuronas están identificando.

32.2

Figura: Representaciones de redes neuronales InceptionV1 y la unión de las dos redes neuronales inferiores.

El equipo de OpenAI demostró que las neuronas se pueden entender y representan características reales.

Esa no fue la única sorpresa que encontraron estos investigadores. También han descubierto que se detectaron las mismas características en diferentes redes neuronales. Por ejemplo, se encontraron detectores de curvas en las siguientes redes neuronales: AlexNet, InceptionV1, VGG19 y ResnetV2-50.

Los científicos detectaron que al entrenar el mismo conjunto de datos con diferentes redes neuronales, las mismas neuronas estaban presentes en esas redes. Con eso, se les ocurrió la hipótesis de que hay una universalidad de características en diferentes redes. Es decir, si hay diferentes arquitecturas de redes neuronales entrenadas en el mismo conjunto de datos, hay neuronas que es probable que estén presentes en todas las diferentes arquitecturas.

No solo eso, sino que encontraron detectores Gabor complejos, que generalmente se encuentran en las neuronas biológicas. Son similares a algunas “células complejas” clásicas de la neurociencia. ¿Podría ser que nuestro cerebro también tenga las mismas neuronas presentes en las redes neuronales artificiales?

HERRAMIENTA DE INTERPRETACIÓN DEL LENGUAJE

Por ahora, el Microscopio solo se ha utilizado para analizar las redes neuronales que clasifican las imágenes, pero se puede imaginar que la misma técnica podría aplicarse a otras áreas, incluido el procesamiento del lenguaje natural.

Se han desarrollado otras herramientas para las redes neuronales utilizadas en el procesamiento del lenguaje natural. Uno desarrollado recientemente por un grupo de Google se llama Language Interpretability Tool* y se utiliza para entender las tareas de PNL. La herramienta de código abierto permite visualizaciones enriquecidas de las predicciones del modelo e incluye el análisis agregado de las métricas y el corte del conjunto de datos. *

La herramienta utiliza una técnica llamada UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction). Con UMAP, puede visualizar la clasificación de ciertos conjuntos de datos en una proyección del conjunto de datos en un plano más pequeño. De esa manera, puedes identificar resultados inesperados a partir de los datos. Eso significa que si un conjunto de datos contiene muchas características o puede representarse en un espacio multidimensional, UMAP transformará los puntos de datos y el conjunto de datos en una representación en una dimensión inferior. Por ejemplo, puede reducir la dimensión de los puntos de datos para que pueda ver los puntos en un gráfico 3D. Incluye varias otras capacidades, pero no está tan desarrollado como el microscopio OpenAI. *

Todas estas herramientas para entender e interpretar las redes neuronales están en su infancia. El microscopio y la herramienta de interpretación del lenguaje son solo dos ejemplos de herramientas que están empezando a desarrollarse para comprender los interiores de las redes neuronales.

CONCLUSIÓN

Está claro que todavía estamos en los primeros días de crear herramientas para interpretar y comprender las redes neuronales en diferentes aplicaciones. Las redes neuronales todavía pueden ser complejas de entender, pero hay formas de investigar lo que cada neurona de una red podría estar haciendo de forma independiente.

A medida que damos por sentado el microscopio como un instrumento científico importante, la creación de un microscopio de red neuronal podría ser un paso importante para entenderlos e incluso puede ayudar a corregir los posibles errores que crean las redes neuronales.

Impacto económico de la IA

PREGUNTAS COMUNES CUBIERTAS AQUÍ
¿Cuál es el impacto económico de la IA?
¿Cuál es el bulto de falacia laboral?

Queríamos coches voladores, en su lugar teníamos 140 caracteres.Peter Thiel*

Jennifer se despertó temprano el lunes por la mañana. Antes de ir a trabajar, recibió un mensaje personalizado destilando toda la información que necesitaba saber para el día. Salió de su casa y saludó a un coche autónomo que la estaba esperando. Mientras su coche iba de su casa a su oficina, la asistente de IA de Jennifer le informó sobre su día y la ayudó a tomar algunas decisiones. Llegó a su oficina en poco menos de diez minutos, atravesando un túnel subterráneo.

Ese es un futuro que parece lejano, pero podría estar más cerca de lo que pensamos. El aprendizaje profundo podría hacer realidad la mayoría de estas predicciones. Está empezando a cambiar la economía y podría tener un impacto económico significativo. ARK Invest, una empresa de inversión con sede en Nueva York, predice que en 20 años, el aprendizaje profundo creará una oportunidad de mercado de 17 billones de dólares. * Eso es más grande que el impacto económico que tuvo Internet.

A pesar de que estas predicciones están muy lejos, el aprendizaje profundo ya está teniendo un impacto en el mundo. Ya está revolucionando algunos campos de la inteligencia artificial. En los últimos siete años, los modelos de aprendizaje automático para la visión y el lenguaje han sido completamente superados por los modelos de aprendizaje profundo. Estos nuevos modelos superan a cualquier otra “vieja” técnica de inteligencia artificial. Y cada pocos meses, un modelo más grande y nuevo supera a los resultados de última generación. *

En los últimos años, debido al rápido progreso en el procesamiento y la comprensión del lenguaje natural, la comunidad de la IA ha tenido que desarrollar nuevas y más duras pruebas para las capacidades de IA. Los modelos están mejorando tan rápido que los investigadores tienen que encontrar nuevos puntos de referencia casi todos los años. *

Estamos empezando a ver que el aprendizaje profundo afecta lentamente a nuestras vidas. La tecnología se está añadiendo a la mayoría de los paquetes de software importantes para ayudar a las personas a ser más productivas. El Smart Complete de Gmail es uno de ellos. Ayuda a la gente a escribir correos electrónicos más rápido al rellenar frases automáticamente. Google está añadiendo características similares a otros productos. Con Android 10, Smart Reply estaba integrado en el sistema operativo.

Otras empresas también buscan mejorar su software con el aprendizaje profundo. Recientemente, Microsoft presentó el trabajo que OpenAI está haciendo con sus modelos de lenguaje. Demostró que podía automatizar* parte del trabajo que hacen los ingenieros de software.

Estas características parecen tener un pequeño impacto en este momento, pero su efecto en nuestras vidas se acelerará y tendrán un impacto mayor de lo que la mayoría predice.

Desde sistemas de automóviles autónomos hasta motores de recomendación de música, el software tradicional está siendo reemplazado lentamente por redes neuronales entrenadas. Eso, a su vez, aumenta la productividad de los ingenieros de software.

El aprendizaje profundo no solo está aumentando la productividad de los ingenieros de software y los trabajadores de cuello blanco; otros mercados también se están alterando. El transporte verá una influencia creciente de la inteligencia artificial. Actualmente, hay alrededor de 3,5 millones de camioneros que trabajan en los Estados Unidos. * Con los coches y camiones autónomos, la mayoría de estos trabajos serán reemplazados por ordenadores.

El reemplazo de los trabajos no significa que la economía implosione. Con la automatización, la productividad en algunas áreas aumenta, lo que libera capital a otras áreas de la economía. Otros sectores de la economía han estado creciendo de forma constante. Por ejemplo, el gasto de los consumidores como porcentaje del PIB en servicios de alimentación y recreación ha estado creciendo desde los años 60. *

32.3

Figura: Gasto en ocio y hospitalidad como porcentaje de la economía total. *

En una entrevista de 2017, Marc Andreessen, un famoso inversor en Silicon Valley, explicó que hay dos tipos de sectores de la economía: los sectores de cambio rápido y los sectores de cambio lento.

Los sectores de rápido cambio incluyen el comercio minorista, el transporte y los medios de comunicación. Son sectores en los que la tecnología ha tenido un impacto enorme. Hay un cambio masivo en esos sectores, y hay mejoras masivas en la productividad, que causan una gigantesca rotación de puestos de trabajo. Y al mismo tiempo, los precios han caído rápidamente.

Los otros sectores, los sectores de cambio lento, incluyen la atención médica, la educación, la construcción, el cuidado de ancianos, el cuidado de los niños y el gobierno. En esos sectores, está sucediendo lo contrario: hay una crisis de precios. Los precios de los productos y servicios en estas áreas están aumentando rápidamente. El Financial Times* mostró que el 88 % de toda la inflación de precios desde 1990 se atribuye a la atención médica, la construcción y la educación.

Marc Andreessen también declaró que las preocupaciones del desempleo y el desplazamiento de los puestos de trabajo provienen de la bulto de la falacia laboral. *

El bulto de falacia laboral es el pánico recurrente que ocurre cada veinticinco a cincuenta años sobre si el mercado laboral está fijo, lo que significa que una afluencia de trabajadores, como personas más jóvenes, inmigrantes o máquinas, tomará todos los puestos de trabajo, expulsará a otros trabajadores. En realidad, este efecto nunca ocurre.

Un buen ejemplo de esta falacia ocurrió con los coches. Cuando el automóvil se incorporó a la corriente principal hace 100 años, ocurrió el mismo pánico que puede ocurrir en el futuro con los coches autónomos. En ese momento, a la gente le preocupaba que todos los trabajos para las personas cuyo sustento dependía del cuidado de los caballos, todos manejaban establos, todos los herreros, iban a desaparecer.

Pero en realidad, se crearon más puestos de trabajo con la creación de coches. Los empleos de fabricación en plantas de automóviles se convirtieron en un gran sector de la economía. Las empresas a las empresas de automóviles se convirtieron en un empleador tan grande que el gobierno de los Estados Unidos tuvo que rescatar a estas empresas en 2008 para mantener a todos sus empleados trabajando.

No solo eso, sino que se crearon puestos de trabajo para pavimentar las calles de los coches. Se construyeron muchos conceptos a partir de lo que permitió la creación de coches. La idea de restaurantes, moteles, hoteles, conferencias, cines, complejos de apartamentos, complejos de oficinas y suburbios se expandió después de la creación de coches.

El número de puestos de trabajo creados por los efectos de segundo, tercer y cuarto orden de la creación de coches fue cien veces el número que desapareció. Marc Andreessen argumenta que con la creación de nuevas tecnologías, la eficiencia de ese mercado aumenta, liberando capital que se puede invertir en otras áreas.

Otros que están más preocupados por la falta de innovación que por los efectos económicos de la innovación. En algunas presentaciones, Peter Thiel argumentó que está mucho más preocupado por la falta de buenas tecnologías que por el peligro del mal en las aplicaciones tecnológicas o sus consecuencias.

Peter Thiel argumenta que no ha habido mucha innovación en los últimos años. Por ejemplo, argumenta que la industria nuclear ha estado muerta durante décadas, mientras que otras promesas como la tecnología limpia se han convertido en palabras tóxicas para perder dinero mal.

Si la tecnología ha tenido tal impacto en la sociedad, entonces el precio de los bienes habría bajado. Pero Peter argumenta que, por ejemplo, el precio de los productos básicos no ha bajado a medida que la tecnología se expandía.

De hecho, hubo una famosa apuesta entre dos economistas, Simon y Ehrlich,* en los años 80. Simon dijo que el precio de los productos básicos bajaría en la próxima década, mientras que Ehrlich dijo que subiría. Simon tenía razón en los años 80, lo que significa que los precios de los productos básicos cayeron en esa década.

Pero si nos miramos en las próximas décadas, de 1993 a 2003, y de 2003 a 2013, los precios de los productos básicos han subido, lo que demostraría que la tecnología no ha tenido un efecto tan significativo en la economía como algunas personas han predicho.

Peter Thiel declaró que la mayor parte de la innovación solo ha ocurrido en el mundo de los bits, y no en el mundo de los átomos, y que las computadoras por sí solas no pueden hacer todo. Argumentó que la gente es libre de hacer cosas en el mundo de las cosas, y no libre de hacer cosas en el mundo de las cosas.

Pero podríamos empezar a ver los efectos en el mundo de los átomos. Los precios de las baterías han estado cayendo durante años, siguiendo la Ley de Wright. ** Las baterías costaron alrededor de 1000 $/kWh en 2010 y desde entonces han caído a alrededor de 100 $/kWh. Los precios de los paneles solares han seguido la misma curva. El coste de decodificar el genoma humano ha caído más rápido que la Ley de Moore. * El mundo de los átomos podría estar en el punto de inflexión de la interrupción.

Inteligencia general artificial

PREGUNTAS COMUNES CUBIERTAS AQUÍ
¿Qué es la inteligencia general artificial?
¿Cuál es la singularidad?
¿Ocurrirá la singularidad?

Mostrar 1 más

Detective Del Spooner: Los seres humanos tienen sueños. Incluso los perros tienen sueños, pero tú no, solo eres una máquina. Una imitación de la vida. ¿Puede un robot escribir una sinfonía? ¿Puede un robot convertir un… lienzo en una hermosa obra maestra?

Robot Sonny: ¿Puedes?

I, Robot (2004)

Usando el pasado como indicador del futuro, este capítulo final aborda cómo los sistemas de inteligencia artificial podrían evolucionar hacia la inteligencia artificial general. Explica la diferencia entre saber eso y saber cómo. Y dado que el cerebro es un buen indicador de cómo evolucionan los sistemas de IA, sabemos que para el reino animal hay una alta correlación de inteligencia con el número de neuronas palales y corticales. Lo mismo ha sido cierto para el aprendizaje profundo. Cuanto mayor sea el número de neuronas, más eficiente será una red neuronal multicapa. Si bien las redes neuronales artificiales todavía tienen unos pocos órdenes de magnitud menos neuronas que el cerebro humano, estamos marchando hacia ese hito. Finalmente, hablaremos de la Singularidad, un punto en el que la inteligencia artificial podría ser difícil de controlar.

EL PASADO COMO INDICADOR DEL FUTURO

Arthur C. Clarke tiene una cita interesante en la que dice: “Cualquier tecnología avanzada es indistinguible de la magia”. * Si volvieras al siglo XIX, sería impensable imaginar coches viajando a 100 mph en la carretera o viviendo con dispositivos de mano para conectarse con personas del otro lado del planeta.

Desde la Conferencia de Dartmouth y la creación del campo de la inteligencia artificial, se han hecho grandes avances. El sueño original que muchos tenían de los ordenadores, que era realizar cualquier tarea intelectual mejor que los humanos, está mucho más cerca que antes. Sin embargo, algunos argumentan que esto puede nunca suceder o que todavía está en un futuro muy lejano.

Sin embargo, el pasado puede ser una buena indicación del futuro. El software es mejor que los mejores humanos jugando a las damas, ajedrez, Jeopardy!, Atari, Go y Dota 2. Ya realiza la traducción de texto para algunos idiomas mejor que el humano promedio. Hoy en día, estos sistemas mejoran la vida de millones de personas en áreas como el transporte, el comercio electrónico, la música, los medios de comunicación y muchas otras. Los sistemas adaptativos ayudan a las personas a conducir por autopistas y calles, evitando accidentes.

Al principio, puede ser difícil imaginar los sistemas informáticos realizando lo que una vez fueron tareas cerebrales, como diseñar e ingeniería de sistemas o escribir un informe legal. Pero en un momento, también era difícil imaginar a los sistemas triunfando sobre los mejores humanos en el ajedrez. La gente afirma que los robots no tienen imaginación o nunca realizarán tareas que solo los humanos pueden realizar. Otros dicen que los ordenadores no pueden explicar por qué sucede algo y nunca podrán hacerlo.

SABER ESO FRENTE A SABER CÓMO

El problema es que para muchas tareas, los humanos no pueden explicar por qué o cómo sucede algo, aunque puedan saber cómo hacerlo. Un niño sabe que una bicicleta tiene dos ruedas, sus neumáticos tienen aire y se monta empujando los pedales hacia adelante en círculos. Pero esta información es diferente a saber montar en bicicleta. El primer tipo de conocimiento generalmente se llama “saber eso”, mientras que la habilidad de andar en bicicleta es “saber cómo”.

Estos dos tipos de conocimiento son independientes entre sí, pero podrían ayudarse mutuamente. Saber que necesitas empujar los pedales hacia adelante puede ayudar a una persona a montar en bicicleta. Pero “saber cómo” no se puede reducir a “saber eso”. Saber montar en bicicleta no implica que entiendas cómo funciona. De la misma manera, los ordenadores y los humanos realizan diferentes tareas que requieren que sepan cómo hacerlo, pero no “lo saben”. Muchas reglas se aplican a la pronunciación de ciertas palabras en inglés. La gente sabe pronunciar las palabras, pero no puede explicar por qué. Una persona que tiene acceso a un diccionario de chino puede entender chino con la ayuda de ese recurso. Los ordenadores, de la misma manera, realizan tareas y pueden no ser capaces de explicar los detalles. Preguntar por qué los ordenadores hacen lo que hacen podría ser lo mismo que preguntar por qué alguien balancea un bate de la forma en que lo hace cuando juega al béisbol.

Es difícil predecir cómo se desarrollará todo en el futuro y lo que vendrá después. Pero mirar los avances de los diferentes subcampos de la inteligencia artificial y su rendimiento a lo largo del tiempo puede ser el mejor predictor de lo que podría ser posible en el futuro. Teniendo en cuenta eso, veamos los avances en los diferentes campos de la IA y cómo se acumulan. Desde el procesamiento del lenguaje natural y el reconocimiento de voz hasta la visión por ordenador, los sistemas están mejorando linealmente, sin signos de detención.

33.1-1
33.1-2
33.1-3
33.1-4

Figura: La IA avanza en diferentes puntos de referencia a lo largo del tiempo. * Primera imagen: la precisión de Top-5 pregunta si la etiqueta correcta está al menos en las cinco predicciones principales del clasificador. Muestra que la tasa de error ha mejorado de alrededor del 85 % en 2013 a casi el 99 % en 2020. Segunda imagen: CityScapes Challenge. Cityscapes es un conjunto de datos a gran escala de diversas escenas de calles urbanas en 50 ciudades diferentes registradas durante el día. Esta tarea requiere un algoritmo para predecir el etiquetado semántico por píxel de la imagen. Tercera imagen: SuperGLUE Benchmark. SuperGLUE es un punto de referencia de una sola métrico que evalúa el rendimiento de un modelo en una serie de tareas de comprensión del lenguaje en conjuntos de datos establecidos. Cuarta imagen: Desafío de respuesta a preguntas visuales: Precisión. El desafío VQA, introducido en 2015, requiere que las máquinas proporcionen una respuesta precisa en el lenguaje natural, dada una imagen y una pregunta en lenguaje natural sobre la imagen basada en un conjunto de datos públicos.

CRECIMIENTO DE LOS DATOS EN LA IA

Los algoritmos solo pueden resolver problemas como los coches autónomos y ganar juegos Go si tienen los datos correctos. Para que estos algoritmos existan, es esencial tener datos etiquetados correctamente. En los círculos de investigación, se están realizando esfuerzos significativos para reducir el tamaño de los conjuntos de datos necesarios para crear los algoritmos adecuados, pero incluso con este trabajo, todavía hay una necesidad de grandes conjuntos de datos.

33.2

Figura: Comparación del tamaño del conjunto de datos con el número de segundos que vive un ser humano desde el nacimiento hasta la graduación de la universidad.

Los conjuntos de datos ya son comparables en tamaño a lo que los humanos capturan durante su vida. La figura anterior compara el tamaño de los conjuntos de datos utilizados para entrenar ordenadores con el número de segundos desde el nacimiento hasta la graduación universitaria de un ser humano en una escala logarítmica. Uno de los conjuntos de datos de la figura es Fei-Fei Li’sImageNet descrito anteriormente en este libro. El último conjunto de datos de la imagen es utilizado por Google para crear su modelo para entender los números de calles en las fachadas de casas y edificios.

Hay todo un campo de estudios de investigación sobre cómo combinar modelos de aprendizaje automático con cómo los humanos pueden corregir y cambiar los datos etiquetados. Pero está claro que la cantidad de datos que podemos capturar en nuestros conjuntos de datos ya es equivalente a lo que los humanos hacen a lo largo de su vida.

CRECIMIENTO DE LA COMPUTACIÓN

Pero el software de aprendizaje automático no depende únicamente de los datos. Otra pieza del rompecabezas es la potencia computacional. Una forma de analizar el poder computacional de las redes neuronales desplegadas hoy en día frente a lo que utilizan los cerebros humanos es ver el tamaño de las redes neuronales en estos modelos. La siguiente figura los compara en una escala logarítmica.

33.3-1
33.3-2

Figura: Comparación del tamaño del modelo de las redes neuronales y el número de neuronas y conexiones de animales y humanos.

Las redes neuronales que se muestran en esta figura se utilizaron para detectar y transcribir imágenes de coches autónomos. La siguiente figura compara la escala tanto del número de neuronas como de las conexiones por neurona. Ambos son factores importantes para el rendimiento de las redes neuronales.Las redes neuronales artificiales todavía están en orden de magnitud del tamaño del cerebro humano, pero están empezando a ser competitivas para algunos mamíferos. *

128

Figura: 122 años de la Ley de Moore: Cálculos por segundo por dólar constante. Esta es una escala exponencial/log, por lo que una línea recta es exponencial; cada tick del eje y es 100x. Este gráfico cubre una mejora de 10.000.000.000.000.000.000x en la computación/$.

El precio de la computación ha disminuido con el tiempo, y el poder computacional incremental disponible para la sociedad ha aumentado. La cantidad de potencia informática que se puede obtener por cada dólar gastado ha aumentado exponencialmente. De hecho, en una sección anterior, mostré que la cantidad de computación utilizada en las carreras de capacitación de IA más grandes se ha duplicado cada 3,5 meses. Algunos argumentan que la potencia informática no puede continuar esta tendencia debido a las limitaciones físicas. Sin embargo, las tendencias pasadas no apoyan esta teoría. El dinero y los recursos en el área también han aumentado con el tiempo. Cada vez más personas trabajan en el campo, desarrollando mejores algoritmos y hardware. Y sabemos que el poder del cerebro humano tiene un límite que se puede lograr porque satisface las limitaciones de la física.

LA SINGULARIDAD

Con más potencia informática y software mejorado, puede ser que los sistemas de IA eventualmente superen la inteligencia humana. El punto en el que estos sistemas se vuelven más inteligentes y capaces que los humanos se llama la singularidad. Para cada tarea, estos sistemas serán mejores que los humanos. Cuando las computadoras superan a los humanos, algunas personas argumentan que pueden seguir siendo cada vez mejores. En otras palabras, si los hacemos tan inteligentes como nosotros, no hay razón para creer que no puedan mejorar, en una espiral de máquinas cada vez mejor, lo que resulta en superinteligencia.

Algunos predicen que la Singularidad llegará tan pronto como 2045. Nick Bostrom y Vincent C. Müller realizó una encuesta a cientos de expertos en IA en una serie de conferencias y preguntó en qué año ocurrirá la Singularidad (o inteligencia de máquina a nivel humano) con un 10% de probabilidad, un 50% de probabilidad y un 90% de probabilidad. Las respuestas fueron las siguientes:

  • Año medio optimista (10 % de probabilidad): 2022
  • Año realista medio (50 % de probabilidad): 2040
  • Año pesimista medio (90% de probabilidad): 2075*

Por lo tanto, eso significa que los expertos en IA creen que hay una buena probabilidad de que las máquinas sean tan inteligentes como los humanos en unos 20 años.

Este es un tema controvertido, ya que hay expertos, incluido John Carmack, que creen que comenzaremos a tener signos de AGI dentro de una década. * Pero otros, como Kevin Kelly, argumentan que creer que habrá una “Inteligencia General Artificial” es un mito. * De cualquier manera, si el calendario pesimista para lograrlo es una indicación, sabremos a finales de siglo si está empezando a materializarse.

¿LA SINGULARIDAD Y LA SOCIEDAD?

Si la Singularidad está tan cerca como muchos predicen y resulta en una inteligencia general artificial que supera a la inteligencia humana, las consecuencias son impensables para la sociedad tal como la conocemos ahora. Imagina que los perros crearon humanos. ¿Entenderían los perros el resultado de crear tales criaturas en sus vidas? Lo dudo. De la misma manera, es poco probable que los humanos entiendan este nivel de inteligencia, incluso si lo creamos inicialmente.

CONTROVERSIALos optimistas argumentan que debido al aumento de la Singularidad, las soluciones a problemas que antes se consideraban imposibles pronto serán obvias, y esta superinteligencia resolverá muchos problemas sociales, como la mortalidad. Los pesimistas, sin embargo, dicen que tan pronto como logremos la superinteligencia, la sociedad humana tal como la conocemos se extinguirá. No habría ninguna razón para que los humanos existieran. La verdad es que es difícil predecir lo que vendrá después de la creación de dicha tecnología, aunque muchos están de acuerdo en que está cerca.