Kaggle, una comunidad de ciencia de datos en línea que regularmente organiza competiciones de aprendizaje automático con premios a menudo decenas de miles de dólares, ha descubierto un escándalo de trampa que involucra a un equipo ganador. La subsidiaria de Google anunció el viernes que el ganador de un concurso que involucraba un sitio de adopción de mascotas había sido descalificado del concurso por obtener y ocultar de manera fraudulenta los datos del conjunto de pruebas.
El hecho de que un equipo engañó en una competencia nominalmente destinada a ayudar a proteger a los animales también plantea dudas sobre si las personas que participan en competencias de aprendizaje automático como Kaggle están realmente interesadas en hacer del mundo un lugar mejor, o si simplemente quiere ganar premios y escalar tablas de clasificación virtuales.
La competencia solicitó a los concursantes que desarrollaran algoritmos para predecir la tasa de adopción de mascotas en función de los listados de mascotas de PetFinder.my , un sitio de adopción de mascotas de Malasia. El objetivo, según la competencia, era ayudar a descubrir qué hace que el perfil en línea de una mascota de refugio sea atractivo para los adoptantes. La entrada del equipo ganador se “adaptaría a las herramientas de IA que guiarán a los refugios y rescatistas de todo el mundo a mejorar el atractivo de sus perfiles de mascotas, reduciendo el sufrimiento de los animales y la eutanasia”, dijo el sitio de la competencia.
El algoritmo de BestPetting, el equipo del primer lugar, parecía predecir casi perfectamente la tasa de adopción para el conjunto de pruebas contra el cual se evaluaron las presentaciones, ganando con un puntaje casi perfecto de 0.912 (de 1.0). Como recompensa por su solución ganadora, el equipo de tres personas recibió el premio mayor de $ 10,000.
Nueve meses después del cierre de la competencia, sin embargo, un adolescente observante encontró que los resultados impresionantes eran demasiado buenos para ser verdad. Benjamin Minixhofer, un entusiasta austriaco del aprendizaje automático que ocupó el sexto lugar en la competencia de adopción de mascotas, se ofreció como voluntario para ayudar a la compañía a integrar las soluciones ganadoras en el sitio web de PetFinder.my. Al hacerlo, descubrió que el equipo de BestPetting obtuvo los datos de prueba de PetFinder.my, probablemente raspando datos de Kaggle o PetFinder.my, luego codificó y decodificó esos datos en su algoritmo para ofuscar su ventaja ilícita.
“Solo se usaron algunas de las respuestas codificadas, para mantener su puntaje final ‘realista'”, escribió Andy Koh, el fundador de PetFinder.my, en una publicación explicando que el equipo había sido descalificado. “Es realmente triste que personas tan brillantes, incluido un Gran Maestro Kaggle muy respetado, hayan hecho todo lo posible para defraudar a una competencia de bienestar destinada a salvar vidas de animales preciosos, únicamente para su propio beneficio financiero”.
Minixhofer es uno de los varios voluntarios que trabajaron con PetFinder.my para implementar los algoritmos ganadores, pero le dijo a Motherboard que, “hasta donde yo sé, soy el único que no pudo ayudarlos”. señaló que debido a que PetFinder.my quería usar los resultados ganadores para mejorar los perfiles de las mascotas, y no simplemente para predecir la velocidad de adopción de las mascotas, su implementación fue más ardua y lenta que simplemente agregar un servicio de aprendizaje automático.
[19459001 ] “También estaba en la escuela secundaria cuando terminó la competencia”, dijo Minixhofer. “Así que solo pude trabajar con PetFinder.my en el lateral”.
El engaño también fue difícil de descubrir porque BestPetting disfrazó la mayor parte de su codificación y decodificación en capas sobre capas de llamadas a funciones y valores de retorno, la mayoría de los cuales tenían nombres comunes aparentemente mundanos como “get_dict” (un diccionario es un tipo de datos en Python) o “proceso”. Además, el equipo tuvo cuidado de intercambiar solo los datos que raspó una vez por cada diez mascotas, para evite levantar sospechas con un resultado absolutamente perfecto. Según los cálculos de Minixhofer, “su presentación habría obtenido [aproximadamente] el lugar 100 con una puntuación de 0.427526 sin el truco”.
Hacer trampa no es infrecuente en las competiciones de Kaggle, donde, para algunos, la gloria de alcanzar clasifica como “Experto” y “Gran maestro” es tan importante como los exorbitantes premios en efectivo. Pero muchos en la comunidad de ciencia de datos están especialmente conmocionados por el nivel de esfuerzo que ha disminuido. t en la estafa, y el hecho de que varios de los participantes tenían altos rangos en Kaggle. El científico de datos Pavel Pleskov fue anteriormente un Gran Maestro de Kaggle de alto rango con muchas victorias previas en su haber.
Pleskov ha sido expulsado permanentemente de Kaggle, ya que “la evidencia apunta a que él es la parte clave detrás de esta actividad fraudulenta”. En Twitter, Pleskov se disculpó en nombre de su equipo y señaló que tenía la intención de devolver el premio dinero a PetFinder.my. “Para mí, nunca se trató del dinero, sino más bien de los puntos de Kaggle: una lucha constante por convertirse en el número 1 en la clasificación había comprometido mi juicio”, escribió. “Espero que al menos algunos de ustedes me perdonen y espero que otros competidores aprendan de mis errores”.
Kaggle declinó hacer comentarios para este artículo, pero nos remitió a esta publicación por Kaggle El científico de datos Walter Reade: “Hacer trampa, en cualquier forma, erosiona la genialidad de la comunidad de Kaggle. Debido a los acontecimientos recientes, me gustaría volver a expresar y reforzar la postura de Kaggle sobre la trampa”.
Además de perder su título de Gran Maestro, Pleskov también perdió su trabajo en la compañía de software de código abierto H2O.ai, que destaca específicamente su empleo de Kaggle Grandmasters en su sitio web .
“El comportamiento y las acciones que conocimos [el sábado] con respecto a la competencia de Kaggle no reflejan los valores de la compañía”, dijo la compañía. “Este individuo participó en esta competencia antes de su empleo con nosotros. Llevamos a cabo una investigación y esta persona ya no está afiliada con H2O.ai. ”
Minixhofer dijo que el evento era una indicación de que Kaggle debe hacer más para desalentar el comportamiento nefasto. A sus ojos, esto debería hacerse exigiendo que todas las soluciones sean públicas y de código abierto. Aunque las reglas de la competencia establecen que las soluciones deben ser de código abierto, esto solo significa que los algoritmos se desarrollarán bajo una licencia de código abierto, no que se hagan públicos.
“Esa es una laguna en las reglas que incluso los anfitriones de la competencia no entienden”, dijo. La implementación de nuevas reglas a tal efecto “evitaría estos incidentes en el futuro”.
—
Por Arielle Gordon