Javier Murillo

Educando a la Inteligencia Artificial

En Estados Unidos, cada año millones de estudiantes realizan pruebas estandarizadas que conllevan importantes reflexiones de cómo la Inteligencia Artificial las valora y ejecuta.

Quien afirme que las evaluaciones de exámenes hechas por computadora para ingreso escolar son 100 por ciento confiables, puede llevarse un chasco con esta publicación.

En Estados Unidos, cada año millones de estudiantes realizan pruebas estandarizadas que conllevan importantes reflexiones de cómo la Inteligencia Artificial las valora y ejecuta. Las pruebas nacionales como el Graduate Record Examinations (GRE) sirven como guardianes de la educación superior, mientras que las evaluaciones estatales pueden determinar todo: desde si un estudiante se graduará, hasta fondos federales para las escuelas y el pago de maestros.

Las pruebas tradicionales de papel y lápiz, los llenados de 'ovalitos' y las respuestas de opción múltiple, han dado paso a versiones computarizadas. Es así que ahora los procesos de calificación, incluso para ensayos escritos, se han convertido en algoritmos.

Sin embargo, como lo hemos dicho en este espacio, los algoritmos son propensos a fallar. Pueden ser engañados por cualquier tipo de palabras sofisticadas sin sentido. Se ve bien desde lejos, y al leerlo en voz alta suenan bien, pero en realidad no significan nada. En términos sencillos y coloquiales, 'el echar rollo' en una evaluación puede engañar al robot.

Otro problema es que algunos algoritmos han sido testeados por los mismos proveedores para estar predispuestos en contra de ciertos orígenes lingüísticos. La razón por la que es tan difícil averiguar quién se ve afectado por la calificación de la IA, es porque no se está utilizando solo un programa. Hay muchísimos algoritmos diferentes, creados por varias compañías. Pero todos están hechos básicamente de la misma forma, es decir, una empresa de puntuación automatizada analiza cómo se comportan los calificadores humanos. Después, la compañía entrena un algoritmo para hacer predicciones sobre cómo un calificador humano podría evaluar un ensayo basado en esos datos. Dependiendo del programa, esas predicciones pueden ser consistentemente incorrectas de la misma manera. En otras palabras, pueden ser parciales.

Los robots de puntuación de ensayos en realidad no analizan la calidad de la escritura. Están capacitados en conjuntos de cientos de ensayos de ejemplo para reconocer patrones que se correlacionan con calificaciones más altas o bajas asignadas por los humanos. Luego predicen qué puntaje asignaría un ser humano.

La investigación sobre el tema del sesgo de puntuaciónes limitada. Los proveedores guardan en caja fuerte sus algoritmos, y las escuelas o universidades no quieren llamar la atención sobre el hecho de que los algoritmos califican el trabajo de sus estudiantes.

¿Quién diría que un robot podría evaluar con subjetividad programada? La Inteligencia Artificial debe mejorarse para que cada prueba de texto sea evaluada casi por los mismos ojos de cualquier Nobel. Ese día llegará, aunque seguramente un nuevo reto para los humanos también lo hará. Al tiempo...

COLUMNAS ANTERIORES

La silenciosa amenaza de la desinformación digital
Meta, bajo ataque por demanda colectiva

Las expresiones aquí vertidas son responsabilidad de quien firma esta columna de opinión y no necesariamente reflejan la postura editorial de El Financiero.