Ismael Ariel Robles Martínez
Integrante de la RIIE-UAM
Departamento de Matemáticas Aplicadas y Sistemas, UAM Cuajimalpa
La creciente disponibilidad de herramientas de Inteligencia Artificial (IA) ha impulsado de manera notable la generación de contenido mediante sistemas automatizados, un fenómeno conocido como AI-Generated Content (AIGC, por sus siglas en inglés). Este auge plantea nuevos desafíos en la evaluación académica, donde distinguir entre el trabajo auténtico del estudiantado y el producido por IA se vuelve cada vez más complicado.
Aunque existen múltiples herramientas diseñadas para detectar contenido generado por IA, diversos estudios advierten sobre la necesidad de utilizar dichas herramientas con cautela. Un ejemplo es el trabajo “An Empirical Study to Evaluate AIGC Detectors on Code Content” de Wang et al. (2024), donde el equipo de investigación generó aproximadamente 1.16 millones de textos con IA. Sus resultados muestran que los detectores de IA solo identificaron correctamente el 68.1% de los casos, un desempeño apenas superior al que se obtendría clasificando al azar, lo que evidencia las limitaciones actuales de los sistemas destinados a identificar contenido producido por IA.
El estudio de Wang y su equipo también subraya otro riesgo: las altas tasas de falsos positivos. Según sus hallazgos, hasta 36.5% de los textos pueden ser etiquetados erróneamente como generados por IA. Este margen de error abre la puerta a situaciones delicadas, como la vivida por Louise Stivers, estudiante de la Universidad de California, Davis. Su caso fue reportado por Klee (2023) en Rolling Stone, donde se detalla cómo una herramienta automatizada clasificó erróneamente su tesis como generada por IA, lo que llevó a Stivers a demostrar su proceso de redacción para acreditar su autoría.
Para evitar acusaciones infundadas como la de Stivers, algunos sistemas permiten ajustar los modelos para que solo marquen un documento cuando existe un nivel de certeza casi absoluta de que fue producido por IA, reduciendo la tasa de falsos positivos a alrededor del 1%. Sin embargo, esta configuración tiene un costo significativo: según Tufts et al. (2025), en “A Practical Examination of AI-Generated Text Detectors for Large Language Models”, la capacidad de detección puede caer hasta un 3%, lo que vuelve a estos sistemas prácticamente ineficaces.
La evidencia empírica muestra que, al menos por ahora, los detectores de contenido generado con IA tienen limitaciones importantes y pueden producir errores de gran impacto académico. En este contexto, conviene considerar que la verificación de plagio no debe basarse únicamente en herramientas automáticas, sino en una combinación de criterios pedagógicos, diálogo con el estudiantado y análisis cualitativo del trabajo. El reto no es solo tecnológico, sino también educativo. En última instancia, la pregunta no es si podemos detectar un texto generado por IA, sino cómo evaluamos el aprendizaje en un mundo donde estas herramientas ya forman parte del entorno académico.
irobles@cua.uam.mx

