
ISSN-e: 2737-6419
Período: abril-junio de 2026
Revista Athenea
Vol.7, Número 24, (pp. 50Ű59)
Tabla 2. Puntajes promedio por inteligencia artiĄcial y tipo de prompt.
IA/Prompt Seguridad Valor didáctico Química verde Puntaje total
ChatGPT-Prompt 1 7,50 8,83 6,67 23,00
ChatGPT-Prompt 2 8,00 9,67 7,17 24,83
ChatGPT-Prompt 3 8,83 9,50 8,33 26,67
Gemini-Prompt 1 7,17 8,50 6,33 22,00
Gemini-Prompt 2 7,67 9,17 6,83 23,67
Gemini-Prompt 3 8,50 9,17 7,83 25,50
Claude-Prompt 1 7,67 8,83 6,83 23,33
Claude-Prompt 2 8,17 9,50 7,33 25,00
Claude-Prompt 3 9,00 9,67 8,83 27,50
Nota. Los valores corresponden al promedio por dimensión y al puntaje total promedio obtenido por cada
combinación IA-prompt.
Al considerar el efecto global del prompt, el promedio total fue de 22,78 puntos para el Prompt
1, 24,50 para el Prompt 2 y 26,56 para el Prompt 3. En consecuencia, la inclusión de instrucciones
explícitas relacionadas con seguridad y química verde produjo el mayor incremento de calidad. La com-
paración factorial conĄrmó esta tendencia: el efecto del prompt sobre el puntaje total fue signiĄcativo
(F = 18, 64; p < 0, 001), mientras que el efecto de la IA también resultó signiĄcativo, aunque de menor
magnitud (F = 4, 12; p = 0, 023). La interacción IA × prompt no alcanzó signiĄcación estadística
(F = 0, 84; p = 0, 508), lo que sugiere que la mejora producida por el cambio de prompt siguió un
patrón relativamente estable en los tres mo delos. En términos dimensionales, el mejor desempeño cor-
respondió al valor didáctico, lo que indica que las tres inteligencias artiĄciales comparadas fueron más
eĄcaces al construir la forma pedagógica general del recurso que al garantizar su solidez experimental.
Esta interpretación coincide con lo señalado por Araújo y Saúde [
3], así como con Yuriev, Orgill y
Holme [
11], quienes subrayan que el valor educativo de la IA generativa depende de una mediación
crítica capaz de identiĄcar tanto sus fortalezas como sus límites.
La dimensión de seguridad presentó resultados intermedios. Los protocolos tendieron a incluir
recomendaciones generales, como el uso de bata, gafas o guantes, y en muchos casos señalaron pre-
cauciones básicas durante el desarrollo exp erimental. No obstante, estas advertencias aparecieron con
frecuencia de forma genérica y sin un desarrollo suĄcientemente especíĄco de riesgos asociados a reac-
tivos, procedimientos o posibles incidentes. En consecuencia, aunque la seguridad no fue la dimensión
con menor desempeño, tampoco alcanzó un nivel que permita considerar los protocolos como recursos
plenamente conĄables desde el punto de vista experimental. Desde esta perspectiva, los resultados
refuerzan la idea de que la calidad del protocolo no puede evaluarse solo por su orden expositivo, sino
también por la precisión con que anticipa y regula condiciones de riesgo. Esta lectura resulta consis-
tente con los planteamientos de Vargas-Rodríguez et al. [
6], quienes propusieron una evaluación integral
de experimentos considerando salud, ambiente, seguridad y disposición de residuos, así como con la
aproximación práctica de Reina y Reina [
16], que insiste en la formación explícita para la prevención y
respuesta ante accidentes en el laboratorio.
La revisión desde referentes formales de seguridad permitió observar que las mayores mejoras se
produjeron cuando el prompt incorp oró instrucciones explícitas sobre identiĄcación de riesgos y manejo
de incidentes. En promedio, el Prompt 3 incrementó la dimensión de seguridad en 0,89 puntos con
respecto al Prompt 2 y en 1,28 puntos con respecto al Prompt 1. Este resultado conĄrmó que la
calidad de la respuesta no dependió exclusivamente del modelo utilizado, sino también del grado de
especiĄcidad del encuadre instruccional.
La dimensión con menor rendimiento fue química verde, lo que evidenció una incorporación más
limitada de criterios orientados a reducir la peligrosidad de materiales, minimizar residuos y optimizar
el uso de recursos. Aunque varios protocolos incluyeron apartados de gestión de residuos, estos no
siempre se desarrollaron con suĄciente precisión operativa ni se integraron verdaderamente al diseño
de la práctica. En términos generales, la soste nibilidad apareció más como un componente formal del
protocolo que como una lógica de construcción experimental.
Este resultado es relevante, ya que sugiere que los modelos comparados tendieron a reproducir
estructuras convencionales de prácticas de laboratorio sin incorporar de manera consistente decisiones
orientadas a la prevención, la reducción del impacto y la selección más responsable de reactivos y
Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la
química.
56