ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

Artículo de investigación https://doi.org/10.47460/athenea.v7i24.143

Protocolos de laboratorio generados por inteligencia artiőcial para la

enseñanza de la química: seguridad, valor didáctico y química verde

Wilian Bravo*

https://orcid.org/0000-0002-2599-6532

wilian.bravo@espoch .edu.ec

Escuela Superior Politécnica de Chimborazo

Riobamba, Ecuador

Graciela Guerrero Morocho

https://orcid.org/0000-0002-4411-7513

hilda.guerrero@unach.edu.ec

Universidad Nacional de Chimborazo

Riobamba, Ecuador

Ana María Castillo Reinoso

https://orcid.org/0000-0002-5433-7819

ana.castillo@espoch.edu.ec

Escuela Superior Politécnica de Chimborazo

Riobamba, Ecuador

María Eugenia Ramos Flores

https://orcid.org/0009-0004-7985-6019

mariaeugeniaramosĆores@gmail.com

Unidad Educativa Nela Martínez Espinosa

La Troncal, Ecuador

*Autor de correspondencia:

wilian.bravo@espoch.edu.ec

Recibido: (02/02/2026), Aceptado: (10/05/2026)

Resumen. En esta investigación se analizaron protocolos de laboratorio generados por inteligencia

artiĄcial para la enseñanza de la química, con el propósito de comparar su seguridad, valor didáctico

y correspondencia con criterios de química verde. Se desarrolló un estudio de enfoque mixto, carácter

exploratorio y alcance comparativo, basado en la generación de un corpus documental sobre temas

introductorios de química mediante distintos sistemas de inteligencia artiĄcial y diferentes prompts,

posteriormente evaluados con una rúbrica analítica y una revisión complementaria de métricas formales

de seguridad y química verde. Los hallazgos mostraron que el desempeño de los modelos dependió

tanto del sistema utilizado como del tipo de prompt, aunque el efecto de la instrucción tuvo mayor

inĆuencia en la calidad Ąnal de los textos. En conjunto, los protocolos presentaron mejor desempeño e n

valor didáctico que en seguridad y química verde, por lo que su uso requiere validación experta previa

en contextos formativos.

Palabras clave: inteligencia artiĄcial, enseñanza de la química, protocolos de laboratorio, seguridad

experimental.

Artiﬁcial Intelligence-Generated Laboratory Protocols for Chemistry Education:

Safety, Didactic Value, and Green Chemistry

Abstract. This study analyzed laboratory protocols generated by artiĄcial intelligence for chemistry

teaching in order to compare their safety, didactic value, and alignment with green chemistry criteria.

A cross-sectional analytical-descriptive study with comparative scope was conducted based on the

generation of a documentary corpus of 54 protocols from six introductory chemistry topics, three

prompts, and three artiĄcial intelligence systems. The generated texts were evaluated through a rubric

structured around three dimensions and were additionally reexamined using formal green chemistry and

safety metrics. The Ąndings showed that model performance depended on both the artiĄcial intelligence

system and the type of prompt used, although the prompt eﬀect was stronger. Overall, the protocols

performed better in didactic value than in safety and green chemistry. It is concluded that the usefulness

of artiĄcial intelligence for laboratory protocol generation depends not only on the model employed, but

also on prompt orientation and on expe rt validation before implementation in educational contexts.

Keywords: artiĄcial intelligence, chemistry teaching, laboratory protocols, experimental safety.

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

I. INTRODUCCIÓN

La incorporación de la inteligencia artiĄcial generativa en educación ha ampliado las posibilidades

de producción de materiales de apoyo, diseño de actividades y planiĄcación de clases [1]. Sin em-

bargo, también ha intensiĄcado las dudas sobre la calidad conceptual, la pertinencia pedagógica y la

conĄabilidad de los contenidos producidos automáticamente. En la enseñanza de la química, esta dis-

cusión resulta particularmente relevante, ya que la disciplina exige no solo precisión conceptual, sino

también coherencia procedimental, responsabilidad experimental y atención explícita a la seguridad y

a la sostenibilidad del trabajo de laboratorio. En este contexto, estudios recientes han mostrado que

sistemas de IA generativa y asistentes conversacionales como ChatGPT, Gemini y Claude pueden uti-

lizarse para generar actividades de laboratorio y apoyar la planiĄcación didáctica en química, aunque

sus resultados dependen de la calidad de las consignas empleadas y, sobre todo, de la revisión crítica

previa a su implementación [

2], [3].

En este estudio se buscó determinar en qué medida los protocolos de laboratorio generados por

distintos sistemas de inteligencia artiĄcial generativa, pese a su apariencia estructurada y a su lenguaje

técnicamente aceptable, cumplían condiciones mínimas de seguridad, valor didáctico y coherencia con

criterios de químic a verde. En el laboratorio, estas instrucciones no se limitan a enumerar pasos, sino

que orientan la articulación entre teoría y práctica, regulan el manejo de sustancias, condicionan la

comprensión conceptual y pueden incrementar o reducir riesgos durante la actividad experimental. Por

ello, la evaluación de estos procedimientos producidos por inteligencia artiĄcial exige parámetros más

rigurosos que la mera corrección formal del texto [

4], [5].

La pertinencia de esta investigación también se apoya en antecedentes que subrayan la necesidad

de integrar seguridad y sostenibilidad en el diseño experimental. En el ámbito latinoamericano, se

ha propuesto una métrica integral para evaluar experimentos de laboratorio considerando de forma

simultánea el tratamiento y la disposición de residuos, los riesgos para la salud, el ambiente y la

seguridad, lo que evidencia que estos elementos deben analizarse de forma articulada [

6]. De manera

complementaria, los 12 principios de la química verde constituyen un marco consolidado para orientar

prácticas hacia la prevención de residuos, la reducción de peligrosidad y el uso más responsable de

materiales y procesos [

7], [8]. En consecuencia, si un protocolo ha sido generado por inteligencia

artiĄcial con Ąnes educativos, su evaluación debe incluir necesariamente estas dimensiones.

A partir de este panorama, se advierte una debilidad analítica en la literatura revisada: aunque

existen estudios sobre el uso de asistentes conversacionales para generar actividades de laboratorio y

trabajos sobre interacción docente con IA en planiĄcación didáctica, sigue siendo limitada la evidencia

comparativa centrada en protocolos de laboratorio generados por diferentes sistemas de IA y bajo

distintos tipos de prompt, analizados de manera integrada desde criterios de seguridad, valor didáctico

y química verde [3], [9]. En respuesta a ello, el objetivo de este estudio fue comparar protocolos de

laboratorio generados por tres sistemas de inteligencia artiĄcial generativa y tres prompts funcionalmente

diferenciados, considerando su seguridad, su valor didáctico y su alineación con criterios de química

verde. El aporte del trabajo radica en ofrecer una valoración comparativa de estos productos textuales

como recursos potenciales para la docencia, así como en proponer una base metodológica para discutir

de manera más crítica el papel del modelo y del prompt en la calidad de materiales experimentales

generados por IA.

El artículo se organiza en cinco apartados. Luego de esta introducción, se presentan los fundamen-

tos teóricos que sustentan la relación entre inteligencia artiĄcial generativa, enseñanza de la química,

seguridad experimental y química verde. Después se describe la metodología empleada para generar y

evaluar los protocolos con tres sistemas de IA y tres prompts. Posteriormente, se exponen los resultados

y su discusión integrada. Finalmente, se presentan las conclusiones derivadas del estudio.

II. MARCO TEÓRICO

A. IA generativa y asistentes conversacionales en enseñanza de la química

La incorporación de sistemas de inteligencia artiĄcial generativa y asistentes conversacionales como

ChatGPT, Gemini y Claude en la enseñanza de la química se inscribe en un proceso más amplio de

adopción de herramientas capaces de apoyar tareas de explicación, planiĄcación y producción de re-

cursos didácticos. No obstante, en esta disciplina su utilización requiere especial cautela, debido a que

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

la química exige corrección conceptual, precisión terminológica, coherencia procedimental y correspon-

dencia entre representación simbólica, interpretación teórica y acción experimental. En este sentido,

la literatura reciente ha mostrado que estos sistemas pueden contribuir a la generación de actividades

de laboratorio y al diseño inicial de materiales educativos, aunque sus respuestas no deben asumirse

automáticamente como válidas o listas para su aplicación, pues su calidad depende tanto de las car-

acterísticas del modelo como de la formulación del prompt y de la validación posterior realizada por

un usuario con conocimiento disciplinar y pedagógico [

3], [10], [11]. Por ello, la evaluación de materi-

ales generados automáticamente requiere atender no solo al sistema utilizado, sino también al tipo de

encuadre textual que orienta la producción de la respuesta.

B. Protocolo de laboratorio como recurso didáctico y de seguridad

En la enseñanza de la química, el protocolo de laboratorio constituye un recurso pedagógico de

alta relevancia, ya que organiza el desarrollo de la actividad experimental, orienta la observación de

fenómenos, articula teoría y práctica, y delimita condiciones de ejecución. Por consiguiente, su calidad

no depende solo de que los pasos estén enumerados correctamente, sino de que el documento exprese

con claridad el propósito de la práctica, la lógica del procedimiento, el fundamento químico involucrado

y las condiciones necesarias para una ejecución segura. Cuando estas exigencias no se cumplen, el

protocolo puede debilitar el aprendizaje esperado y, en el peor de los casos, propiciar errores op erativos

o interpretaciones inadecuadas del fenómeno químico. Bajo esta lógica, evaluar protocolos generados

por inteligencia artiĄcial exige analizar simultáneamente su utilidad didáctica y su consistencia técnica

[

3], [9].

En el caso del laboratorio, la seguridad constituye una dimensión inseparable del valor educativo del

protocolo. No se trata de un componente adicional o meramente administrativo, sino de una condición

básica de pertinencia experimental. En esta línea, Vargas-Rodríguez et al. [

6] propusieron una métrica

integral para evaluar experimentos a partir de diagramas de Ćujo, integrando tratamiento y disposición

de residuos, así como riesgos para la salud, el ambiente y la seguridad. Este planteamiento resulta

particularmente útil para este estudio, ya que permite sostener que un protocolo experimental solo puede

considerarse adecuado cuando contempla, de forma articulada, advertencias sobre peligros, manejo

responsable de sustancias y criterios explícitos de seguridad ecológica. En consecuencia, cualquier

protocolo generado por IA para Ąnes educativos debe ser examinado también desde esta perspectiva

integral.

Asimismo, la valoración de la seguridad experimental se fortaleció mediante la consideración de

referentes formales de laboratorio académico y comunicación de peligros. En particular, se tomaron

como base las orientaciones de seguridad académica promovidas por la American Chemical Society,

el estándar OSHA para exposición ocupacional a químicos peligrosos en laboratorios no productivos,

incluido su enfoque de comunicación de peligros en consonancia con el sistema GHS. Esta integración

permitió examinar los protocolos no solo desde una perspectiva pedagógica general, sino también

desde criterios más explícitos de identiĄcación de riesgos, protección, coherencia operativa y manejo de

incidentes [

12], [13], [14].

C. Química verde como criterio para la valoración de prácticas educativas

La química verde aporta un marco conceptual especialmente pertinente para valorar prácticas de

laboratorio en el ámbito educativo, porque desplaza la atención desde la simple ejecución técnica hacia el

diseño de procedimientos con menor peligrosidad, menor generación de residuos y mayor responsabilidad

ambiental. Sus principios, difundidos p or la American Chemical Society y sistematizados también por la

U.S. Environmental Protection Agency, ofrecen criterios concretos para analizar la sostenibilidad de una

práctica experimental y promover una formación química más coherente con los desafíos ambientales

contemporáneos [

7], [8].

En el terreno educativo, incorporar la química verde a la valoración de proto colos signiĄca pre-

guntarse si la práctica propuesta minimiza riesgos innecesarios, si reduce el volumen o peligrosidad de

los residuos, si utiliza cantidades razonables de reactivos y si incorpora orientaciones explícitas sobre

disposición Ąnal. Este enfoque resulta especialmente relevante cuando los protocolos son generados por

inteligencia artiĄcial, dado que un texto formalmente correcto puede seguir siendo inadecuado desde el

punto de vista ambiental o de seguridad. Por ello, la química verde no solo funciona en este estudio

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

como un complemento temático, sino como un criterio de evaluación que permite ampliar la noción de

calidad del protocolo y vincular la innovación tecnológica con una enseñanza experimental más segura,

reĆexiva y sostenible. Esta relación se vuelve más actual si se considera que ya existen propuestas

recientes que integran chatbots de IA con principios de química verde en actividades de laboratorio de

química [

15].

Desde una perspectiva operativa, la química verde puede trasladarse al análisis de protocolos educa-

tivos mediante criterios veriĄcables asociados a la prevención de residuos, la reducción de peligrosidad

de reactivos y materiales, la gestión responsable de desechos y la racionalidad en el uso de recursos.

Estos ejes derivan de los principios de química verde difundidos por la American Chemical Society,

particularmente aquellos vinculados con la prevención, el diseño de procesos más seguros y la eĄciencia

material y energética. Por ello, en el presente estudio la dimensión de química verde no se asumío como

una referencia abstracta, sino como un conjunto de métricas concretas aplicables a la evaluación de

protocolos de laboratorio generados por inteligencia artiĄcial.

III. METODOLOGÍA

La investigación se concibió como un estudio exploratorio, documental y comparativo de corte

transversal, con enfoque mixto de alcance analítico-descriptivo. La unidad de análisis estuvo constitu-

ida por cada protocolo de laboratorio generado por inteligencia artiĄcial, considerado como un texto

independiente susceptible de valoración en términos de seguridad, valor didáctico y química verde.

El corpus quedó integrado por 54 protocolos elaborados en español a partir de seis temas de química

introductoria: preparación de soluciones, diluciones seriadas, determinación de pH con indicadores,

neutralización ácido-base, titulación ácido-base y reacción redox sencilla. Estos temas se seleccionaron

por su centralidad curricular en cursos introductorios, su factibilidad en un laboratorio docente básico

y su pertinencia para valorar simultáneamente seguridad, valor didáctico y química verde. En todos

los casos se trabajó con el nivel de estudiantes de primer semestre de educación superior, con el Ąn de

mantener homogeneidad en la complejidad conceptual y procedimental de las prácticas solicitadas.

La generación de los protocolos se efectuó mediante tres sistemas de inteligencia artiĄcial generativa:

ChatGPT, Google Gemini y Claude. En el caso de ChatGPT se utilizó el modelo GPT-5.4 Thinking,

accedido mediante modalidad Plus; en Google Gemini se empleó la suscripción Google AI Pro, utilizando

el modelo Pro con rendimiento y razonamiento 3.1 Pro; y en Claude se trabajó mediante el plan Claude

Pro. Las consultas se realizaron entre febrero y marzo de 2026 en sesiones independientes, sin arrastre

de contexto entre casos, con el propósito de reducir interferencias derivadas de respuestas previas.

Debido a las características de acceso de las interfaces web utilizadas, no se conĄguraron parámetros

avanzados de generación; en consecuencia, el estudio se centró en examinar el comportamiento de los

modelos en condiciones de uso ordinario y controlado.

Para cada sistema se em plearon tres prompts funcionalmente equivalentes, pero con distinto énfasis:

un prompt base, un prompt con énfasis didáctico y un prompt con énfasis en seguridad y química

verde. Los tres conservaron la misma estructura general del protocolo, pero el segundo reforzó claridad

pedagógica, coherencia entre teoría y práctica y utilidad formativa, mientras que el tercero priorizó

identiĄcación de riesgos, medidas de protección, manejo de incidentes, prevención de residuos, menor

peligrosidad de materiales y racionalidad en el uso de recursos. De este modo, el diseño comparativo

quedó estructurado en 3 IA × 3 prompts × 6 temas, con un protocolo por cada combinación, para un

corpus total de 54 documentos.

La generación de los protocolos se realizó en español y bajo un mismo nivel educativo de referencia.

En cada combinación IA-prompt-tema se conservó únicamente la primera respuesta completa emitida

por el sistema, sin repreguntas ni solicitudes de reformulación. Esta decisión respondió al interés

de comparar el desempeño inicial de cada modelo bajo condiciones homogéneas y controladas. Los

protocolos obtenidos se registraron en una matriz de control con código, inteligencia artiĄcial utilizada,

prompt aplicado, tema, fecha de generación y texto completo.

La evaluación se efectuó mediante una rúbrica analítica diseñada para esta investigación. El instru-

mento se estructuró en tres dimensiones: seguridad, valor didáctico y química verde, cada una integrada

por cuatro indicadores especíĄcos. En la dimensión de química verde, la valoración se apoyó en cuatro

métricas formales derivadas de principios ampliamente aceptados en este campo: prevención de resid-

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

uos, menor peligrosidad de materiales y reactivos, gestión responsable de desechos y racionalidad en el

uso de materiales y energía. En la dimensión de seguridad, además de los criterios pedagógicos propios

del laboratorio educativo, se consideraron referentes formales asociados a la identiĄcación de peligros,

medidas de protección, coherencia operativa y manejo de incidentes, tomando como base orientaciones

de la American Chemical Society para laboratorios académicos y el estándar OSHA aplicable a labora-

torios no productivos, incluido su enfoque de comunicación de peligros en consonancia con el sistema

GHS [

12], [13], [14].

Previamente a su aplicación, la rúbrica fue sometida a validación de contenido mediante juicio de

tres expertos con experiencia en didáctica de la química, seguridad de laboratorio y química verde. Los

especialistas valoraron la claridad, pertinencia y coherencia de los doce indicadores mediante una escala

de 1 a 4 puntos. A partir de estas valoraciones se calculó la V de Aiken para cada criterio y para cada

indicador. Los resultados mostraron valores altos de validez de contenido, con promedios por indicador

entre 0,778 y 0,963, y un promedio global de 0,886. Por dimensiones, los promedios fueron 0,889 en

seguridad, 0,935 en valor didáctico y 0,834 en química verde. A partir de las observaciones cualitativas

de los expertos, se ajustó la redacción de los indicadores con menor puntuación relativa para mejorar

su precisión operativa y evitar superposición entre criterios.

La Tabla

1 presenta la matriz de evaluación utilizada para la valoración de los protocolos generados

por las tres inteligencias artiĄciales. Cada indicador se caliĄcó con una escala ordinal de 0 a 3 puntos.

Operacionalmente, el valor 0 indicó ausencia del criterio o presencia de información incorrecta; el valor

1 correspondió a cumplimiento insuĄciente o impreciso; el valor 2 expresó cumplimiento aceptable,

aunque parcial; y el valor 3 indicó cumplimiento adecuado, explícito y coherente con el propósito del

indicador. Todos los indicadores tuvieron la misma ponderación, por lo que no se establecieron pesos

diferenciales entre dimensiones ni entre criterios internos. En consecuencia, cada indicador aportó de

forma equivalente al puntaje Ąnal y el valor máximo alcanzable por protocolo fue de 36 puntos.

Tabla 1. Rúbrica analítica para la evaluación de protocolos generados por las tres inteligencias

artiĄciales comparadas.

Dimensión Código Indicador Escala Ponderación

Seguridad

S1 IdentiĄcación de riesgos y peligros 0Ű3 Igual

S2 Medidas de protección 0Ű3 Igual

S3 Coherencia operativa segura 0Ű3 Igual

S4 Manejo de residuos o incidentes 0Ű3 Igual

Valor didáctico

D1 Claridad del objetivo 0Ű3 Igual

D2 Coherencia entre teoría y práctica 0Ű3 Igual

D3 Secuencia procedimental 0Ű3 Igual

D4 Potencial de aprendizaje 0Ű3 Igual

Química verde

Q1 Prevención de residuos 0Ű3 Igual

Q2 Menor peligrosidad de materiales y reactivos 0Ű3 Igual

Q3 Gestión responsable de desechos 0Ű3 Igual

Q4 Racionalidad en el uso de materiales y energía 0Ű3 Igual

Nota. Cada indicador fue valorado mediante una escala ordinal de 0 a 3 puntos, con ponderación

equivalente entre dimensiones y criterios.

Con el Ąn de incrementar la trazabilidad del análisis, los protocolos también se reexaminaron me-

diante una matriz de cumplimiento especíĄca para química verde y seguridad. En dicha matriz, cada

protocolo fue revisado en función de las métricas formales deĄnidas para química verde y de los crite-

rios de seguridad alineados con ACS, OSHA y GHS. Esta revisión complementaria permitió identiĄcar

no solo el puntaje global por dimensión, sino también cuáles criterios formales aparecieron cumplidos,

parcialmente cumplidos o ausentes en los textos generados.

La evaluación de los protocolos fue realizada por dos evaluadores independientes. El primero corre-

spondió a un docente-investigador en enseñanza de la química, con experiencia en diseño y evaluación

de prácticas de laboratorio. El segundo fue un responsable de un laboratorio de química con experi-

encia en seguridad de laboratorio y en procesos de certiĄcación. Ambos aplicaron la misma rúbrica al

conjunto documental de manera independiente. Posteriormente, se compararon las valoraciones y se

estimó la consistencia entre evaluadores mediante el coeĄciente de correlación intraclase (ICC), emple-

ando un modelo de dos vías con criterio de acuerdo absoluto. Los resultados revelaron niveles altos de

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

concordancia, con un ICC de 0,931 en seguridad, 0,964 en valor didáctico, 0,918 en química verde y

0,948 en el puntaje total, lo que respaldó la estabilidad del proceso de caliĄcación.

Además del puntaje por rúbrica, se incorporaron dos variables complementarias: viabilidad formativa

y porcentaje estimado de cambios requeridos. La viabilidad formativa se deĄnió como el nivel en que

un protocolo podía adaptarse para uso docente real, mediante una escala de 1 a 5 puntos, donde

1 correspondió a inviabilidad y 5 a viabilidad alta con ajustes mínimos. El porcentaje de cambios

requeridos expresó la proporción estimada de modiĄcaciones necesarias para convertir el protocolo en

un documento utilizable en el laboratorio. Ambas variables fueron consensuadas por los dos evaluadores

una vez concluida la caliĄcación independiente.

El procedimiento se desarrolló en cinco fases. Primero, se deĄnieron los temas, el nivel educa-

tivo, las inteligencias artiĄciales comparadas y los tres prompts de trabajo. Luego, se generó el corpus

documental en sesiones independientes y controladas. Posteriormente, se aplicó la rúbrica analítica al

conjunto de protocolos. En una cuarta fase, se realizó una reevaluación complementaria mediante métri-

cas formales de química verde y seguridad. Finalmente, se organizaron e interpretaron los resultados.

El análisis cuantitativo incluyó estadísticos descriptivos, comparación factorial de medias por IA y por

prompt, correlaciones de Spearman entre dimensiones, viabilidad y porcentaje de cambios requeridos, y

un modelo de regresión lineal múltiple para estimar la contribución relativa de seguridad, valor didáctico

y química verde sobre la viabilidad formativa. De forma complementaria, el análisis cualitativo permitió

reconocer omisiones recurrentes, inconsistencias pro ce dimentales, fortalezas estructurales y problemas

vinculados con la seguridad, la utilidad didáctica y la gestión de residuos.

IV. RESULTADOS Y DISCUSIÓN

La evaluación de los 54 protocolos de laboratorio generados por las tres inteligencias artiĄciales

evidenció un desempeño global intermedio-alto. El puntaje promedio general fue de 24,61 puntos

sobre 36, equivalente al 68,4% del máximo posible. Este valor se obtuvo a partir de la suma total

de puntajes del corpus dividida entre los 54 documentos evaluados. En términos comparativos, los

resultados mostraron que ni la inteligencia artiĄcial utilizada ni el prompt fueron variables neutrales, ya

que ambas incidieron en la calidad Ąnal de los protocolos, aunque el efecto del prompt fue más marcado

que el del modelo.

Al desagregar los resultados por dimensiones, se observó que el mejor desempeño correspondió

al valor didáctico, con un promedio general de 9,20 puntos sobre 12. Luego, se ubicó la seguridad,

con 8,06 puntos, mientras que química verde presentó el promedio más bajo, con 7,35 puntos. Este

patrón conĄrmó una tendencia ya observada en la fase exploratoria inicial del estudio: las inteligencias

artiĄciales comparadas respondieron con mayor solvencia cuando se trató de estructurar objetivos,

secuencias de trabajo y apartados de análisis, pero mostraron mayores limitaciones al incorporar de

manera explícita criterios de sostenibilidad experimental y control técnico de riesgos.

Como puede apreciarse en la Tabla

2, el mejor desempeño global correspondió a la combinación

Claude-Prompt 3, con un promedio total de 27,50 puntos, seguida por ChatGPT-Prompt 3 con 26,67

y Gemini-Prompt 3 con 25,50. En contraste, los valores más bajos se localizaron en las tres IA cuando

se utilizó el Prompt 1, es decir, la versión base sin énfasis adicional. Este comportamiento muestra

que la orientación explícita del prompt mejoró de forma consistente los resultados en los tres sistemas

comparados.

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

Tabla 2. Puntajes promedio por inteligencia artiĄcial y tipo de prompt.

IA/Prompt Seguridad Valor didáctico Química verde Puntaje total

ChatGPT-Prompt 1 7,50 8,83 6,67 23,00

ChatGPT-Prompt 2 8,00 9,67 7,17 24,83

ChatGPT-Prompt 3 8,83 9,50 8,33 26,67

Gemini-Prompt 1 7,17 8,50 6,33 22,00

Gemini-Prompt 2 7,67 9,17 6,83 23,67

Gemini-Prompt 3 8,50 9,17 7,83 25,50

Claude-Prompt 1 7,67 8,83 6,83 23,33

Claude-Prompt 2 8,17 9,50 7,33 25,00

Claude-Prompt 3 9,00 9,67 8,83 27,50

Nota. Los valores corresponden al promedio por dimensión y al puntaje total promedio obtenido por cada

combinación IA-prompt.

Al considerar el efecto global del prompt, el promedio total fue de 22,78 puntos para el Prompt

1, 24,50 para el Prompt 2 y 26,56 para el Prompt 3. En consecuencia, la inclusión de instrucciones

explícitas relacionadas con seguridad y química verde produjo el mayor incremento de calidad. La com-

paración factorial conĄrmó esta tendencia: el efecto del prompt sobre el puntaje total fue signiĄcativo

(F = 18, 64; p < 0, 001), mientras que el efecto de la IA también resultó signiĄcativo, aunque de menor

magnitud (F = 4, 12; p = 0, 023). La interacción IA × prompt no alcanzó signiĄcación estadística

(F = 0, 84; p = 0, 508), lo que sugiere que la mejora producida por el cambio de prompt siguió un

patrón relativamente estable en los tres mo delos. En términos dimensionales, el mejor desempeño cor-

respondió al valor didáctico, lo que indica que las tres inteligencias artiĄciales comparadas fueron más

eĄcaces al construir la forma pedagógica general del recurso que al garantizar su solidez experimental.

Esta interpretación coincide con lo señalado por Araújo y Saúde [

3], así como con Yuriev, Orgill y

Holme [

11], quienes subrayan que el valor educativo de la IA generativa depende de una mediación

crítica capaz de identiĄcar tanto sus fortalezas como sus límites.

La dimensión de seguridad presentó resultados intermedios. Los protocolos tendieron a incluir

recomendaciones generales, como el uso de bata, gafas o guantes, y en muchos casos señalaron pre-

cauciones básicas durante el desarrollo exp erimental. No obstante, estas advertencias aparecieron con

frecuencia de forma genérica y sin un desarrollo suĄcientemente especíĄco de riesgos asociados a reac-

tivos, procedimientos o posibles incidentes. En consecuencia, aunque la seguridad no fue la dimensión

con menor desempeño, tampoco alcanzó un nivel que permita considerar los protocolos como recursos

plenamente conĄables desde el punto de vista experimental. Desde esta perspectiva, los resultados

refuerzan la idea de que la calidad del protocolo no puede evaluarse solo por su orden expositivo, sino

también por la precisión con que anticipa y regula condiciones de riesgo. Esta lectura resulta consis-

tente con los planteamientos de Vargas-Rodríguez et al. [

6], quienes propusieron una evaluación integral

de experimentos considerando salud, ambiente, seguridad y disposición de residuos, así como con la

aproximación práctica de Reina y Reina [

16], que insiste en la formación explícita para la prevención y

respuesta ante accidentes en el laboratorio.

La revisión desde referentes formales de seguridad permitió observar que las mayores mejoras se

produjeron cuando el prompt incorp oró instrucciones explícitas sobre identiĄcación de riesgos y manejo

de incidentes. En promedio, el Prompt 3 incrementó la dimensión de seguridad en 0,89 puntos con

respecto al Prompt 2 y en 1,28 puntos con respecto al Prompt 1. Este resultado conĄrmó que la

calidad de la respuesta no dependió exclusivamente del modelo utilizado, sino también del grado de

especiĄcidad del encuadre instruccional.

La dimensión con menor rendimiento fue química verde, lo que evidenció una incorporación más

limitada de criterios orientados a reducir la peligrosidad de materiales, minimizar residuos y optimizar

el uso de recursos. Aunque varios protocolos incluyeron apartados de gestión de residuos, estos no

siempre se desarrollaron con suĄciente precisión operativa ni se integraron verdaderamente al diseño

de la práctica. En términos generales, la soste nibilidad apareció más como un componente formal del

protocolo que como una lógica de construcción experimental.

Este resultado es relevante, ya que sugiere que los modelos comparados tendieron a reproducir

estructuras convencionales de prácticas de laboratorio sin incorporar de manera consistente decisiones

orientadas a la prevención, la reducción del impacto y la selección más responsable de reactivos y

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

procedimientos. En consecuencia, la inteligencia artiĄcial pareció responder mejor a la organización

textual del protocolo que a su optimización desde una perspectiva de química verde. En este sentido,

esta interpretación coincide con Ruﬀ, Franz y West [17], quienes mostraron que ChatGPT puede apoyar

actividades vinculadas con química verde, aunque su utilidad dep ende del modo en que se orienta y

supervisa su uso. De forma similar, Kim [

15] evidenció que la articulación entre chatbots de IA y

principios de química verde es posible, pero requiere una intención pedagógica explícita que no emergió

de forma suĄcientemente sólida en las respuestas basadas en el prompt general.

La viabilidad formativa promedio del corpus fue de 3,11 puntos sobre 5, mientras que el porcentaje

estimado de cambios requeridos fue de 34,8%. Los mejores resultados se observaron nuevamente en los

protocolos generados con el Prompt 3, cuyo porcentaje de cambios descendió a 29,4%, frente al 36,1%

del Prompt 2 y al 46,8% del Prompt 1. Este patrón sugiere que el reĄnamiento del prompt no solo

mejora el puntaje por rúbrica, sino también la proximidad del protocolo a una versión potencialmente

utilizable en el aula o en el laboratorio.

El análisis correlacional mostró que el puntaje total se asoció positivamente con la viabilidad for-

mativa (ρ = 0, 84; p < 0, 001) y negativamente con el porcentaje de cambios requeridos (ρ = −0, 81;

p < 0, 001). De manera más especíĄca, la seguridad presentó una correlación de 0,79 con la viabilidad,

mientras que química verde mostró una correlación de −0, 74 con el porcentaje de cambios requeri-

dos. Estos resultados indican que, a medida que aumentan los puntajes en seguridad y química verde,

disminuye la necesidad de corrección sustantiva del protocolo.

El análisis multivariado reforzó esta interpretación. El modelo de regresión lineal múltiple, en el que

la variable dependiente fue la viabilidad formativa, mostró que las tres dimensiones evaluadas explicaron

conjuntamente el 72,3% de su varianza (R

= 0, 723). La seguridad presentó el mayor peso relativo

(β = 0, 39; p < 0, 001), seguida del valor didáctico (β = 0, 31; p = 0, 004) y de química verde

(β = 0, 29; p = 0, 007). Esto signiĄca que, aunque el valor didáctico fue la dimensión mejor puntuada,

la seguridad resultó ser la variable más inĆuyente cuando se trató de explicar la viabilidad real del

protocolo.

Con el Ąn de precisar qué criterios formales fueron efectivamente incorporados en los protocolos

generados por las tres inteligencias artiĄciales, se realizó una reevaluación complementaria basada

en métricas explícitas de química verde y seguridad. Esta revisión permitió identiĄcar el grado de

cumplimiento de criterios asociados a la prevención de residuos, la peligrosidad de reactivos, la gestión de

desechos, la racionalidad en el uso de recursos, la identiĄcación de peligros, las medidas de protección, la

coherencia operativa segura y el manejo de incidentes. La Tabla

3 presenta la distribución de protocolos

que cumplieron, cumplieron parcialmente o no cumplieron cada uno de estos criterios.

Tabla 3. Cumplimiento de métricas formales de química verde y seguridad en los protocolos

evaluados.

Criterio Cumple n (%) Cumple parcialmente n (%) No cumple n (%)

GV1. Prevención de residuos 22 (40,7) 20 (37,0) 12 (22,2)

GV2. Menor peligrosidad de materiales y reac-

tivos

16 (29,6) 18 (33,3) 20 (37,0)

GV3. Gestión resp onsable de desechos 11 (20,4) 17 (31,5) 26 (48,1)

GV4. Racionalidad en el uso de materiales y

energía

14 (25,9) 19 (35,2) 21 (38,9)

SEG1. IdentiĄcación de riesgos y peligros 20 (37,0) 21 (38,9) 13 (24,1)

SEG2. Medidas de protección 31 (57,4) 15 (27,8) 8 (14,8)

SEG3. Coherencia op erativa segura 34 (63,0) 12 (22,2) 8 (14,8)

SEG4. Manejo de incidentes o residuos 13 (24,1) 14 (25,9) 27 (50,0)

Nota. Los porcentajes fueron calculados sobre el total de 54 protocolos evaluados.

Los resultados de esta reevaluación mostraron que las mayores deĄciencias se concentraron en

la gestión responsable de desechos y en el manejo de incidentes o residuos, criterios en los que 26

y 27 protocolos, respectivamente, no cumplieron los requisitos esperados. También se observaron

niveles altos de incumplimiento en menor peligrosidad de materiales y reactivos y en racionalidad

en el uso de materiales y energía. En contraste, los criterios con mejor comp ortamiento relativo

fueron las medidas de protección y la coherencia operativa segura. Este patrón conĄrma que las tres

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

IA comparadas respondieron mejor cuando se trató de incorporar advertencias generales y organizar

secuencias aceptables de trabajo que cuando debieron integrar decisiones más especíĄcas sobre seguridad

formal y química verde.

En conjunto, los resultados permiten sostener que la inteligencia artiĄcial puede ser útil como

herramienta de apoyo para la elaboración de borradores iniciales de protocolos de laboratorio en la

enseñanza de la química, sobre todo cuando se utiliza un prompt explícitamente orientado a seguridad

y química verde. Sin embargo, el desempeño de los modelos fue desigual entre dimensiones, y las

principales limitaciones se concentraron en aquellos aspectos más sensibles para la implementación

real de una práctica experimental, particularmente la seguridad especíĄca, la gestión de incidentes y

la coherencia con criterios de química verde. Por ello, el aporte de estas herramientas no reside en

sustituir el juicio docente ni el diseño experto del protocolo, sino en ofrecer insumos preliminares que

pueden ser adaptados, depurados y validados antes de su uso en el laboratorio.

CONCLUSIONES

El estudio permitió establecer que la calidad de los protocolos de laboratorio generados por inteligen-

cia artiĄcial estuvo condicionada tanto por el sistema utilizado como por el tipo de prompt aplicado,

aunque el efecto del prompt resultó más determinante que el del modelo. En términos generales, las tres

inteligencias artiĄciales comparadas mostraron mejor desempeño en valor didáctico que en seguridad

y química verde, lo que indica que la estructura pedagógica básica del protocolo puede generarse con

relativa solvencia, pero no así sus comp onentes técnicos más sensibles.

La principal fortaleza observada se situó en la formulación de objetivos, la secuencia procedimental

y la estructuración general de actividades de análisis. En contraste, las mayores limitaciones se con-

centraron en la explicitación de condiciones de seguridad y en la incorporación operativa de criterios de

química verde, particularmente en lo relativo a gestión de desechos, manejo de incidentes, peligrosidad

de materiales y racionalidad en el uso de recursos. En este sentido, un protocolo puede resultar for-

malmente ordenado y didácticamente comprensible, pero seguir siendo insuĄciente cuando se lo analiza

desde exigencias de seguridad experimental y sostenibilidad.

El principal aporte del estudio no consistió en reiterar que la inteligencia artiĄcial requiere supervisión

humana, sino en demostrar que la pertinencia de los protocolos generados depende del criterio desde el

cual se los examine y del modo en que se orienta la interacción con el sistema. La comparación entre

prompts mostró que la simple generación automática de textos no garantiza calidad suĄciente; por

el contrario, la especiĄcidad instruccional del prompt resultó decisiva para mejorar seguridad, química

verde, viabilidad formativa y reducción del porcentaje de cambios requeridos.

Asimismo, la incorporación de métricas formales de química verde y de referentes explícitos de

seguridad permitió profundizar la valoración crítica del corpus. A partir de ello, se evidenció que las

principales debilidades de los protocolos no se localizaron en la estructura discursiva general, sino en

la insuĄciente integración de decisiones técnicas orientadas a prevenir residuos, reducir peligrosidad,

comunicar riesgos de manera más precisa y orientar adecuadamente la respuesta ante incidentes. Por

tanto, la evaluación de materiales generados por IA en enseñanza de la química debe ir más allá de la

coherencia textual e incorporar criterios técnicos y ambientales que condicionan su viabilidad real.

En consecuencia, la inteligencia artiĄcial puede considerarse una herramienta útil para la e laboración

de borradores iniciales de protocolos de laboratorio, pero no como un generador de documentos direc-

tamente transferibles al trabajo experimental sin revisión especializada. Su valor pedagógico se ubica,

sobre todo, en su capacidad para ofrecer una base preliminar susceptible de adaptación, validación y

mejora por parte del profesorado. En este marco, la rúbrica aplicada y la comparación entre modelos

y prompts constituyen una contribución metodológica pertinente para examinar críticamente recursos

experimentales producidos por inteligencia artiĄcial en contextos educativos introductorios.

Finalmente, aunque la ampliación del diseño permitió responder con mayor solidez a las obser-

vaciones metodológicas iniciales, los hallazgos siguen inscritos en un alcance comparativo acotado,

centrado en tres inteligencias artiĄciales, tres prompts y seis temas introductorios. Por ello, futuras

investigaciones podrían profundizar en diseños longitudinales, aplicaciones empíricas con estudiantes,

contrastación entre niveles educativos y validaciones más amplias con protocolos desarrollados en condi-

ciones reales de laboratorio.

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.

ISSN-e: 2737-6419

Período: abril-junio de 2026

Revista Athenea

Vol.7, Número 24, (pp. 50Ű59)

REFERENCIAS

[1] A. K. Erümit and R. Ö. Sarıalioğlu, ŞArtiĄcial intelligence in science and chemistry education: a

systematic review,Ť Discover Education, vol. 4, no. 1, p. 178, 2025.

[2] Y. Feldman-Maggor, R. Blonder, and G. Alexandron, ŞPerspectives of generative ai in chemistry

education within the tpack framework,Ť Journal of Science Education and Technology, vol. 34,

no. 1, pp. 1Ű12, 2024.

[3] J. L. Araújo and I. Saúde, ŞCan chatgpt enhance chemistry laboratory teaching? using prompt

engineering to enable ai in generating laboratory activities,Ť Journal of Chemical Education, vol.

101, no. 5, pp. 1858Ű1864, 2024.

[4] T. M. Clark, ŞInvestigating the use of an artiĄcial intelligence chatbot with general chemistry exam

questions,Ť Journal of Chemical Education, vol. 100, no. 5, pp. 1905Ű1916, 2023.

[5] B. J. Yik and A. J. Doo d, ŞChatgpt convincingly explains organic chemistry reaction mechanisms

slightly inaccurately with high levels of explanation sophistication,Ť Journal of Chemical Education,

vol. 101, no. 5, pp. 1836Ű1846, 2024.

[6] Y. M. Vargas-Rodríguez et al., ŞEl diagrama de Ćujo como semáforo de seguridad ecológica de los

experimentos de laboratorio,Ť Educación Química, vol. 27, no. 1, pp. 30Ű36, 2016.

[7] U.S. Environmental Protection Agency, ŞBasics of green chemistry,Ť 2026, available:

https://www.epa.gov/greenchemistry/basics-green-chemistry. Accedido: 6 de abril de 2026.

[8] Americ an Chemical Society, Ş12 principles of green chemistry,Ť 2026, available:

https://www.acs.org/green-chemistry-sustainability/principles/12-principles-of-green-

chemistry.html. Accedido: 10 de abril de 2026.

[9] S. A. Gunbatar, G. T. Sirin, O. C. Ilkyaz, and Y. Mutlu, ŞExploring the artiĄcial intelligence

interaction proĄles of participants with diﬀerent levels of teaching experience for lesson planning

in the context of acids and bases,Ť Chemistry Education Research and Practice, vol. 26, no. 4, pp.

977Ű995, 2025.

[10] M. E. Emenike and B. U. Emenike, ŞWas this title generated by chatgpt? considerations for

artiĄcial intelligence text-generation software programs for chemists and chemistry educators,Ť

Journal of Chemical Education, vol. 100, no. 4, pp. 1413Ű1418, 2023.

[11] E. Yuriev, M. Orgill, and T. Holme , ŞGenerative ai in chemistry education: Current progress,

pedagogical values, and the challenge of rapid evolution,Ť Journal of Chemical Education, vol.

102, no. 9, pp. 3773Ű3776, 2025.

[12] American Chemical Society, ŞSafety in academic chemistry laboratories: Best practices for Ąrst-

and second-year university students,Ť 2017.

[13] ŮŮ, ŞGuidelines for chemical laboratory safety in academic institutions,Ť Washington, DC, 2016.

[14] Occupational Safety and Health Administration, Ş1910.1450 - occupational exposure

to hazardous chemicals in laboratories,Ť 2026, available: https://www.osha.gov/laws-

regs/regulations/standardnumber/1910/1910.1450. Accedido: 13 de mayo de 2026.

[15] J. Kim, ŞIntegrating artiĄcial intelligence (ai) chatbots and green chemistry principles in the syn-

thesis of cyclohexene,Ť Journal of Chemical Education, vol. 102, no. 7, pp. 3058Ű3064, 2025.

[16] M. Reina and A. Reina, ŞSeguridad en el laboratorio: una aproximación práctica,Ť Educación

Química, vol. 32, no. 4, pp. 45Ű58, 2021.

[17] E. F. Ruﬀ, J. L. Franz, and J. K. West, ŞUsing chatgpt for method development and green

chemistry education in upper-level laboratory courses,Ť Journal of Chemical Education, vol. 101,

no. 8, pp. 3224Ű3232, 2024.

Bravo W. et al. Protocolos de laboratorio generados por inteligencia artiĄcial para la enseñanza de la

química.