“La polémica tarea de evaluar la calidad“

Habida cuenta que el movimiento de los estándares de contenidos y rendimiento ya llegó al Perú, impulsado por los organismos internacionales, vale la pena revisar algunos de sus antecedentes, fundamentos y objeciones para ubicarnos en el mejor plano posible.

Estos organismos internacionales se han nutrido del debate interno en Estados Unidos iniciado hace unos años como consecuencia de las crecientes evidencias sobre el descenso en el rendimiento que tuvieron los estudiantes de ese país que culminaron la secundaria en las décadas de 1970 y 1980. Las mediciones desalentadoras que se obtenían con las pruebas NAEP y SAT (Una nación en riesgo, 1993), así como los bajos resultados comparativos obtenidos frente a los estudiantes europeos y asiáticos en el TIMSS, motivaron a los políticos norteamericanos a promover el establecimiento de estándares nacionales que sirvieran, a la vez, como metas y como medidas de progreso hacia esas metas, para evaluar la educación escolar de los estudiantes norteamericanos.

Sin embargo, no todos los antecedentes académicos respaldaban el uso de las pruebas estandarizadas. Por ejemplo, un estudio de cinco años reportado en 1986 por Donald Dorr-Bremme y Joan Herman, de la Universidad de California -confirmado por otros estudios de 1990 y 1992- mostraron que los profesores entrevistados no usaban los resultados de las pruebas para mejorar su enseñanza, porque no los consideraban una buena medida de lo que ellos enseñaban. Además, los resultados llegaban meses después de aplicadas las pruebas, sin especificar el detalle de cada alumno, por lo que no servían como retroalimentación.

Lo paradójico era que a pesar de ello las pruebas tenían un enorme impacto en la vida del aula, porque los profesores se sentían obligados a enseñar en función de ellas, más aún si sus resultados definían sus promociones y bonificaciones. Ocurrió entonces que los profesores empezaron a entrenar a los alumnos para mejorar sus puntajes en estas pruebas, dejando de lado aquellos temas que, siendo importantes, no serían evaluados.

De la fracasada experiencia israelí también aprendemos los inconvenientes que ocasiona el intento de generar igualdad de oportunidades a partir de la exigencia de estándares iguales de contenido y rendimiento para todos los alumnos. Los resultados de las pruebas segmentaron a los alumnos en dos: los que lograron puntajes altos (generalmente más por su procedencia socioeconómica y cultural que por la labor del colegio) y los que lograron puntajes bajos, lo que llevó a etiquetar negativamente a los alumnos y a los profesores de los colegios más bajos. Los resultados aumentaron la presión de los padres por mandar a sus hijos a los mejores colegios públicos y generó una gran frustración en quienes tenían que conformarse con los colegios de menores logros o emergentes, especialmente los de zonas periféricas que atendían a alumnos de procedencias étnicas o económicas con desventajas económicas o sociales (hijos de pobres, hijos de inmigrantes, etcétera).

La experiencia mundial enseña que, tomados como conjunto, los colegios más pobres siempre alcanzan menores logros de desempeño que los colegios económicamente más solventes. Sabemos que el nivel socioeconómico de las familias de los alumnos es un predictor directo de su aprendizaje en el colegio. Por ello, medir a todos con la misma vara resulta inequitativo y discriminatorio, ya que a igualdad de logros esperados, el esfuerzo que deben hacer los alumnos pobres para alcanzarlos es mucho mayor que el que deben hacer los alumnos de familias bien dotadas. Los estándares nacionales pueden crear la ilusión de que todos tienen una posibilidad razonable de alcanzar los mismos estándares; pero como eso no va a ocurrir, se tenderá a culpar a los profesores o a los alumnos pobres por no haberse esforzado lo suficiente. Esto termina privilegiando a los centros educativos privados de mayor nivel, cuyos alumnos exhibirán -de manera natural- los rendimientos más meritorios. No pocas voces habrán de surgir entonces para sugerir alguna forma de privatización de la educación.

Adria Steinberg, Roberta Tovey, y Howard Gardner («Focus Series # 2», The Harvard Educational Letter,1996) plantean que las pruebas estandarizadas solo enfocan el uso estrecho del conocimiento que hace una cabeza individual en un momento determinado, pero son pésimos predictores del éxito postescolar.

Por otro lado, sostienen que la mayoría de las pruebas evalúan solamente las inteligencias lingüística y lógico-matemática, por ser las más fáciles de medir, pero desconocen todas las otras inteligencias de los estudiantes que pueden promover el éxito en sus vidas. Como resultado de ello, generalmente fallan en predecir cuán bien un alumno se desempeñará en los niveles postsecundarios o en el puesto de trabajo. Mucho menos permiten hacer inferencias sobre el desempeño del país en su conjunto. Por ejemplo en el TIMSS los asiáticos sacan puntajes muy altos pero no alcanzar el desarrollo económico, científico y tecnológico que logra Estados Unidos, que se ubica a media tabla.

La misma línea de pensamiento la tiene el experto norteamericano en economía de la educación Dr. Henry Levin, de las universidades de Stanford y Columbia. En su artículo publicado en Educational Researcher (vol. 27, N.° 4, mayo de 1998) él expresa su desacuerdo con quienes han venido asumiendo una relación positiva entre un incremento en los logros académicos (medidos en la forma de puntajes más altos en las pruebas estandarizadas) y el incremento en la productividad del trabajador.

Levin sostiene que en la investigación no hay sustento alguno como para argumentar que estándares más altos y desempeños más elevados en pruebas estandarizadas sean las claves para una mayor productividad en el trabajo y mejores ingresos en la vida laboral. Él dice que no hay duda de que a más años de educación, el adulto obtiene mejores ingresos; pero que eso no implica que los nuevos estándares traerán consigo una mayor productividad en la economía.

Esto es más notorio aún en aquellos casos en los que se usa la evaluación computadorizada , porque esto desplaza a varias importantes áreas del currículo que son muy enriquecedoras para los alumnos pero difíciles (o imposibles) de evaluar mecanizadamente; por ejemplo, los programas de arte. Curiosamente, alumnos que desarrollan buenos programas de arte logran mejores desempeños postescolares que muchos de aquellos que se dedican a la computación. Adquirir cualquier habilidad artística requiere paciencia y perseverancia, desarrollar sensibilidades especiales y además alienta a los niños a ser confiados en sí mismos y autodisciplinados. Con seguridad, estas son metas importantes del sistema educacional.

Por otro lado, estos estándares nacionales cumplen la función coordinadora de las diversas partes del sistema educativo: los profesores que preparan sus lecciones, las universidades que forman profesores, los diseñadores de programas para apoyar la educación y los expertos que preparan las pruebas de rendimiento.

Sin embargo, quienes se preocupan por la igualdad de oportunidades confrontan lo anterior sosteniendo que estos estándares se convertirán en sobreexigencias para los grupos más débiles, lo que a la larga llevará a producir mayores fracasos en los niños pobres, a facilitar su estigmatización negativa y a promover la privatización.

a) Un primer gran error fue ingresar a la medición comparativa internacional de manera inconsulta y autoritaria, sin haberlo debatido previamente en la comunidad educativa nacional para preparar el terreno para sacarle provecho, y sin haber acumulado previamente suficiente experiencia nacional para conocer sus alcances y limitaciones para el caso peruano.

b) Otro gran error cometido estuvo en las inadecuadas estrategias de involucramiento de los centros educativos de la muestra que utilizó el Ministerio de Educación a la hora de aplicar las pruebas. Nuevamente de manera autoritaria y descortés, lejos de pedir la colaboración de los colegios se les conminó a participar, sin beneficiarse de la motivación que podrían haber comunicado los profesores a los alumnos participantes.Después de aplicadas las pruebas, no se les devolvió ni a los profesores ni a los alumnos los resultados, por lo que no les han podido dar ningún uso. La publicación de resultados globales no sirve de manera específica a cada colegio participante.

c) Otro tremendo desacierto fue la argumentación oficial para no publicar los resultados, aduciendo atingencias técnicas que -lejos de ser puestas a consideración de los expertos junto con los resultados- sirvieron como excusa para ocultarlos, lo que tan solo corroboró que el Perú había salido muy mal (los resultados buenos no se esconden) y que todo esto era una simple maniobra político-electoral. Además, con el antecedente del uso de la infraestructura educativa para fines electorales, se desacreditó totalmente la Unidad de Medición de Calidad y cualquier documento que ella pudiera producir.

d) Si bien en los últimos meses se han empezado a publicar los resultados globales y comparativos entre los países que participaron del Laboratorio de Medición de la Calidad de Unesco 1997, mientras no se publiquen las preguntas no se podrá saber realmente de qué tipo de habilidades, conocimientos o competencias carecen los alumnos peruanos evaluados, por lo que quedan truncados el juicio correcto sobre el nivel de su desempeño y la retroalimentación destinada a superar las deficiencias.

e) Los resultados publicados respecto al pésimo desempeño de los estudiantes peruanos en Matemáticas y Lenguaje, o a que la educación privada rinde mejor que la pública y a que ésta va de mejor a peor desde las zonas urbanas costeñas monolingües hacia las urbano-marginales y rurales bilingües de sierra y selva, no nos dicen nada nuevo. ¿Tantos millones de dólares invertidos para saber aquello que podía haberse conocido con una buena muestra nacional? ¿Hasta qué punto en esta era de la tercerización se justifica el establecimiento de una burocracia ministerial para cumplir una tarea que podía entregarse a algunos centros de investigación de universidades? f) Seamos claros: mientras el Perú no salga de su pobreza, sus logros educacionales (tomados como conjunto) no llegarán muy lejos y todas las pruebas que se apliquen producirán la misma información ya conocida que refleja la estratificación educativa de la sociedad peruana. La medición del impacto de los factores asociados con el bajo rendimiento como son la tasa de alfabetización de adultos, el índice de desarrollo humano, el producto bruto interno per cápita y el gasto en educación como porcentaje del gasto público corroboran esta presunción.

Igualmente lamentable es que aun en Lenguaje y Matemáticas, sabiendo que las pruebas convencionales tienen severas limitaciones de diseño, no se utilizan estrategias más relevantes. Por ejemplo, que el trabajo desempeño evaluado sea el producto de una construcción original y no una reproducción del conocimiento ya existente, o la habilidad para encontrar información y comunicar las ideas en forma coherente.

No hay que ser adivino para predecir que esos objetivos serán retirados de los estándares nacionales y nos quedaremos solamente con los que se puedan medir uniformemente, como por ejemplo los que se obtienen de las pruebas de Matemáticas, Lenguaje y Ciencias.

Quizá trabajar con muestras más pequeñas pero con evaluaciones más integrales nos daría información mucho más significativa.

¿De qué estándares estamos hablando?

Hay tres tipos de estándares básicos: los estándares de contenidos (que se encuentran en los «programas oficiales»), que establecen el listado de temas o competencias que deberían ser aprendidos por todos los alumnos; los estándares de desempeño, que definen los grados de avance o niveles de logro alcanzados por los alumnos; y los estándares sobre las oportunidades para aprender, referidos a los programas, profesores, equipos y otros recursos disponibles para que cualquier alumno pueda alcanzar los estándares de contenido y desempeño.

¿Para qué se aplican estas pruebas?

Debemos clarificar para qué se aplican estas pruebas y qué se puede concluir a partir de ellas. En el caso norteamericano, la racionalidad que sostiene el uso de las pruebas estandarizadas para medir el avance en la adquisición de los conocimientos o las competencias que harán que los alumnos sean más competitivos cuando ingresen al mercado laboral y tengan un impacto favorable en el desarrollo científico y económico del país, choca con las evidencias de que quienes obtiene altos puntajes en las pruebas no necesariamente son los alumnos mejor formados y con mayores probabilidades de éxito en sus desempeños extraescolares. Lo que realmente miden estas pruebas es la capacidad de los alumnos de rendir bien en pruebas similares, nada más.

Uniformización

Otro efecto lamentable de la estandarización de contenidos es que al exponer a todos los colegios al mismo criterio de éxito o calidad, se les obliga a ceñirse a ellos sacrificando su identidad y orientación particulares. Esto lleva a un perjudicial estrechamiento del currículo porque la administración de estas pruebas y el uso de sus resultados para otorgar estímulos económicos a los profesores y colegios alienta a los directores y docentes a que se preocupen por enseñar solamente aquello que aparecerá en las pruebas, para convertir a los alumnos en «buenos solucionadores de tests».

¿Qué tienen de positivo?

Quienes promueven estas pruebas ven en los estándares una manera de elevar las exigencias y con ello los rendimientos. Encuentran que sirven a la vez como metas y como medidas de progreso hacia esas metas impulsando hacia arriba el desempeño de los alumnos. Además, afirman, proporcionan protección al consumidor mediante el suministro de información precisa a estudiantes y padres.

El Laboratorio de Medición de Calidad de Unesco (1997)

En el caso peruano, la decisión de incorporarnos a un esquema de evaluación comparativa internacional ha estado llena de errores de los cuales es necesario sacar importantes lecciones.

Reflexión final

El énfasis en las pruebas nacionales convencionales puede terminar distrayéndonos de asuntos más centrales como la búsqueda de una educación integral que procure el desarrollo personal, social, cívico, científico, físico, ético, artístico y estético de los jóvenes. Por lo tanto, si el movimiento por los estándares procurara identificar los avances en esas áreas podría ser muy interesante. Pero si eso es lo que se pretende, ¿cómo se logrará a partir del uso de los estándares y las pruebas convencionales que pretenden medir habilidades en Lenguaje y Matemáticas?

Artículos afines:

Catálogo de todo tipo de mediciones de la educación: ¿Qué datos están disponibles? 23 de febrero de 2018 por Max Roser. La idea de este documento es proporcionar una visión general de las métricas que se utilizan para medir la actividad y estructura educativa de las poblaciones, especialmente en las comparaciones internacionales. Están listadas todas las métricas y conjuntos de datos que se incluyen en el extenso catálogo de datos EdStats del Banco Mundial.

“La polémica tarea de evaluar la calidad“

Recibe noticias y actualizaciones.

“La Inmigración Judía al Perú” (panorámica por décadas)