domingo, 12 de abril de 2009

COMO CREAR LOS ITEMS PARA UN TEST DE ACTITUD



COMO CREAR LOS ITEMS PARA UN TEST DE ACTITUD
Estos son algunos temas relacionados con la creación de ítems para un test de actitud.

Teorías y modelos sobre la construcción de los tests en educación desde una perspectiva diacrónica.

En este apartado presentamos las teorías de los tests desde una perspectiva diacrónica así como las características básicas de las mismas. Esta visión diacrónica nos guía en la comprensión del papel que juega cada teoría en el desarrollo histórico-cultural de la medición en educación. Diversas autoras (Martínez Arias, 1996; Colás, 2000b) plantean este desarrollo como un proceso explicable por la influencia de tres aspectos fundamentales:
1) el desarrollo inicial de la psicometría como elemento impulsor de este campo científico;
2) la progresiva aparición y desarrollo temático de las teorías de los test (TCT, TGT y TRI);
y, finalmente, el impacto de ciertos cambios auspiciados especialmente por el desarrollo de las tecnologías informáticas.

Desde el origen de la medición educativa se reconoce la influencia decisiva de la psicometría. Esta surge, como se ha señalado en los inicios del capítulo, a partir del desarrollo progresivo de un conjunto de métodos y técnicas implicadas en la medición de las variables psicofísicas y psicológicas. A partir de la propuesta de Muñiz (2001), podemos reconocer cuatro grandes áreas temáticas en la psicometría: 1) teoría de la medida, ya expuesta en los apartados anteriores y que abarca todo lo relativo a la fundamentación teórica de la medida; 2) la teoría de los tests, que aborda la lógica y los modelos matemáticos subyacentes en la construcción y uso de los tests; 3) el escalamiento psicológico, que abordamos en un apartado subsiguiente; y, 4) técnicas multivariadas, que junto con la tecnología estadística resultan imprescindibles para la construcción y análisis de los instrumentos de medida. De estos aspectos resaltamos a continuación los relativos a las teorías de la medida y su impacto en el desarrollo de modalidades de tests y técnicas de prueba progresivamente mejor adaptadas a sus funciones diagnósticas como instrumentos de medida educativa. El punto de partida no puede ser otro que reconocer la dificultad de este tipo de medida, como paso previo a su abordaje desde los diversos modos de aproximación teórico-conceptual a los tests. Concretamente, según Martínez Arias (1996: 29) el diseño de instrumentos para la medida de constructos educativos y psicológicos presenta algunos problemas:

• “No existe una única aproximación a la medida de un constructo que sea universalmente aceptada. Existe siempre la posibilidad de que dos teóricos seleccionen diferentes tipos de conducta para la definición operativa de un mismo constructo.
• Las medidas educativas y psicológicas están basadas en muestras limitadas de conductas. Delimitar el número de elementos y la variedad de expresiones en que se manifiesta un constructo, es uno de los principales problemas en el desarrollo de un instrumento de medida.
• La medida obtenida siempre tiene error. Al estar basada en muestras limitadas en contenidos y recogidas en un momento en el tiempo, está afectada por todos los errores del muestreo.
• Falta de escalas con origen y unidades de medida bien definidas.
• Dificultad de identificar un constructo con total independencia así como sus definiciones operativas.”

La teoría de los tests aborda estos problemas y plantea métodos y alternativas para su solución. Las distintas teorías y sus desarrollos fundamentan avances en la construcción y validación de instrumentos de medida concretos. Hemos reconocido anteriormente muchos antecedentes al diagnóstico, entendido como medida científica, expresando la larga trayectoria desde autores como R. Fechner o las contribuciones realizadas por Galton, Cattell, Binet, Spearman, Thurstone, etc. sobre diferencias individuales.

En Pedagogía, el inicio de la medición se sitúa en los trabajos de J.M. Rice y Thorndike a principios del siglo XX. Concretamente durante este período, el principal reto en el campo de la investigación pedagógica es crear tests propiamente escolares y elaborar escalas de comprobación de conocimientos. “La línea iniciada por Rice en 1910 origina la creación de escalas de redacción, de ortografía y de cálculo aritmético” (Mateo, 2000, 26). Los primeros trabajos empíricos en el campo educativo corresponden a test de instrucción, inteligencia y escalas métricas de escritura; también se puede decir que estas preocupaciones surgen estrechamente ligadas al nacimiento de la Pedagogía Experimental como disciplina científica. Este período de la medición educativa se caracteriza por su énfasis en la medición de las personas. Los instrumentos típicos de esta orientación son tests psicométricos de aplicación individual.

También, especialmente durante la Primera Guerra Mundial se crean tests de inteligencia colectivos propiciados por las necesidades políticas de selección y clasificación en el ejercito de grandes cantidades de personas. En este período, la puntuación global de los test de inteligencia se muestra insuficiente para detectar los diferentes aspectos de funcionamiento intelectual de los sujetos, por lo que se impone la medición de rasgos más específicos con el fin de realizar pronósticos más precisos.

Entre los años 30 y 40 se construyen y afinan las hoy clásicas baterías de aptitudes, que conforman lo que entonces se consideraban como “componentes fundamentales del funcionamiento inteligente”, referido a aspectos como: comprensión verbal, fluidez verbal, aptitud numérica, aptitud espacial, rapidez perceptiva y razonamiento general. La técnica del análisis factorial permite estructurar multidimensionalmente la genérica puntuación global de inteligencia.

Paralelamente al desarrollo de Tests Cognoscitivos, los Test de Personalidad también se benefician de los avances técnicos del análisis factorial y otras técnicas multivariadas afines. A estos avances se añaden nuevas orientaciones como los Tests Proyectivos (Muñíz, 1994).

Los cambios en las últimas décadas han supuesto un giro importante en los modelos de medida y en las aplicaciones prácticas en la evaluación. La medida se diversifica para atender programas, instituciones, colectivos, etc. La incorporación de nuevos objetos evaluativos plantea la necesidad de desarrollar otras técnicas de recogida de datos más abiertas y flexibles. Por otra parte, en cuanto al estudio y medida de constructos ya clásicos también cambia. En la actualidad, en relación con el rendimiento también se plantea la necesidad de medir nuevos resultados escolares, especialmente habilidades de alto nivel cognitivo, tales como resolución de problemas, razonamiento y pensamiento crítico, derivándose a su vez, la necesidad de nuevos modelos de medida, nuevas conceptualizaciones de validez y fiabilidad en los tests, y nuevos modos de medición.

El desarrollo de la teoría de los tests corre parejo con la evolución de tests concretos que van surgiendo. De hecho, ambos desarrollos se influyen mutuamente e incluso a veces los tests como instrumentos se han anticipado a su fundamentación teórica (Muñiz, 1992). Como hemos señalado con anterioridad, la teoría de los tests constituye un área que provee de enfoques y modelos para el análisis y construcción de instrumentos de medida, identificándose tres orientaciones básicas: la teoría clásica de los tests (TCT), teoría de la generalizabilidad (TGT) y teoría de respuesta al ítem (TRI). Estas tres orientaciones aportan modelos diferentes para la construcción y validación de tests, aunque todas siguen vigentes, tienen un recorrido progresivo y secuencial.

La Teoría Clásica de los Tests (TCT) ha sido el modelo dominante durante gran parte del siglo XX y aún hoy tiene una vigencia notable observable en las aplicaciones prácticas. Esta teoría surge con el objetivo central de desarrollar un modelo estadístico que fundamente las puntuaciones de los tests y permita la estimación de los errores de medida asociados al proceso de medición. El nacimiento de la TCT se sitúa en los primeros trabajos de Spearman. No obstante, las obras de Guilford (1936) y Gulliksen (1950), suponen la integración y sistematización del cuerpo de conocimientos de esta teoría, incluyendo temas sobre validez, fiabilidad, análisis de ítems, etc. El modelo que asume esta teoría plantea que la puntuación empírica del sujeto en un test consta de dos componentes: puntuación verdadera y error de medida. A partir de estos conceptos y de los supuestos asociados se estima el grado de fiabilidad y validez de los instrumentos de medida. A esta teoría se deben el desarrollo de múltiples técnicas estadísticas multivariadas y métodos para el cálculo de la fiabilidad de un instrumento: análisis factorial, componentes principales, formas paralelas, test-retest, las dos mitades. En este marco, también se producen avances fundamentales respecto a la noción de validez, tipos y procedimientos para garantizarla. Son aspectos concretos que se abordan en ulteriores apartados.

Las principales dificultades que presenta la TCT se refieren a que la medición de un sujeto en una variable depende del test utilizado y del grupo normativo. En primer lugar, la dependencia de la medida en función del instrumento utilizado plantea problemas para tratar de establecer la equivalencia entre las puntuaciones de dos tests distintos que midan una misma variable. Por otro, las propiedades del instrumento de medida (ítems y test) están en función de los sujetos a los que se aplica. Los índices de dificultad, discriminación y consistencia interna depende de los grupos de sujetos y su tamaño en el cálculo.

A partir de 1950 factores de muy diversa índole promueven el desarrollo de las otras dos nuevas teorías de los tests (TGT y TRI), así como su expansión más o menos constante y alternante durante las décadas siguientes. Las aplicaciones concretas, derivadas de estas nuevas teorías en la medición de variables educativas, se hacen esperar algún tiempo, llegando hasta nuestros días.

La teoría de la generalizabilidad de los tests (TGT) se considera una extensión de la teoría clásica de los tests, en tanto que reconoce el mismo modelo relativo a la existencia de errores junto a la puntuación verdadera, pero intenta resolver algunos de estos problemas mediante la aplicación del análisis de varianza para analizar dichas fuentes de error de medida. Esta teoría se plantea como una alternativa en la forma de conceptualizar la fiabilidad de los instrumentos de medida y de su varianza de error, reconociendo múltiples fuentes de error y posibilitando su integración en una estructura global. Fue desarrollada por L.J. Cronbach y colaboradores. Esta teoría introduce una serie de modificaciones importantes a la TCT (muestreo de fuentes de error, medidas aleatoriamente paralelas, puntuación del universo, generalizabilidad). En educación, algunos trabajos (Buendía y Pegalajar, 1990; Abalde, 1990; Blanco, 1993) resumen las aportaciones de esta teoría y sus aplicaciones en la medición de fenómenos educativos.

Igualmente, aunque los orígenes de la teoría de respuesta al ítem (TRI) se sitúan en los trabajos pioneros de Richardson, Lawley, Tucker, Lord y Birnbaum de los años cincuenta, su expansión se produce a partir de los años sesenta con la aparición del libro de Rasch (1960) y las contribuciones de Birnbaum en el libro de Lord y Novick (1968). Sin embargo, el desarrollo y expansión de los ordenadores durante la década de los 80 constituye un factor decisivo para la materialización de esta teoría en modelos y aplicaciones concretas. Anastasi (1988) define la década de los ochenta como un período de avances inusuales en la teoría de los tests tanto respecto al progreso tecnológico como a la sofisticación teórica.

Al igual que la teoría de la generalizabilidad, la TRI trata de resolver los problemas de la teoría clásica: proporcionar mediciones invariantes respecto de los instrumentos utilizados y disponer de instrumentos de medida cuyas propiedades no dependan de los objetos medidos. Esta teoría aporta todo un conjunto de avances técnicos para la construcción y análisis de los tests: las funciones de información de los ítems y del test, errores típicos de medida distintos para cada nivel de la variable medida o el establecimiento de bancos de ítems con parámetros estrictamente definidos, lo que posibilita el uso de tests adaptados al nivel de los sujetos con exploraciones más exhaustivas y rigurosas en función de las características de éstos. La TRI revitalizará áreas tales como los bancos de ítems o los tests referidos al criterio. En educación, destacan algunas aportaciones teóricas y metodológicas sobre la TRI (Gaviria, 1990, 1999; Murillo y Castro, 1995).

En la exposición de este breve recorrido sobre la medición, los años sesenta destacan como un período de gran actividad teórica en el marco de la medida y las teorías de los tests. En la práctica también se observa la ampliación del objeto de estudio, se reconocen nuevas unidades a considerar en el assessment educativo considerando ideas que se vienen desarrollando desde el primer cuarto de siglo como la idea de “programa”, pasando desde la focalización en conductas individuales al interés por estudiar los currículos, programas, contextos, instituciones, organizaciones y políticas, etc., dando origen y cuerpo a la metodología de investigación evaluativa. El impacto de estos nuevos enfoques sobre la medida y, en concreto, sobre las teorías de los tests fue significativo, sobre todo por la aparición de todo un conjunto de nuevas temáticas (clima del centro, ambiente, organización social, resolución colectiva de problemas, ...) para evaluar mediante pruebas y otras técnicas de escalamiento, también retos para los tests (individuales y colectivos); todavía hoy es así en nuevos campos educativos.

En esta vertiente, destacan las aportaciones del grupo de investigación en educación multicultural (GREDI) de la Universidad de Barcelona, sobresaliendo su labor en la construcción y validación de instrumentos de medida en el campo de la educación multicultural (Rodríguez y otras, 1997; Cabrera y otras, 1998; Espín y otras, 1998; Bartolomé y otras, 1999). La medición de las emociones también suscita un gran interés (Alvarez y otros, 2000; Bisquerra y otros, 2000).

La noción de medida también va cambiando; de entender la medida de forma estable, cuyo objetivo es la medición de la posición de una persona o evento en un momento preciso, se ha pasado a una concepción evolutiva, en la que el objetivo es registrar los cambios o progresos a través del tiempo. Los objetivos educativos a los que sirven también han cambiado: junto a usos estandarizados de la medida a nivel institucional o individual (admisión de alumnos, valorar el nivel de logros, evaluar programas, centros o instituciones, etc.) surgen otras aplicaciones tales como diagnosticar problemas de forma inmediata o establecer perfiles y trayectorias de aprendizaje. El marco de las técnicas de prueba también se extiende, tanto como la crítica al supra-uso de tests.

Otro de los factores, que es necesario destacar en el recorrido diacrónico por la teoría y práctica de las medidas basadas en técnicas de prueba o tests, es el auge de las tecnologías y su aplicación en la medición. La incorporación del ordenador en el desarrollo científico en general constituye uno de los avances significativos del siglo XX y su impacto en la medición también es considerable; especialmente la tecnología informática facilita el desarrollo de modelos matemáticos y técnicas estadísticas multivariadas antes prácticamente inviables. En particular, el desarrollo más espectacular (además de todos los campos de la medida hasta ahora tratados) versa sobre la aplicación de ordenadores en el desarrollo exponencial de la TRI, en sus posibilidades reales de aprovechamiento social; posibilitando, los tests adaptativos informatizados (TAIs), el perfeccionamiento de instrumentos en general e incluso interpretación y elaboración de informes. Sus posibilidades son enormes no sólo en la administración del test, sino también en la construcción y selección de ítems y en la calidad y precisión de la información.

En esta corriente tecnológica de la medida y del diagnóstico, sobresalen las aportaciones de profesores del área MIDE de la Universidad de Valencia. En este marco, destacan los trabajos de Jornet y Suarez (1994; 1996) sobre los usos y características métricas de pruebas estandarizadas y criteriales en la evaluación del rendimiento. Específicamente sobre el diagnóstico y medición de la teleformabilidad se distinguen algunos trabajos (Jornet, 1999). De forma complementaria, los desarrollos realizados en este contexto han permitido la inserción del área en el marco tecnológico e Internet (Aliaga, 1997a; 1997b; 1999) así como también son reconocibles sus aportaciones en el diseño y uso de materiales didácticos y evaluativos basados en las TIC y en el marco de la teleformación (Aliaga, González Such y Bo, 1999; Orellana y Aliaga, 1999; González Such y Otros, 1999; Sáez y otros) .

Colás (2000a, 42) señala que la informática ha posibilitado una considerable mejora de las condiciones de control de la medida. Las aplicaciones a la medida se han desarrollado en cuatro áreas: 1) registro de estímulos muy variados, desde información puntual hasta dimensiones ambientales; 2) registro y acceso a secuencias de procesos y operaciones; 3) toma de decisiones, basadas en procesos de entrada y contabilización de información registrada e, 4) interconexión de información almacenada en distintas fuentes, formatos y lenguajes. Una gran mayoría de programas informáticos disponibles en el mercado se diseñan específicamente para cubrir las tareas que conlleva cualquier proceso de medición educativa: a) elaboración de test, incluye la redacción del test, estudio piloto y revisión de ítems, b) administración de test, que implica obtener las respuestas, clasificar a los sujetos en función de las mismas e interpretar los resultados y, c) análisis de test, que abarca la validación del mismo y el análisis de los ítems para calibrar sus parámetros. Las tecnologías facilitan hoy el acceso general y disponibilidad pública de estos avances informáticos, posibilitando software específico para la medición y el diagnóstico en Educación.

Diversos autores (Bunderson, Dillon y Olsen, 1993; Martínez Arias, 1996; Colás, 2000b), plantean desarrollos que concretan el impulso tecnológico: a) la elaboración de bancos de ítems; b) los Tests a Medida; y, c) los Tests referidos al Criterio.

a) Los bancos de ítems son conjuntos de elementos que miden un mismo rasgo, campo o área de conocimiento, almacenados junto con sus propiedades estadísticas, y sus parámetros. Aunque los primeros trabajos realizados sobre bancos de ítems se realizaron a final de la década de los 60 y a comienzo de los 70, su uso se hace realidad a partir de aplicaciones informáticas que facilitan el almacenamiento, la clasificación, y la estimación de los parámetros de los ítems. Los bancos de ítems contienen por tanto ítems parametrizados (calibrados en la misma escala) que definen operativamente la variable medida. En la actualidad, la gran mayoría de software informático actual especializados en test incluyen la opción de creación de bancos de ítems (MicroCat, FastTest, The Examiner, etc). Las aplicaciones al ámbito educativo son muy diversas: evaluación de los sistemas educativos y de áreas curriculares y también aplicaciones dentro del aula. Las políticas científico-educativas potencian esta vertiente científica, al apoyar líneas de trabajo en torno a la elaboración de bancos de ítems para la evaluación de sistemas educativos en base a áreas curriculares.

b) Tests a Medida. La idea de evaluación individualizada, de aplicación de test adaptados, hechos a la medida de los sujetos objeto de evaluación, no es nueva, se remonta a los trabajos de Binet y Simon sobre inteligencia en 1908. Sin embargo, apenas se trabajó sobre esta idea hasta finales de la década de los 60. El desarrollo de software informático en la evaluación individualizada potencia y consolida un nuevo área denominada CAT (Computer Adaptative Testing) y que en la bibliografía castellana se reconocen también como Tests adaptativos Informatizados (TAIs). A ello ha contribuido también la introducción de la TRI (Teoría de Respuesta al Item) como vía fundamental en el estudio de los tests. Muñíz y Hambleton (1992), señalan como principales ventajas la adaptación al nivel de los sujetos a los que se aplican, con lo que se gana en precisión (se minimiza el error de medida) consiguiéndose asimismo efectos colaterales deseables, como el aumento de la motivación del sujeto al presentarle retos “a su medida” o evitar la pérdida de tiempo en contestar ítems no adaptados al sujeto.

c) Los Tests referidos al criterio. La expresión Test Referidos al Criterio aparece por primera vez publicada en la revista American Psychologist, en un artículo de Glaser (1963: 519), que los define “como aquellos en los que los resultados dependen del estatus absoluto de calidad del estudiante, frente a los TNR que dependen del estatus del grupo”. Glaser establece la distinción entre medición con referencia a la norma, centrada en detectar la posición relativa de un estudiante respecto a lo que es normativo en su grupo, y la medición con referencia al criterio, que se establece por comparación a “un nivel absoluto de calidad”. La principal característica distintiva de estos tests es que proporcionan bases para evaluar a los sujetos en relación a dominios de conducta bien definidos. En el ámbito español, algunos textos y manuales han abordado las características distintivas y principales aportaciones en el campo de la educación (Cabrera y Espín, 1986). El mantenido interés en la evaluación referida al criterio y el resurgimiento de la TRI han ido paralelos en el tiempo, proporcionando ésta última un marco muy apropiado para la elaboración de estos tests. Una extensión de este planteamiento lo encontramos hoy día en la idea de Tests de Dominio Computerizado que está a caballo entre los Tests Referidos al Criterio y los Test a Medida, y que se debe al trabajo de Lewis y Sheeban (1990). En este tipo de test se conjuga la idea de la evaluación individualizada con los TRC. En la década de los noventa las referencias a estos tests, en publicaciones especializadas es muy numerosa (Journal of Educational Measurement, American Educational Research, Applied Psychological Measurement Journal, etc) y su aplicación educativa habitual.

Por último, conviene no olvidar en este recorrido, el papel jugado por las diversas teorías de la comunicación y de la mente en la re-definición y el cambio espectacular en las concepciones acerca de la medida de la inteligencia y de las aptitudes; ello, principalmente vinculado a los sucesivos cambios paradigmáticos acontecidos en el marco de los fundamentos (hoy interdisciplinares) de la psicología humana. La evolución desde un marco básicamente conductista, basado en negación de un enfoque cognitivo de la mente, a la aparición extensiva de éste en la práctica educativa supuso durante los años 70 un fuerte caballo de batalla; que, al menos en España, parece auspiciarse tanto por la incidencia de los cambios políticos y legislativos como por la entrada sistemática y adaptación de las teorías de Piaget a la enseñanza y la evaluación de los conocimientos. Esta “revolución cognitiva”, sin embargo, tuvo escasas consecuencias en el marco de la teoría de la medida y de los tests. El desarrollo y aplicación de los tests seguirá su propio camino, de alguna manera, de espaldas a la psicología que los hizo tomar cuerpo.

Así, mientras en la Psicología se han sucedido muy diversos cambios paradigmáticos basados en reconsideraciones sobre la conciencia y la mente humana (cognitivismo estructuralista, procesamiento de la información, constructivismo, ...), en las teorías clásicas de la medida sólo se atendería al propio desarrollo matemático y estadístico de la fiabilidad de las medidas. Desde finales de los años ochenta hasta mediados de los noventa este fue un problema resaltado por muy diversos autores y que se aborda con investigaciones diversas. En este sentido, con el objeto de recoger esta problemática y tendencia científica en la medida, Martínez Arias (1996: 43) la plantea como una preocupación típica de los años noventa al considerar la discusión sobre el papel de los avances de la psicología cognitiva, fundamentalmente el procesamiento de la información, en la construcción de pruebas e instrumentos psicométricos:

“La psicología cognitiva en cuanto interesada en el estudio de cómo las personas representan mentalmente y procesan la información, incluye dentro de su dominio aptitudes mentales como percepción, memoria, razonamiento, resolución de problemas, toma de decisiones, etc., es decir, trata con muchos procesos tradicionalmente medidos por medio de tests psicométricos. Sus desarrollos han tenido importantes implicaciones para la construcción de instrumentos psicométricos (Embretson, 1985; 1993; Messick, 1989; Mislevy, 1993; Pellegrino, 1988; Ronning, Glover, Conoley y Witt, 1987; Snow, 1989; Sternberg, 1977; 1988; 1991). El impacto ha sido tan fuerte en los últimos años que ha llevado a los psicómetras a plantearse cuáles deben ser las técnicas adecuadas para la construcción de tests, de tal modo que permitan tener en cuenta estos avances [...]”

Sobre esta problemática se reconoce el libro de Fredericksen, Mislevy y Bejar (1993) como compilador de aproximaciones teóricas a tener en cuenta en la nueva generación de tests que se van a desarrollar desde los años noventa; en castellano, Martínez Arias (1991) recoge una revisión sobre inteligencia y procesamiento de la información. Mislevy (1993: 19) en su FOUNDATION OF A NEW TEST THEORY plantea el reto con las siguientes palabras:“[...] es sólo una leve exageración describir la teoría de los tests que domina hoy la medida como la aplicación de la estadística avanzada del siglo XX a la Psicología del siglo XIX”.

En el marco de este proceso general no podemos dejar de referirnos a lo que ha supuesto nuestra trayectoria particular, tanto personal como colectiva, del grupo de investigación al que pertenecemos “Investigación, Evaluación y Tecnología Educativa” (P.A.I.: HUM-154), en el desarrollo y la investigación de este tipo de pruebas. Precisamente, auspiciado por los cambios suscitados en el marco de la medición educativa, y con el interés; de un lado, de explotar hasta sus últimas consecuencias el modelo clásico de las teorías de los tests proponiendo nuevos desarrollos metacognitivos de los mismos; y de otro, desarrollar los tests referidos al criterio con fundamentos cognitivos y metacognitivos, tuvimos la suerte de participar en un proyecto europeo durante los años noventa que creemos de cierta importancia científica, con la participación de veinte universidades de cinco países europeos. El director del proyecto a nivel internacional fue el profesor Leclercq (1983) de la Universidad de Lieja en Bélgica y en España los trabajos se coordinaron desde la Universidad de Barcelona (Bartolomé, 1991), implicando también a las universidades de Cantabria, Murcia y Sevilla .

El reto abordado en dicho proyecto es vincular los procesos de medida mediante tests, en nuestro caso referidos al criterio, con los desarrollos de las teorías del procesamiento de la información y los avances de la psicología cognitiva post-piagetiana. Ello, con el objeto de considerar nuevas variables metacognitivas en el diagnóstico de los resultados de la Formación Profesional a nivel internacional y evaluar un software desarrollado expresamente para este enfoque y propuesta de medición. Estas producciones suponen, a nuestro entender, una innovación significativa en lo que respecta a aplicaciones de los test referidos al criterio y sobre la consideración de aspectos en la construcción de pruebas tales como: el uso de las “soluciones generales implícitas” o la “seguridad del conocimiento” que permite manejar variables metacognitivas tales como la coherencia y el realismo en el conocimiento de los contenidos y de sí mismo; aspectos que aún diez años después, se vienen usando en diversos trabajos con utilidades diagnósticas muy precisas. Sin embargo, el desarrollo exponencial de la teoría de respuesta a los ítems hace re-orientar los esfuerzos individuales de cada equipo al finalizar el proyecto a mediados de los años noventa.

En la actualidad estamos trabajando de nuevo sobre dichas dimensiones metacognitivas y otras nuevas que integran aspectos emocionales y afectivos en el desarrollo de las pruebas, sin embargo ahora estamos tratando de desarrollar pruebas diagnósticas basadas ya en la TRI y en el uso de Internet para la administración y evaluación de la calidad de los reactivos, en lo que supone una de las líneas de investigación del equipo en la que nos vemos imbricados. Desde nuestro punto de vista, la aplicación sistemática de los avances teóricos producidos en las teorías de la mente y de la comunicación, junto con los avances teóricos en los fundamentos probabilísticos y matemáticos desarrollados; y aplicables gracias al desarrollo tecnológico (informática, audiovisual, redes), son líneas actuales en el desarrollo de las teorías de los tests y la medida en educación.

Una vez expuesta esta visión diacrónica sobre el campo de los tests, parece conveniente expresar las ideas básicas que han supuesto hitos fundamentales en el enfoque la construcción y uso de los tests. Siguiendo las propuestas de Cajide (1993) y otros autores (Muniz, 1997; 2001; Martínez Arias, 1996; etc.), esquematizamos a continuación, muy brevemente, los fundamentos básicos que sustentan cada una de las tres grandes teorías de los tests: la teoría clásica (TCT), la de la generalizabilidad (TGT) y la teoría del rasgo latente (TRI).
2.2.1. La Teoría Clásica de los Tests (TCT): aspectos básicos y fundamentos

La teoría clásica de los tests, también denominada como teoría basada en el modelo de la medida verdadera, centra sus aportaciones más significativas en la estimación de indicadores de los aspectos de fiabilidad y validez, así como de sus relaciones. En este modelo, cuando administramos un tests a un sujeto, la medida observada representa su habilidad en una muestra particular de ítems a resolver en una situación particular, bajo condiciones particulares. Algunos factores pueden afectar al desarrollo del sujeto, diferentes condiciones, diferentes tiempos, etc. Si fuese posible administrar múltiples veces el test al mismo sujeto obteniendo las diferentes medidas, bajo todas las condiciones, tiempos y modalidades de ítems posibles, la media de todas las puntuaciones así observadas supone (teóricamente) una estimación insesgada de la habilidad o nivel de rasgo que se está midiendo. Dicha media se define como medida verdadera. Sin embargo, esta teoría asume que toda medida basada en una muestra particular de ítems está afectada por un error (error al azar de medida) que la hace ligeramente diferente de la medida verdadera; lo que matemáticamente se puede expresar mediante un modelo lineal para la formalización de las puntuaciones:

Xi (puntuación observada) = Vi (puntuación verdadera) + ei (error de medida)

De donde: Ei = Xi – Vi

En definitiva, mientras que para una persona la puntuación verdadera (su nivel de habilidad o nivel de rasgo medido, no observable) se asume invariante o constante, la puntuación observada y los errores son variables aleatorias con varianza, pues, distinta de cero.

Este modelo permite considerar las esperanzas matemáticas E de (“promedio de” o “valor esperado de”) cada término de la ecuación para el caso en que se han desarrollado una muestra amplia de mediciones repetidas, donde:

E(x) = E(v) + E(e)

En los supuestos del modelo se asume que el error de medida es una desviación no sistemática o aleatoria de la puntuación verdadera, por tanto, en una muestra amplia de medidas la esperanza matemática del error tiende a ser cero, si la muestra es infinita E(e) = 0. Lo que implica E(x) = E(v); siendo, por definición, la esperanza matemática del valor observado E(x) la verdadera medida.

En resumen, estos supuestos implican que:
a) los sujetos tienen un nivel de rasgo o puntuación verdadera que, si no hubiera error de medida, coincidiría con la puntuación obtenida;
b) al existir un error aleatorio en las puntuaciones obtenidas por un sujeto en los tests, estas puntuaciones difieren de forma aleatoria de las puntuaciones verdaderas; y,
c) si se aplica varias veces, o formas equivalentes, el test a un sujeto la puntuación media resultante se aproximaría mucho a su nivel o puntuación verdadera en la habilidad o rasgo medido. Toda esta teoría supone un marco idóneo para el desarrollo y progresivo afinamiento de los conceptos e indicadores de fiabilidad y validez que se abordan posteriormente. En el marco de la teoría clásica, estos indicadores de fiabilidad y validez (operativizados mediante coeficientes de correlación) suponen una guía de conocimiento sistemático para la construcción, selección y mejora de pruebas y el desarrollo de inferencias desde las puntuaciones obtenidas con las mismas.

Muniz (2001: 28) resume la formulación del modelo clásico y los supuestos matemáticos básicos que lo sustentan. La siguiente tabla los recoge:

Modelo: X = V + e; la puntuación empírica observada se compone de la puntuación verdadera más el error de medida.
Supuestos: 1. V = E(x); la puntuación verdadera es la esperanza matemática de la puntuación empírica observada; consecuentemente, E(e) = 0.
2. (v, e) = 0; no existe correlación entre las puntuaciones verdaderas (niveles de rasgo) y los errores de medida. Son aspectos independientes o no sistemáticamente asociados.
3. (ej, ek) = 0; no existe correlación entre los errores de medida de los sujetos en dos tests distintos, siendo estos a priori independientemente aleatorios para cada ocasión de medida.
Definición: Dos tests, j y k, se denominan paralelos si la varianza de los errores es la misma en ambos [2(ej) = 2(ek)] y también lo son las puntuaciones verdaderas de los sujetos (Vj = Vk).
Tabla 3. Formulación del modelo matemático de la TCT (adaptado de Muniz, 2001: 28).
2.2.2. La Teoría de la Generalizabilidad de los Tests (TGT): fundamentos y aportaciones

La teoría de la Generalizabilidad de los tests se plantea como una alternativa para superar la concepción unívoca y aleatoria del error de medida propuesta en los supuestos de la teoría clásica, por lo que aporta un nuevo marco para el estudio de la fiabilidad y la investigación de las pruebas. En la Teoría G (TGT) se conciben múltiples fuentes de error que pueden estimarse separadamente; ello, en respuesta a las críticas que pueden realizarse al concepto de fiabilidad inherente a los supuestos de la teoría clásica, en la cual, las fuentes de error están indeterminadas. En definitiva, se trata de ampliar la formulación matemática del modelo clásico (Xi = Vi + ei) para el caso en que es posible aislar múltiples fuentes de variación del error separadas de la variación verdadera:

e1
e2
e3
Xi = Vi + .
.
.
en

Para Bertrand (1985), la teoría G es como una extensión sobre la base del mismo modelo clásico de medida, pero sosteniendo que el error de medida puede analizarse, al menos en parte, diferenciando explícitamente distintos componentes del error, cada uno de ellos asociado con algún aspecto manipulable de una prueba: los contenidos, condiciones de aplicación, calificadores, etc. Como señala Hernández Pína (1993: 242) “parte del supuesto de que cada medición es un punto en un espacio definido por un número de facetas o universo de generalizaciones, de modo que la aplicación del análisis de varianza permite determinar los componentes de la varianza atribuibles a las diversas condiciones”. Ello en la práctica permite integrar el estudio de las fuentes del error en una estructura explicativa global. Como consecuencia, esta teoría aporta una forma de pensar distinta sobre la fiabilidad de las medidas y de su varianza de error, así como sobre su relaciones con el concepto de validez.
La consideración clásica de fiabilidad plantea problemas en la toma de decisiones sobre la calidad de un instrumento; es un problema de inferencia, en tanto que un alto coeficiente de fiabilidad global no determina el grado de generalización de las condiciones particulares de observación a un universo de condiciones. Como ha señalado De la Orden (1989: 229), “la teoría de la generalizabilidad considera las observaciones sobre un objeto de medida (habitualmente un sujeto) como una muestra de un universo de observaciones, todas las cuales proporcionan el mismo tipo de información acerca de dicho objeto de medida. El universo de todas las observaciones que son igualmente útiles y relevantes para quien haya de tomar decisiones, apoyadas en una determinada medida, constituye su universo de generalización. Las condiciones en que se realizan las observaciones en un universo de generalización varían, por ejemplo, pueden ser hechas por diferentes observadores y en diferentes ocasiones. Las condiciones de la misma clase se agrupan en facetas y, en consecuencia, las observaciones deben implicar muestras de condiciones de cada una de las facetas en un universo de generalización”.

Diversos autores (Hernández Pina, 1993; Del Rincón y Otros, 1995) señalan las ventajas de este enfoque o teoría sobre los tests: 1) Los supuestos en los que se basa son menos restrictivos que los de la teoría clásica, únicamente requiere el muestreo aleatorio de individuos y condiciones de medida. 2) Reconoce de forma explícita las fuentes de error de medida así como las interacciones entre ellas. 3) sirve para desarrollar y optimizar diseños de medida en estudios posteriores. Es decir, mediante el estudio sistemático de las diferentes fuentes de error podemos desarrollar un diseño de medida que reduzca el error total en los estudios posteriores. 4) Permite estudios en muestras estratificadas.

Entre las aportaciones más significativas de esta teoría de los tests consta la creación un nuevo marco general para la evaluación y desarrollo de pruebas que implica una nueva terminología conceptual que supera los clásicos conceptos de puntuación verdadera y error. El término población designa los objetos de medida y el de universo de generalización el conjunto de las condiciones implicadas en la generalización que quiere realizarse de la observación particular. El concepto de faceta designa las dimensiones que determinan fuentes de variación cada una de cuyas manifestaciones posibles se denomina nivel de la faceta. Así, se establecen condiciones de medida de cada faceta que definen el espacio de reflexión sobre el uso de un instrumento en determinada condiciones de aplicación nuevas o iguales. La puntuación universo de un individuo representa la puntuación media de un individuo, calculada sobre todas las observaciones posibles como una función de la puntuación observada para generalizar desde la muestra a la población. También se aporta un coeficiente de fiabilidad denominado coeficiente de generalizabilidad, que estima en que medida se puede generalizar, desde la media observada en unas condiciones, a la media de todas las observaciones posibles (Blanco, 1993).

Entre las modalidades de estudios basados en la teoría G destacan dos vertientes los de decisión D y los de generalizabilidad G. Ambos son descritos de forma significativamente distintas por los autores, especialmente respecto de las fases que contemplan en su desarrollo y que han sido resumidas por Del Rincón y Otros (1995: 92-93). Un estudio más pormenorizado de estos aspectos se pueden consultar, entre otros, en las propuestas de Brennan (1980), Shavelson y Webb (1991), Blanco (1993) y Cajide (1993). Este último autor incorpora un cierto desarrollo del modelo matemático y estadístico que subyace en este tipo de estudios, así como un conjunto de guías, textuales y gráficas, muy precisas sobre el desarrollo de los diversas fases en los mismos; información que no parece conveniente extender en este apartado de resumen. También, en estos trabajos se citan aplicaciones muy diversas, entre las que destacamos: Buendía y Pegalagar (1990) sobre aplicación de la teoría G en estudios de fiabilidad a partir de múltiples técnicas e instrumentos de medida usados en la investigación educativa y la toma de decisiones; Abalde (1990); Blanco (1993), sobre generalización de los sistemas observacionales; y a modos de ejemplos didácticos, los estudios de Bertrand (1988) y García Cueto (1993), sobre la evaluación de aprendizajes y determinación del coeficiente G en estudios de una sola faceta, respectivamente (resumidos y recogidos en el texto de Del Rincón y Otros, 1995: 96-101).
Evidentemente, si las aportaciones de la teoría clásica son hoy muy comunes y seguirán siéndolas en lo sucesivo, eso esperamos desde luego, aún más campo abierto consideramos para la teoría G cuyas aportaciones se están sistematizando aún y no sabemos los cambios socioculturales que pueden sucederse y hacerla competitiva académica y científicamente. No obstante, para terminar con este subapartado debemos recoger la opinión de Muñiz (2001: 20-21) que explica en parte lo acontecido hasta hoy en el desarrollo de esta teoría:

“Florecer parece haber sido el sino de los años sesenta, y la Teoría de los Tests no iba a ser menos. Precisamente, en 1968 aparecerá el libro de Lord y Novick (1968) STATISTICAL THEORIES OF MENTAL TESTS SCORES, que sintetiza y reanaliza críticamente todo lo hecho anteriormente en la Teoría Clásica de los Tests, abriendo nuevas y prometedoras perspectivas. En el libro se incluye además el trabajo de Birnbaum sobre los Modelos de Rasgo Latente, que abrirán una línea completamente nueva en la Teoría de los Tests, conocida hoy como Teoría de Respuesta a los Ítems (TRI). Este vuelco del modo de hacer clásico propiciado por la TRI va a oscurecer la mejora, al menos teórica, que prometía aportar al planteamiento clásico la Teoría de la Generalizabilidad (TG) propuesta por Cronbach y colaboradores [...]. Pero las aparatosas complicaciones introducidas en relación con las ventajas prácticas aportadas, unidas a la aparición en la escena psicométrica del enfoque alternativo de los modelos de TRI, relegarán la TG a un papel secundario en el campo de la teoría de los tests. [...]. Sea como fuere, el libro de Lord y Novick, de áspera lectura y notación infernal, marca un antes y un después en la Teoría de los Tests, terminaba una época, la clásica, y comenzaba otra nueva marcada por el predominio absoluto de la TRI. La nueva no negaba la anterior, aunque, como señalara Lord (1980), utilizará poco de ella para su formulación”.

Con este planteamiento como fondo histórico-científico, nos adentramos a continuación en una breve explicación de algunos aspectos básicos de la TRI.

2.2.3. La Teoría de Respuesta a los Ítems (TRI): principios y desarrollo actual

La Teoría del Rasgo Latente o Teoría de Respuesta a los Ítems (TRI) aparece como alternativa y nuevo modo de pensar los desarrollos y la calidad de los tests basados en las teorías clásicas. Estas presentan una serie de limitaciones resumidas por Cajide (1993) en tres aspectos fundamentales: a) el porcentaje de respuestas correctas y los coeficientes de correlación entre puntuaciones ítem-total en el test varían en función de la capacidad promedio y del rango de capacidad de la muestra piloto que sirve al cálculo. b) las puntuaciones de los sujetos en el test depende de la particular selección de ítems que se realiza. c) se presupone igual varianza de errores de medida para todos los sujetos. Este mismo autor señala lo que suponen retos a la construcción de tests desde este nuevo modelo:

“Quizás una de las más importantes limitaciones de los procesos de medida analizados a través del enfoque clásico o bien el de la generalizabilidad es la dificultad en comparar medidas a través de pruebas similares. [...] Sería ideal si el desarrollo de un procedimiento de medida estuviese guiado por una teoría de tal manera que las medidas en el test no dependieran del test, si las medidas pudieran estandarizarse a través de pruebas similares, si las fiabilidades separadas pudieran estimarse para diferentes niveles de habilidad, y que las estimaciones de los estadísticos del ítem y las fiabilidades no fueran dependientes de la muestra piloto. La teoría de respuesta al ítem se presenta como una teoría prometedora en tal sentido” (Cajide, 1993: 297).

Como señala Álvaro (1993), la TRI pretende subsanar estas graves limitaciones que hacen que los resultados obtenidos de la aplicación de un ítem dependa de las circunstancias de aplicación, de las características del test y de los sujetos examinados. Con este sentido se construye todo un marco teórico cuyos orígenes se encuentran en los trabajos de Richardson (1936); sin embargo, la creación de la TRI se atribuye a Lawley (1943), Tucker (1946), Lord (1952), Birnbaum (1958) y Rasch (1960). De modo independiente, Lord y Rasch desarrollan el modelo teórico de la teoría del rasgo latente; el primero plantea la teoría de la curva característica de los ítems, el segundo desarrolla el modelo logístico de respuesta a los ítems dicotómicos de un parámetro (“b” –índice de dificultad–). Ambas aproximaciones parten del supuesto de que las puntuaciones obtenidas por un sujeto en un ítem de un tests dependen directamente del “nivel de rasgo” o grado en que posee la habilidad definida por dicho rasgo latente o constructo medido. Esto supone establecer una relación funcional entre el nivel de habilidad o nivel de rasgo de un individuo y su probabilidad de acertar el ítem.

La expansión de la TRI se produce fundamentalmente a partir de los años 60 en que se publican la obra de Rasch (1960) y, sobretodo, la obra de Lord y Novik (1968) en que se recogen las aportaciones de Birnbaum sobre fundamentación estadística de estos modelos. La progresiva extensión del uso de ordenadores y el diseño de programas que resuelven los complejos procesos estadísticos a que se someten los datos (mediante estudios de patrones multivariantes de respuestas a los ítems) hacen viable este enfoque, que llega a nuestros días claramente potenciado por las nuevas tecnologías. Desde un punto de vista teórico sobre la medición, la TRI supone el avance actual más significativo en la posibilidad de obtener medidas invariantes respecto de los instrumentos utilizados y de los objetos (sujetos) evaluados (Muñiz, 1997). Una diferencia claramente observable de la TRI respecto de anteriores aproximaciones es que centra mucho más su estudio sobre los ítems y sus propiedades paramétricas (discriminación, dificultad, pseudoazar, ...) más que sobre las propiedades globales de los tests. Para Muñiz (1997: 28) “los modelos tienen que partir de supuestos más restrictivos, más fuertes, que los de la teoría clásica, por lo que a veces se denominan con el nombre genérico de teoría fuerte de los tests, frente a la teoría clásica o débil. La Curva Característica de los Ítems (CCI), la Unidimensionalidad y la Independencia Local constituyen los tres supuestos claves de la TRI”.

La Curva Característica de un Ítem expresa la relación funcional entre el nivel de rasgo o habilidad que se mide () y la probabilidad de responderlo correctamente P(), lo que supone una función relacional de las habilidades latentes (no observables) y las habilidades manifiestas (observadas en el ítem). Por tanto, estas curvas son el medio que disponemos para representar gráfica y matemáticamente dicha relación (Hambleton y Swaminathan, 1985). Aunque Lord no la desarrolló en sus primero trabajos, se adopta más generalmente como CCI la función logística, por la facilitación de los procedimientos matemáticos. La CCI viene definida, más comúnmente, por tres parámetros: dificultad del ítem (b); discriminación (a); y, la probabilidad de acierto al azar, también denominada pseudoazar (c). No obstante, otras muchas funciones son posibles para definir la relación funcional que establece la CCI entre el rasgo latente y la habilidad manifiesta, dándose lugar a muy diversos modelos de la TRI. Los tres modelos más desarrollados son los modelos de 1(b), 2(b, a) y 3(b, a, c) parámetros para ítems dicotómicos (acierto, desacierto), si bien hoy hay ya muchos avances teóricos en la línea de los modelos politómicos e incluso en modelos multidimensionales aspectos que se comentan posteriormente. Las siguientes representaciones matemáticas y gráficas que se exponen permiten un reconocimiento de las CCI de dos ítems para comparar entre sí, en los diferentes modelos dicotómicos de TRI con 1, 2 y 3 parámetros (estos ejemplos de CCI de ítems se han tomado de Ponsoda, 2002).

Para Hernández Pina (1993: 254), “de los modelos logísticos de un parámetro, el más conocido es el de Rasch (1960), ampliamente desarrollado por Wright (1977) y Wright y Stone (1979)”. Este modelo, de una gran sencillez, establece que la respuesta a un ítem, sólo depende de la competencia o nivel de rasgo del sujeto y la dificultad del ítem. Queda recogido en la siguiente tabla:

Modelo logístico de 1 parámetro (Rasch)

El parámetro “b” indica la dificultad del ítem (-4 < b1=" -1.5" b2 =" 2)." a1=" 0.8," b1=" -1.5)" a2=" 2," b2 =" 2)" a1=" 0.8," b1=" -0.5," c1=" 0.1)" a2=" 2," b2 =" 0.5," c2="0.3)."> Diagnóstico. Proyecto Docente del Dpto. MIDE de la Universidad de Sevilla. Capítulo 2, pp. 131-211. Sevilla: Editorial IETE (en prensa).