Análisis de funcionamiento diferencial en evaluaciones a gran escala

Artículo completo

Autores

Laura Ortega TorresSalto de línea https://orcid.org/0009-0009-5776-0581Salto de línea Centro Nacional de Evaluación para la Educación Superior, CENEVAL (México)Salto de línea Salto de línea César Antonio Chávez ÁlvarezSalto de línea https://orcid.org/0009-0000-4197-8281Salto de línea Centro Nacional de Evaluación para la Educación Superior, CENEVAL (México)

DOI

https://doi.org/10.4438/1988-592X-RE-2025-412-733 Nueva ventana

Resumen

Los análisis de funcionamiento diferencial de los ítems (DIF, por sus siglas en inglés), son esenciales para sustentar la calidad y equidad de una evaluación, ya que señalan ítems que pudieran estar sesgados. Se han desarrollado diferentes métodos para realizar estos análisis y se ha comparado su eficacia por medio de la manipulación de diversas variables, incluido el número de participantes. Generalmente se estudian grupos con hasta algunos miles de integrantes, sin embargo, existen evaluaciones a gran escala que se aplican a un número considerablemente mayor de personas. Este estudio exploró la eficacia de cuatro métodos tradicionales para analizar DIF en muestras de personas con un tamaño similar al de los grupos de evaluados que presentan los Exámenes Nacionales de Ingreso (EXANI) en una misma aplicación en México y que pudieran usarse para analizar otras pruebas de ingreso que se apliquen a nivel nacional o aplicaciones completas de Evaluaciones Internacionales a Gran Escala (ILSA, por sus siglas en inglés). Se realizaron simulaciones en las que se generaron muestras de tamaños similares a las de las aplicaciones de los EXANI y se manipularon los valores de los parámetros de dificultad del 10% o el 20% de los ítems de una de sus áreas de contenido para que presentaran DIF Uniforme moderado y alto. Se verificó la eficacia de los métodos de Mantel-Haenszel, Regresión Logística, Lord y Raju, comparando el porcentaje de ítems detectados con su grado de DIF de forma correcta (ítems manipulados), así como el porcentaje de falsas detecciones en los reactivos sin DIF. Los métodos de Mantel-Haenszel, Lord y Raju fueron los más eficaces para detectar funcionamiento diferencial uniforme en las muestras simuladas, por lo que se confirma su posible implementación en evaluaciones a gran escala con ítems dicotómicos con muestras de hasta 200,000 evaluados.

Palabras clave

Análisis de Funcionamiento Diferencial Uniforme, Ítems Dicotómicos, Evaluaciones a Gran Escala, Método Mantel-Haenszel, Método de Regresión Logística, Método de Lord, Método de Raju

Abstract

Differential Item Functioning (DIF) analyses are essential to support the quality and fairness of an assessment, as they identify items that may be biased. Various methods have been developed to perform these analyses, and their effectiveness has been compared by manipulating different variables, including the number of examinees. Typically, studies focus on groups with some thousands of participants; however large-scale assessments are administered to a significantly larger number of individuals. This study explored the effectiveness of four traditional methods for analyzing DIF in samples similar in size to the groups of examinees taking the Entrance exams (EXANI by its acronym in Spanish) in a single administration in Mexico and that could be applied in other entrance tests administered nationwide or complete administrations of International Large-Scale Assessments (ILSA). Simulations were conducted, in which samples of sizes comparable to those in the EXANI’s administrations were generated, and the difficulty parameter values of 10% or 20% of the items of one of their content areas were manipulated to exhibit moderate and high Uniform DIF. The effectiveness of the Mantel-Haenszel, Logistic regression, Lord and Raju methods was verified by comparing the percentage of items correctly detected with their degree of DIF (manipulated items) as well as the percentage of false detections in non-DIF items. The Mantel-Haenszel, Lord and Raju methods were the most effective in detecting uniform DIF in the simulated samples, confirming their potential implementation in large-scale assessments with dichotomous items for samples of up to 200,000 examinees.

Keywords

Uniform differential item functioning, Dichotomic items, Large-scale assessments, Mantel-Haenszel Method, Logistic Regression Method, Lord Method, Raju Method

Cómo citar

Ortega, L., Chávez, C. A. (2026). Análisis de funcionamiento diferencial en evaluaciones a gran escala. [Differential item functioning analysis in large-scale assessments ] Revista de Educación, 412, 21-44. https://doi.org/10.4438/1988-592X-RE-2025-412-733