martes, 14 de febrero de 2017

Un ejemplo de la métrica del ejercicio de examen...

... transcribo literalmente un comentario y posteriores de una entrada que venía a cuento... he reeditado algún párrafo de los míos que fueron escritos a vuela pluma para darles más sentido...


Anónimo13/2/17 15:32
Hola D.José María, sigo su página con mucho interés desde que mi hija se examinó del MIR ahora en enero de 2017.

En su momento estudié bastante estadística y teoría de los tests porque hice Psicología, pero de eso hace un porrón de años y aunque me gustaba mucho y se me daba muy bien no continué por la línea psicométrica, con esto lo que quiero decir es que no lo tengo demasiado fresco, aunque evidentemente algo queda.

Por puro entretenimiento he revisado el examen de mi hija y la verdad es que me he quedado a cuadros, resulta que en las 20 preguntas más discriminativas del cuadro que Vd. nos proporciona ha hecho un pleno, 20 de 20 correctas, pero en el cuadro de las menos discriminativas ha fallado 16 sobre 20, y claro entre ellas se encuentran las que, según también he ido viendo, se han señalado más en la página de impugnaciones de las distintas academias.

Mi hija es solo una más, es decir un número entre casi 12.000 personas, cada uno con su circunstancia, y podría ser que estuviera más dotada para lo difícil que para lo fácil, vaya por Dios,;), pero cuando miro los grandes números, aunque sea como en este caso con una muestra de corrección no aleatoria, me cuadra con su sensación general de chasco ante su resultado en la corrección del examen ( que conste que ha sido muy bueno y le estiman de momento un número de orden entre los 800 primeros, o sea que no es de preocupar la cosa ) pero ahora que yo he hecho esta curiosa comprobación y comparación lo entiendo mejor, no solo desde mi posición de madre empática sino también a posteriori desde la teoría de los tests.

Por eso me gustaría y le pediría, si a Vd.le parece bien, dado que estamos en un compás de espera hasta tener resultados más concretos, que propusiera obtener datos de personas a quienes les haya pasado algo similar al caso de mi hija, que han acertado las 20 más discriminativas de su cuadro y sin embargo han tenido por ej. más de 10 fallos en las menos discriminativas, o la cifra que Vd. crea aporte mayor información en este punto y que pienso sería otra forma añadida de revisar la discriminación. O no, pero mientras que llega el día 21 y luego el 28 estamos entretenidos aprendiendo con Vd. y haciendo cosas.

Le agradezco mucho el tiempo que le dedica a esta labor, lo que acompaña en este impasse y lo que se aprende en su blog.

Un saludo
ResponderEliminar
  1. Vaya vaya, parece ser que las CCI no van descaminadas a pesar de que la muestra no es aleatoria.

    Como entretenimiento lo que propones no estaría mal, pero ¿imaginas cómo sería esa muestra?... jajajaja

    Vamos a esperar que el MSSSI tenga ya una buena muestra de exámenes corregidos, por no decir todos, vamos a esperar que ahora que los pueden corregir en un plis plas le hagan realizado, que además del análisis habitual que doy por hecho que lo harán, les de este año por hacer algo más, por ejemplo la TRI y les salgan unos CCI parecidas a las de la muestra... ¿cuáles y cuántas anularán además de la 206?

    Un servidor de entrada ha puesto música después de terminar el tablón y la gráfica de los baremos de 15 años.

    Mientras tanto esperaré lo mismo que espero todos los días, que se me ocurra algo y encuentre un diseño para poder transformarlo en una tabla o tablón y subirlo al blog, y si le interesa al personal miel sobre hojuelas. Aunque de verdad lo que le interesaría al personal, de verdad de la buena, es saber su nº de orden, eso sí que sería un puntazo.

    En fin, el 21 y el 28 nos vemos, y muchas gracias por tu comentario y por reverdecer la curiosidad de psicómetra.

    Saludos cordiales y que vaya bien
    Eliminar
  2. Anónimo
    señor José Maria. revisandolo igual veo que de las no discriminatorias fallo 14 y de las discriminatorias tengo bien 18. no deberia ser al revez ?

  3. Eliminar
  4. 13/2/17 23:17
  5. Me encuentro en una situación similar a la de su hija, también he acertado las 20 más discriminativas y he fallado 11 de las menos discriminativas. Mi sensación, al ver cuáles eran consideradas más discriminativas fue que eran bastante fáciles. Son conceptos machacados por las academias, ya sea por importancia o por aparecer en exámenes de otros años. Sin embargo, las menos discriminativas te hacían dudar respecto a lo que te querían pedir. Por eso varias son las que las academias han propuesto para que las impugnásemos.
    Eliminar
  6. GangasMIR14/2/17 4:28
  7. Bueno bueno, comienza el debate al que nos introduce la psicometría.

    ¿Qué parámetros queremos medir?

    Según la literatura, dificultad y discriminación.

    ¿Cómo los podemos medir?

    Si pretendemos medirlos con números no nos queda otra que partir de los resultados, de lo contrario tendríamos que recurrir a una encuesta de juicios periciales.

    Bien, si lo hemos de medir por los resultados obtenidos, habremos de convenir que la dificultad será una proporción de aciertos, en realidad sería de fallos pero la literatura lo vuelve del revés y lo mide en proporción de aciertos.

    Puede ser de aciertos sin más o puede ser corregido el azar, el uno nos dará el índice de dificultad sin más, y el segundo nos dará el índice de dificultad corregido, que desde mi punto de vista se adapta más y mejor al formato y normas de valoración del ejercicio que nos ocupa, y que coincide en el caso de cuatro opciones de respuesta con el % de aciertos netos.

    Por lo tanto, y como resumen, el parámetro dificultad sería una proporción de aciertos o de fallos, esta última en el caso de que le queramos enmendar la plana a la literatura.

    Vamos ahora con el parámetro discriminación.

    La discriminación convenimos, con la literatura, que es una correlación entre el conocimiento del examinado y la probabilidad de acertar o no una pregunta determinada.

    Bien, estamos al igual que con la dificultad, en la tesitura de que su cálculo ha de ser a través de los resultados... ¿por qué?

    Porque el conocimiento de los examinados, en el caso de pruebas de libre concurrencia en las que no lo tenemos medido previamente, solo podemos obtenerlo a través de los resultados, por lo tanto convenimos que un examinado tendrá mucho conocimiento si acierta muchas preguntas y poco si acierta pocas.

    Si convenimos eso, parecerá evidente que un examinado que tenga un nivel alto de conocimiento (ha acertado muchas preguntas), tendrá mayor probabilidad de acertar la pregunta z si ha acertado el resto de preguntas (235-z), y al revés.

    Por lo tanto, preguntas fáciles son aquellas cuya proporción de aciertos es alta entre todos los examinados, y al revés.

    De la misma manera preguntas discriminativas serán aquellas cuyo resultado probable sea el esperado, es decir, que se acierte proporcionalmente al conocimiento del examinado, no que las fallen los que más saben (conocimiento medido en proporción a los aciertos del resto de preguntas), sino que las fallen los que menos saben.

    Cuando una pregunta se comporta conforme a lo esperado, o probable, del conocimiento de los examinados, diremos que es una pregunta discriminativa, es decir, su respuesta esperada o probable está en función del conocimiento de los examinados, y aquí tenemos la madre del cordero, existe una cierta correlación entre discriminación y dificultad, que no se da ni se tiene que dar en todos los casos necesariamente. De tal manera que se puede dar y se da que hay preguntas fáciles que sean poco discriminativas. Así pues no es lo mismo dificultad (proporción) que discriminación (correlación)

    Por último, una pregunta será poco discriminativa cuando su respuestas mayoritarias sean contrarias a las esperadas o probables, es decir, la acierten más los que menos conocimiento muestran y al revés. Esas son las que serían anulables sí o sí por tener una discriminación negativa.

    Sea dicho según mi leal saber y entender, salvo error u omisión, o mejor criterio.
    Eliminar
  8. Corolario.-

    Medimos los parámetros en cada pregunta, y su correspondiente del examen será el promedio obtenido de todas las mediciones de los parámetros de todas las preguntas.

    ¿Por qué hay que medir cada pregunta de forma individual?

    Porque por definición un promedio enmascara el resto de medidas y lo que queremos saber es la calidad de las preguntas una por una, un promedio siempre tiende a salvar la cara de un ejercicio de examen.

    Esa es la razón de que la TRI se apodere de la TCT. Sin abandonar la TCT la TRI introduce como novedad, necesaria y conveniente, no la descripción de lo que ocurre sino la probabilidad de que ocurra el suceso de acertar o no una pregunta en función del conocimiento del examinado. Eso permitiría poner preguntas calibradas si conociéramos, o tuviéramos una idea previa, del conocimiento de los examinados. Si fuera mucho, el examinador cargaría la mano en la proporción de preguntas de calibre +difícil y +discriminativo (que por otra parte son más difíciles de elaborar y dar en el clavo de lo que se busca) que de preguntas +fáciles. ¿Por qué?... porque lo que pretendo es separar las notas de los aspirantes lo más posible y lo más objetivamente posible, es decir, ordenarlos conforme a su conocimiento, buscando por lo tanto preguntas calibradas previamente para los dos parámetros a medir, dificultad y discriminación.

    La TCT describe a posteriori lo que ha pasado y lo describe bien en los dos parámetros, la TRI hace lo mismo pero calibra las preguntas por probabilidad de acertar en todos los niveles de conocimiento para poderlas incluir en un banco de preguntas del que tirar para ejercicios futuros. Serán tanto mejores cuanto su resultado se acerque más al esperado o probable, tanto para las +fáciles, las fáciles, las óptimas, las difíciles, y las +difíciles.

    ¿Es eso posible?

    Sí, pero con la probabilidad de no conseguirlo absolutamente y de ahí que haya que tener preguntas de reserva por si hubiera que anular alguna, que bien no lo cumplan en absoluto (discriminación negativa), o bien preguntas que lo cumplan pero que pudieran mejorarse, es decir, que discriminan pero poco.

    Llegados a este punto cabe preguntarse lo siguiente... ¿hay que anular tantas preguntas como de reserva haya?... la contestación parece evidente si lo que queremos es mejorar y por tanto aumentar el promedio de discriminación del ejercicio de examen, o vamos más lejos y se establece un criterio mínimo a cumplir sobre el parámetro discriminación y por tanto se anula un nº de preguntas no necesariamente fijo, por ejemplo más. Si se tomara la primera opción no es necesario cambiar las normas, simplemente se anularían las 10 peores y punto, si se tomara la segunda opción sería necesario fijar el criterio mínimo previamente y se anularían las necesarias y suficientes quedando el examen final con 225 preguntas o menos.

    En ningún sitio dice ni cuántas preguntas se han de anular como mínimo ni como máximo, pero si fijas un criterio mínimo a cumplir sobre un parámetro has de fijar previamente el procedimiento de cálculo del parámetro en cuestión y los criterios mínimos que ha de cumplir de medida.

    Con las dos opciones se mejoraría el promedio de discriminación del examen, pero con la segunda se mejoraría más que con la primera. Uncuestión curiosa es que un ejercicio de examen es tanto más exigente en la calidad de sus preguntas cuanto más conocimiento tienen los examinados. Eso lo marcan con claridad las mediciones de los parámetros. Más preguntas anulables cuanto más conocimiento tienen los examinados. Si lo pensamos bien no solo no es curioso sino lógico que sea así.
    Eliminar
  9.  GangasMIR14/2/17 5:03
  10. ¿Por qué se me nota enfadado a veces?

    Porque ni los predicadores que representan a los aspirantes, ni el gestor de la prueba (MSSSI Y MECD) se mojan, más bien se llaman a andana sobre el examen del examen con propuestas concretas, unos y otros parecen estar a otra bola.

    ¿Me equivoco?

    Es posible y/o probable, pero desde mi punto de vista es necesario y conveniente no solo hacer el análisis de las tres patas de la trébede (el qué, el cómo, y el cuánto), no tanto por que el examen sea malo sino porque toda mejora que se pueda introducir conviene hacerla porque aumentaría el promedio de los parámetros, y sobre todo porque sería más transparente y objetivo cara a los examinados que en definitva son los que tienen que confiar en el mismo.

    Además porque separaría dos debates sobre el instrumento de medida. El debate del examen del examen (el qué se pregunta, el cómo se pregunta, y cuánto mide lo que dice o debe de medir) que es un debate eminentemente técnico, del otro debate en el que están los que predican lo que debe de ser la prueba e incluso quién la debe de gestionar para tratar de evitar los daños colaterales que produce en el sistema educativo anterior.

    Ambos debates son legítimos, pero son dos debates distintos y mi empeño ha sido y es separarlos.

    ¿Cuál es el problema?

    Un servidor es un advenedizo, que para más inri no solo no pertenece al jardín, si no que además no ha dado su brazo a torcer, así que no es precisamente un candidato considerado en el debate, aunque curiosamente sea el que lo intenta provocar y encima propone cómo hacerlo, que curiosamente es tal y como prevé la literatura al efecto.

    ¿Existen otras razones?

    Seguramente, pero un servidor no las alcanza... que me las explique alguien por favor.

Ahora, para no quedarme en la cabaña predicando, van ejemplos de gráficas de métricas

Nota.- Insisto en lo de ejemplos por que si se analizaran los resultados de toda la población habría preguntas que coincidirían en los intervalos de las escalas y otras que podrían saltar de unos y entrar en otros... ¿qué preguntas podrían saltar?... obviamente las fronterizas de un intervalo y otro. Esas que están entre Pinto y Valdemoro.




















4 comentarios:

  1. Un chasco con un número de orden menor de 800 y este año?

    Madre mía, es enfermizo ya. Qué pretendía? Acertar todas?

    Un poco de humildad y alegría por las cosas, por dios. Qué vida!

    ResponderEliminar
    Respuestas
    1. Me temo que te has confundido, el chasco entiendo que viene de lo contrario al interpretar las preguntas discriminativas como fáciles pensando que sería el contrario.

      Al menos así lo he entendido yo.

      Eliminar
    2. "su sensación general de chasco ante su resultado en la corrección del examen ( que conste que ha sido muy bueno"

      sensación GENERAL de chasco.

      Me parece muy triste pero bueno, cada uno tiene sus objetivos y prioridades en la vida.

      Eliminar
  2. cTO A LAS 11,12 MEDIANA: 134,33

    ResponderEliminar