domingo, 12 de febrero de 2017

Una metodología para señalar las preguntas...

... menos discriminativas en función del nivel de conocimiento de los examinados...


... exactamente igual sirve para señalar las más discriminativas...



... y por supuesto el resto... 

Aquellas que están entre Pinto y Valdemoro, en un gradiente de los parámetros que marca lo cerca y/o lo lejos que se encuentran de una orilla u otra... como la vida misma... 

Las matemáticas son un lenguaje para comunicar, un instrumento para sistematizar y entenderse. El planteamiento de un problema requiere siempre de una hipótesis, de un análisis cualitativo previo que la define y expone, y que especifica los parámetros a medir en un problema y su justificación. Plantea una formalución para calcularlos. Los ordena y los ajusta a unos intervalos que denomina escalas de medida para clasificarlos. A partir de ahí se califica cada intervalo en función de palabras que ponderan su calidad respecto del parámetro en cuestión, es decir, realiza una síntesis del discurso cualitativo final. 

Una escala de ese tipo sería la conocida de las calificaciones, suspenso (de 0 a 4,99), aprobado (de 5 a 6,99), notable (de 7 a 8,99), sobresaliente (de 9 a 10), matrícula de honor (una mención de honor entre sobresalientes). El imaginario popular está lleno de escalas de medida. Los humanos somo así, buscamos, sistematizamos, medimos, y por fin calificamos cualidades y/o calidades, de tal manera que con una sola palabra nos evitamos un discurso.

Bien, a lo que estamos, ese sería el análisis métrico de las preguntas en dos parámetros, dificultad y discriminación. Ambas responden al cuánto mide lo que debe de medir el instrumento de medida, es decir, cuánto discrimina o no la pregunta en cuestión y todas ellas.

Faltaría de medir el qué se ha preguntado, y el cómo se ha preguntado. Son juicios cualitativos que no requieren una metodología cuantitativa. Son juicios periciales.

De los tres juicios, el qué, el cómo, y el cuánto, se obtiene el juicio del examen. Es decir, el examen del examen, las tres patas de la trébede en las que se apoya. Esas tres patas determinarían las preguntas señaladas como anulables. Candidatas para un Informe que justifique el juicio cualitativo para el estudio y toma de decisiones por parte de la Comisión Calificadora.

No es necesario cambiar ninguna norma de las pruebas, ninguna. No solo se pueden anular diez preguntas, en ningún sitio está escrito eso. Es más, sería conveniente como mínimo anularla las diez de peor calidad para que el examen gane en la misma. No es mejor examen aquel que no requiere ninguna anulación, es mejor examen aquel que el promedio de los parámetros a medir es mejor.

Nota.- Como es natural esto es un ejemplo de una muestra no aleatoria que no va más allá de mostrar una metodología ya descrita en la literatura. 

Ejemplo que ya fue mostrado en esta entrada, aquí

19 comentarios:

  1. Apoyo la idea de que todo mir debería anular las 10 peores preguntas. Pero hijo por dios, sube imágenes que se puedan leer...

    ResponderEliminar
    Respuestas
    1. Verás, hijo de dios, pon el ratón encima de la imagen, haz clik con en la parte izda del ratón y se te vendrá la imagen a un primer plano, ahora haz clik con la parte dcha del ratón, y te saldrá un cuadro de diálogo, la primera fila dice Abrir imagen en una pestaña nueva, haces clik en ella y después vas a esa pestaña nueva y el ratón de marcará una lupa con el signo +, clika y ¡oh hijo de dios! se hará la luz y verás lo que quieres ver.

      Buen día hijo de dios...

      Eliminar
  2. Muchas gracias gangas

    Dos preguntas

    ¿Teniendo en cuenta las preguntas menos y más discriminativas, como crees que afectará la anulación de preguntas y la respectiva sostitución por reservas a los percentiles fuerte (>p75) medio y débil (<p25), teniendo en cuenta que a mayores índices de conocimiento menor porcentaje de fallar una pregunta?

    ¿La muestra total puede alterar los índices de discriminación de las preguntas con respecto a la muestra corregida ? Viendo que la muestra que usas no es aleatoria, me gustaría saber si la población escogida goza de particularidades especiales.

    y un bonus

    ¿te atreverías a estimar el descenso no solo de la mediana, sino de los cuartiles de la muestra total con respecto a la muestra corregida? Al ser una muestra asimétrica es probable que no sigan las mismas reglas que el p50

    Gracias

    ResponderEliminar
    Respuestas
    1. Las muestras de corrección del MIR por definición no son aleatorias, su sesgo está muy a favor de los que más expectativas tienen de los que menos.

      Todos los comportamientos que solicitan están ya descontados en las muestras de años anteriores, la pregunta sería, ¿a cuál de ellos se puede parecer más?

      Fíjate en dos, el año pasado y el año 2012/2013

      ¿Cuán de cierto puede ser lo que digo?

      No lo sé, pero es lo que mi ojo "ve" o quiere ver xD

      Sobre si la muestra puede alterar los índices de discriminación, es una pregunta muy pero que muy interesante.

      La respuesta es que sí. La dificultad es más estable como parámetro aunque también se vería alterada con el análisis de toda la población, pero se vería más alterada la discriminación.

      Estoy deseando hincarle el diente a esa cuestión.

      En cuanto al bonus estaría contestado con lo del sesgo de corrección.

      Lo de atreverme o no ha quedado contestado más arriba cuando menciono el año pasado y el MIR 2012/2013

      ¿Por qué?

      Porque una población tiene los que tiene, y si se apelotonan arriba dif´cilmente lo harán abajo, pero ¿donde estarán los casi 6.000 que faltan?

      Fundamentalmente de la mitad para abajo una buen parte distribuida por columnas de menos altura, también habrá del centro, y también alguno en el tronco y en el cuello.

      Eliminar
  3. Gracias gangas

    Tienes razón; a mayor conocimiento mayor posibilidad de fallar preguntas no discriminativas (en comparación a las que si discriinan; por lo que sería lógico pensar que las preguntas más anulables son aquellas que fallaron incluso los mejores exámenes.

    Por lo que explicas podría inferir entonces que en los cuartiles inferiores (p0-p25 y p25-p50) el descenso en el número de netas será mucho menor ya que la muestra no corregida se apelonotará ahí.
    ¿Eso hará menos precisas (y con mayor margen de error hacia peores números de orden) las estimaciones de quienes están por debajo de la media en la MT (muestra corregida) y más precisas (y con tendencia a mejorar el número de orden estimado) las estimaciones de quienes están en los cuartiles superiores ?

    ResponderEliminar
    Respuestas
    1. Se me ha olvidado decir antes que la primera mitad de la distribución, cuando las reservas entren en acción para sustituir a las anuladas, la primera parte de la distribución subirá más que la segunda.

      Siempre ha sido así por que tiene lógica, lo que hará que la distribución todavía se estire más.

      Eliminar
    2. Lógicamente estoy hablando en valores absolutos, una subida de dos a quien está en cabeza o de tres a quien está en el tronco en % de subida le puede suponer menos que una neta de subida a un de la cola.

      Eliminar
    3. Todo esto lógicamente se da en mayor medida cuando las reservas fueron preguntas más asequibles que las que supuestamente se anularán que serán preguntas retorcidas y que por tanto se habrán fallado más en general, incluso como tú dices, en el caso de que anulen las menos discriminativas, que eso está por ver porque desconozco cómo lo hacen.

      Eliminar
    4. Los mejores exámenes tienen menos fallos que los peores exámenes. Cuando te sustituyen una buena por una buena no ganas nada ni pierdes nada. Cuando te cambien una mala por una mala tampoco ganas ni pierdes. Cuando te cambien una mala por una buena, ganas 1,33. Lógicamente los exámenes peores tienen más probabilidades de mejorar por el motivo que tienen más fallos en los posibles impugnables con recambios de reservas más asequibles. Es pura probabilidad. No hace falta especular sobre esto porque hay datos suficientes para demostrarlo. Lo sabe el ministerio y creo que es el motivo por el cual cada año va disminuyendo el número de preguntas anuladas. Gracias Gangas por permitir dar mi opinión.

      Eliminar
    5. Bueno, habrá que esperar para comprobar la certeza de tu afirmación y razonamiento, solo decirte que nunca ha sido así, la probabilidad es la contraria.

      Pero me parece muy bien tu opinión, solo es cuestión de esperar, no obstante los de las academias ya saben eso en las muestras corregidas.

      Eliminar
  4. Anónimo13/2/17 7:57

    Qué paciencia tiene D.José María... ahí lo dejo.

    ResponderEliminar
  5. Hola D.José María, sigo su página con mucho interés desde que mi hija se examinó del MIR ahora en enero de 2017.

    En su momento estudié bastante estadística y teoría de los tests porque hice Psicología, pero de eso hace un porrón de años y aunque me gustaba mucho y se me daba muy bien no continué por la línea psicométrica, con esto lo que quiero decir es que no lo tengo demasiado fresco, aunque evidentemente algo queda.

    Por puro entretenimiento he revisado el examen de mi hija y la verdad es que me he quedado a cuadros, resulta que en las 20 preguntas más discriminativas del cuadro que Vd. nos proporciona ha hecho un pleno, 20 de 20 correctas, pero en el cuadro de las menos discriminativas ha fallado 16 sobre 20, y claro entre ellas se encuentran las que, según también he ido viendo, se han señalado más en la página de impugnaciones de las distintas academias.

    Mi hija es solo una más, es decir un número entre casi 12.000 personas, cada uno con su circunstancia, y podría ser que estuviera más dotada para lo difícil que para lo fácil, vaya por Dios,;), pero cuando miro los grandes números, aunque sea como en este caso con una muestra de corrección no aleatoria, me cuadra con su sensación general de chasco ante su resultado en la corrección del examen ( que conste que ha sido muy bueno y le estiman de momento un número de orden entre los 800 primeros, o sea que no es de preocupar la cosa ) pero ahora que yo he hecho esta curiosa comprobación y comparación lo entiendo mejor, no solo desde mi posición de madre empática sino también a posteriori desde la teoría de los tests.

    Por eso me gustaría y le pediría, si a Vd.le parece bien, dado que estamos en un compás de espera hasta tener resultados más concretos, que propusiera obtener datos de personas a quienes les haya pasado algo similar al caso de mi hija, que han acertado las 20 más discriminativas de su cuadro y sin embargo han tenido por ej. más de 10 fallos en las menos discriminativas, o la cifra que Vd. crea aporte mayor información en este punto y que pienso sería otra forma añadida de revisar la discriminación. O no, pero mientras que llega el día 21 y luego el 28 estamos entretenidos aprendiendo con Vd. y haciendo cosas.

    Le agradezco mucho el tiempo que le dedica a esta labor, lo que acompaña en este impasse y lo que se aprende en su blog.

    Un saludo

    ResponderEliminar
    Respuestas
    1. Vaya vaya, parece ser que las CCI no van descaminadas a pesar de que la muestra no es aleatoria.

      Como entretenimiento lo que propones no estaría mal, pero ¿imaginas cómo sería esa muestra?... jajajaja

      Vamos a esperar que el MSSSI tenga ya una buena muestra de exámenes corregidos, por no decir todos, vamos a esperar que ahora que los pueden corregir en un plis plas le hagan además del análisis habitual, que doy por hecho que lo harán, que les de este año por hacer algo más, por ejemplo la TRI y les salgan unos CCI parecidas a las de la muestra ¿cuáles y cuántas anularán además de la 206?

      Un servidor de entrada ha puesto música después de terminar el tablón y gráfica de los baremos de 15 años.

      Mientras tanto esperaré lo mismo de todos los días, que se me ocurra algo para poder subirlo al blog y que le pueda interesar al personal, aunque de verdad lo que le interesaría al personal, de verdad de la buena, es saber su nº de orden, eso sí que sería un puntazo.

      En fin, el 21 y el 28 nos vemos, y muchas gracias por tu comentario y por reverdecer la curiosidad de psicómetra.

      Saludos cordiales y que vaya bien

      Eliminar
    2. señor José Maria. revisando lo igual veo qe de las no discriminatorias fallo 14 y de las discriminatorias tengo bien 18. no deberia ser al revez ?

      Eliminar
    3. Me encuentro en una situación similar a la de su hija, también he acertado las 20 más discriminativas y he fallado 11 de las menos discriminativas. Mi sensación, al ver cuáles eran consideradas más discriminativas fue que eran bastante fáciles. Son conceptos machacados por las academias, ya sea por importancia o por aparecer en exámenes de otros años. Sin embargo, las menos discriminativas te hacían dudar respecto a lo que te querían pedir. Por eso varias son las que las academias han propuesto para que las impugnásemos.

      Eliminar
    4. Bueno bueno, comienza el debate al que nos introduce la psicometría.

      ¿Qué parámetros queremos medir?

      Según la literatura, dificultad y discriminación.

      ¿Cómo los podemos medir?

      Si pretendemos medirlos con números no nos queda otra que partir de sus resultados de lo contrario tendríamos que recurrir a una encuesta de juicios periciales.

      Bien, si lo hemos de medir por los resultados obtenidos habremos de convenir que la dificultad será una proporción de aciertos, en realidad sería de fallos pero la literatura lo vuelve del revés y lo mide en proporción de fallos.

      Puede ser de aciertos sin más o puede ser corregido el azar.

      Por lo tanto, y como resumen, el parámetro dificultad sería una proporción de aciertos o de fallos, esta última en el caso de que queramos enmendar la plana a la literatura.

      Vamos ahora con el parámetro discriminación.

      La discriminación convenimos con la literatura en que es una correlación entre el conocimiento y la probabilidad de acertar o no una pregunta determinada.

      Bien, estamos al igual que con la dificultad en la tesitura de su cálculo a través de los resultados, ¿por qué?

      Porque el conocimiento de los examinados, en el caso de pruebas en las que no lo tenemos medido previamente, solo podemos obtenerlo a través de los resultados, por lo tanto convenimos que un examinado tendrá mucho conocimiento si acierta muchas preguntas y poco si acierta pocas.

      Si convenimos eso parecerá evidente que un examinado que tenga un nivel alto de conocimiento (ha acertado muchas preguntas) tendrá mayor probabilidad de acertar la pregunta n si ha acertado el resto de preguntas, y al revés.

      Por lo tanto, preguntas fáciles son aquellas cuya proporción de aciertos es alta entre todos los examinados, y al revés.

      De la misma manera preguntas discriminativas serán aquellas cuyo resultado esperado o probable sea el esperado, es decir, que las acierten proporcionalmente al conocimiento de los examinados, no que las fallen los que más saben (conocimiento medido en proporción a los aciertos del resto de preguntas), sino que las fallen los que menos saben.

      Cuando una pregunta se comporta conforme a lo esperado, o probable, del conocimiento de los examinados, diremos que es una pregunta discriminativa, es decir, su respuesta esperada o probable está en función del conocimiento de los examinados, y aquí tenemos la madre del cordero, una cierta correlación entre discriminación y dificultad, que no se da ni se tiene que dar en todos los casos necesariamente.

      Por último una pregunta será poco discriminativa cuando su respuestas mayoritarias sean contrarias a las esperadas o probables, es decir, la acierten más los que menos conocimiento muestran y al revés.

      Sea dicho según mi leal saber y entender, salvo error u omisión, o mejor criterio.

      Eliminar
    5. Corolario.-

      Medimos los parámetros en cada pregunta, y su correspondiente del examen será el promedio obtenido de los parámetros de todas las preguntas.

      ¿Por qué hay que medir cada pregunta de forma individual?

      Porque por definición un promedio enmascara el resto de medidas y lo que queremos saber es la calidad de las preguntas una por una, un promedio siempre tiende a salvar la cara.

      Esa es la razón de que la TRI se apodere de la TCT, sin abandonar ésta última la TRI introduce como novedad la probabilidad de acertar o no una pregunta en función del conocimiento, lo que permitiría poner preguntas calibradas si conociéramos o tuviéramos una idea previa del conocimiento de los examinados, si fuera mucho, cargaría la mano en la proporción de preguntas de calibre +difícil (que son más difíciles de construir) que de preguntas +fáciles, por que lo que pretendo es separarlos lo más objetivamente posible, es decir, conforme a su conocimiento, buscando por lo tanto preguntas calibradas previamente por los dos parámetros

      La TCT describe a posteriori lo que ha pasado, la TRI hace lo mismo pero calibra las preguntas a través de la probabilidad, tanto mejores cuanto su resultado se acerque más al esperado o probable, tanto para las +fáciles, las fáciles, las óptimas, las difíciles, y las +difíciles.

      ¿Es eso posible?

      Sí, pero con la probabilidad de no conseguirlo absolutamente y de ahí que haya que tener que anular preguntas que o bien no lo cumplan en absoluto, discriminación negativa, o preguntas mejorables, es decir, poco discriminativas.

      Llegados a este punto cabe preguntarse, si lo que hay que anular son tantas preguntas como de reserva haya, de esa manera se mejora el promedio de discriminación del examen, o por el contrario se establece un criterio mínimo a cumplir sobre el parámetro discriminación y por tanto se anula un nº de preguntas no necesariamente fijo y por tanto se haría necesario fijar ese criterio mínimo respecto del parámetro.

      Si se tomara la primera opción no es necesario cambiar las normas, simplemente se anularían las 10 peores, si se tomara la segunda opción sería necesario fijar el criterio mínimo previamente y se anularían las necesarias y suficientes quedando el examen final con menos de 225 preguntas.

      En ningún sitio dice ni cuántas preguntas se han de anular como mínimo ni como máximo, pero si fijas un criterio mínimo a cumplir sobre un parámetro has de fijar previamente el procedimiento de cálculo del parámetro en cuestión y los criterios mínimos que ha de cumplir de medida.

      Con las dos opciones se mejoraría el promedio de discriminación del examen, pero con la segunda se mejoraría más que con la primera.

      Eliminar
    6. ¿Por qué se me nota enfadado a veces?

      Porque ni los predicadores (pastores y jardineros) que representan a los aspirantes, ni el gestor de la prueba (MSSSI Y MECD) se llaman a andana, unos y otros parecen estar a otra bola.

      ¿Me equivoco?

      Es posible y/o probable, pero desde mi punto de vista es necesario y conveniente, no tanto por que el examen sea malo sino porque toda mejora que se pueda introducir conviene hacerlo y sobre todo porque sería más transparente y objetivo.

      Además porque separaría dos debates sobre el instrumento de medida, el examen del examen (el qué se pregunta, el cómo se pregunta, y cuánto mide lo que dice o debe de medir), del otro debate en el que están los que predican lo que debe de ser la prueba y quién la debe de gestionar para tratar de evitar los daños colaterales que produce según ellos.

      Ambos debates son legítimos, pero son dos debates distintos y mi empeño ha sido y es separarlos.

      ¿Cuál es el problema?

      Un servidor es un advenedizo, que para más inri no solo no pertenece al jardín ni al rebaño, si no que además ha dado su brazo a torcer.

      ¿Existen otras razones?

      Un servidor no las alcanza... que me las explique alguien, por favor.

      Eliminar
  6. Acabo de revisar las mías. No discriminativas: 16 mal de 20. Discriminativas: 20 bien de 20.
    Algunas de las preguntas parecen haber sido hechas para que los que hayan estudiando mucho las fallen. Me explico. Si te acuerdas la información un poco por encima respondes una cosa y si te has estudiado bien el esquema de tratamiento elijes otra opción de respuesta. Pero el MSSSI da por buena la opción primera. Esto da paso a sentimientos de rabia, impotencia y frustración. De que ha servido haberme estudiado tantos esquemas de tratamiento, estadiajes de cánceres, tantos detalles que han quemado mis neuronas?? Que sentido ha tenido todo esto? Pq me he estudiado en detalle los tratamientos de todas las leucemias y los linfomas? Para que me pregunten el imatinib??? El imatinib ... tratamiento que sale ya en los libros de CTO del 2005...pregunta repetida de otros mires, pregunta mil veces repetida en los simulacros de las academias...

    ResponderEliminar