Cómo mejorar la evaluación de competencias con IA: preguntas BEI e indicadores conductuales (2026)

Preguntas BEI e indicadores conductuales: portada Voicit
Rafa Torres García

Actualizado: mayo 2026 · Por Rafa Torres García, CTO y cofundador de Voicit

Un motor de evaluación de competencias bien construido — con metodología BEI, niveles definidos y un proceso de análisis en fases — ya produce evaluaciones fiables. Esa es la base, y la hemos cubierto en el artículo anterior. Lo que contamos aquí es el siguiente paso: cómo dos elementos concretos del motor de Voicit hacen que esas evaluaciones pasen de fiables a auditables, reproducibles y mucho más precisas a la hora de asignar un nivel.

¿Cómo se gana precisión en una evaluación de competencias por IA? Añadiendo dos elementos al motor: preguntas BEI asociadas a la competencia (que orientan la búsqueda de evidencia en la conversación) e indicadores conductuales por nivel con un sistema de roles — crítico, complementario y bloqueante — que dan a la IA criterios objetivos para asignar un nivel y dejan cada decisión vinculada a comportamientos observables.

En Voicit hemos rediseñado el motor de evaluación de competencias incorporando estos dos elementos sobre los pilares que ya teníamos. El motor anterior ya generaba informes sólidos; lo que añaden las preguntas BEI y los indicadores conductuales es más cobertura de la evidencia que aparece en la entrevista y más rigor en cómo esa evidencia se traduce en un nivel. En este artículo te explicamos qué son cada uno, por qué viven separados en la arquitectura del producto y por qué los dos juntos son la diferencia entre un informe que parece bueno y uno que puedes defender con argumentos delante de tu cliente.

⏱ Si solo tienes 30 segundos

Preguntas BEI: ayudan a la IA a localizar incidentes críticos en la conversación. Que no se le escape evidencia útil. Aditivas, no excluyentes. No puntúan.

Indicadores conductuales: son los criterios anclados a cada nivel (1-4). Hacen que el veredicto sea más preciso y trazable.

Tres roles por indicador: crítico (condición necesaria), complementario (refuerzo), bloqueante (descalificador en negativo).

El veredicto se vuelve auditable: deja de ser solo la conclusión del modelo y pasa a ser un algoritmo de descartar → validar → confirmar → ascender.

🧱 El problema que mejoran estos dos elementos

Imagina que le pides a una IA con metodología BEI y niveles definidos: «Evalúa el nivel de liderazgo de este candidato». Con un buen modelo y una transcripción decente, recibes una evaluación que ya es razonable: algo así como «Nivel avanzado — gestiona equipos multidisciplinares con visión estratégica«.

Razonable, pero hay tres preguntas que cuesta responder con confianza solo con eso:

  • ¿En qué parte exacta de la conversación está la evidencia de «visión estratégica»?
  • ¿Qué hubiera tenido que ver el modelo para no asignar nivel avanzado?
  • Si pasamos otra entrevista similar por el mismo motor mañana, ¿saldrá la misma forma de puntuar?

Mientras la IA solo trabaja con la definición textual de cada nivel, tiene que decidir por su cuenta qué cuenta como qué. Eso introduce variabilidad en evaluaciones que deberían ser reproducibles, y reduce la trazabilidad de cada decisión — dos cosas que cualquier consultora de selección necesita poder defender ante su cliente.

Las preguntas BEI y los indicadores conductuales atacan dos problemas distintos. Las primeras mejoran qué evidencia entra en el análisis. Los segundos mejoran cómo esa evidencia se traduce en un nivel. Son ortogonales y, por eso, combinables.

❓ Preguntas BEI: la entrada que amplía la cobertura

Las preguntas BEI son guiones de entrevista por incidentes críticos asociados a una competencia. Una pregunta BEI no es «¿Sabes liderar?». Es una invitación a relatar un incidente concreto: «Cuéntame una situación donde tu equipo no llegaba al objetivo y tuviste que tomar una decisión difícil».

Qué entra

Qué hacen las preguntas BEI cuando se las pasas al motor

Cuando el motor analiza la transcripción de la entrevista, las preguntas BEI funcionan como localizadores: le dicen al motor «busca también episodios de tipo X». El efecto es que afloran incidentes sutiles, mencionados de pasada por el candidato, que un análisis genérico podría pasar por alto.

Tres propiedades importantes:

  • Aditivas, no excluyentes. Si el candidato cuenta un episodio relevante que no encaja con ninguna pregunta, sigue contando. Las preguntas amplían la búsqueda; no la limitan.
  • No puntúan ni asignan nivel. Son pura entrada. Quien decide el nivel son los indicadores conductuales, no las preguntas.
  • No aparecen en el informe final. Son una pista interna para el motor; el consultor las usa también como guion durante la entrevista, si quiere.

Etiquetado por perfil de puesto

Una misma pregunta bien formulada puede revelar cualquier nivel de dominio. Si preguntas «Cuéntame una situación en la que detectaste algo éticamente cuestionable en tu trabajo»:

  • Un candidato de nivel 1 relatará que siguió el protocolo.
  • Uno de nivel 3 contará cómo intervino y cambió la dinámica del equipo.
  • Uno de nivel 4 explicará cómo rediseñó la política de la empresa.

Por eso las preguntas se etiquetan por perfil de puesto (operativo, mando medio, ejecutivo), no por nivel de la competencia. Una pregunta para un directivo aborda gobernanza porque ese es su día a día — pero un ejecutivo mediocre podría responder y demostrar nivel 2. Lo que clasifica esa respuesta no es la pregunta: son los indicadores conductuales.

📐 Indicadores conductuales: los criterios que afinan el veredicto

Un indicador conductual es un comportamiento observable que evidencia que el candidato domina la competencia a un nivel concreto. No es una propiedad de la competencia en abstracto — es una propiedad de un nivel específico de esa competencia.

Esta vinculación nivel-comportamiento es la clave. «Cumple los plazos acordados» y «Establece códigos de conducta organizacional» son ambos indicadores de Profesionalidad, pero pertenecen a niveles de madurez completamente distintos. Sin esa asignación a un nivel, la IA tiene que inferir la jerarquía por su cuenta. Con ella, contrasta lo que ha extraído de la conversación contra criterios objetivos.

Cómo se juzga

De dónde viene este enfoque

Los marcos de competencias de referencia en la industria estructuran los indicadores conductuales por nivel de dominio desde hace décadas:

  • Korn Ferry / Lominger — leadership architect con indicadores por nivel y «stallers and stoppers» (factores que descarrilan la carrera).
  • SHL Universal Competency Framework — distingue indicadores «esenciales» (críticos) de «deseables» (complementarios).
  • Hay Group — modelos de competencia con ponderaciones diferenciadas por indicador.
  • Hogan Assessments — derailment factors aplicables como contra-indicadores.
  • Center for Creative Leadership (CCL) — factores de descarrilamiento como señales de alerta de carrera.

Lo que en assessment centers profesionales se llama «indicadores esenciales», «deseables» y «contra-indicadores» es exactamente el sistema de tres roles que vamos a ver a continuación.

📚
Recurso gratuito

Diccionario de 26 competencias blandas

Descarga la lista completa con definiciones, niveles e indicadores conductuales observables para cada competencia. Listo para usar en tus rubricas de evaluacion y entrevistas BEI.

Descargar diccionario gratis →

🎯 Los tres roles que cambian la evaluación

Cada indicador conductual lleva un rol que define su función. Esto convierte un listado plano de comportamientos en un marco de evaluación que la IA — o cualquier evaluador humano — puede aplicar de forma reproducible.

Crítico

Crítico — condición necesaria

Redactado en positivo. Si no se observa, el candidato no alcanza ese nivel, independientemente de cuántos otros indicadores sí se observen. Es el ancla del nivel.

Equivale a los indicadores «esenciales» de SHL y a los indicadores con mayor ponderación en Korn Ferry. En assessment centers profesionales es práctica estándar que ciertos comportamientos sean condición necesaria.

Ejemplo · Liderazgo, nivel intermedio
«Delega tareas con responsabilidad asociada y hace seguimiento del progreso.»
Complementario

Complementario — refuerzo, no requisito

Redactado en positivo. Su presencia da solidez a la evaluación; su ausencia, por sí sola, no descalifica. Corresponde a los indicadores «deseables» de SHL.

En la práctica, ayudan a distinguir entre «este candidato cumple el nivel» y «este candidato lo cumple con holgura».

Ejemplo · Liderazgo, nivel intermedio
«Facilita conversaciones difíciles dentro del equipo sin recurrir al mando jerárquico.»
Bloqueante

Bloqueante — señal de alerta en negativo

Redactado en negativo. Si se observa, impide asignar ese nivel o cualquier superior. Formaliza el concepto de «stallers and stoppers» de Lominger, los «derailment factors» de Hogan y los factores de descarrilamiento del CCL.

En guías de entrevista estructurada también se conocen como «contra-indicadores» o «red flags».

Ejemplo · Liderazgo, nivel intermedio
«Atribuye los errores del equipo a personas concretas en lugar de asumir responsabilidad como líder.»

Límites recomendados por nivel para mantener la eficacia de la evaluación y evitar dilución: 2-3 indicadores críticos, 3-4 complementarios y 1-2 bloqueantes.

🧮 El algoritmo en cuatro pasos

El sistema de roles define un algoritmo que el motor aplica de forma consistente — el mismo en cada evaluación, independientemente del candidato o del consultor. Esto es lo que convierte criterio experto tácito en un proceso explícito y auditable.

1
Descartar¿Se observa algún bloqueante en el nivel N? Si la respuesta es sí, el candidato no alcanza ese nivel. Se baja a evaluar el nivel inferior.
2
Validar¿Se observan los indicadores críticos del nivel N? Si falta alguno, no se asigna ese nivel. Esto cierra la puerta a que el motor infle el nivel sin evidencia suficiente.
3
Confirmar¿Cuántos indicadores complementarios del nivel N se observan? Determinan la solidez de la asignación. Pocos complementarios = nivel cumplido justo. Muchos = nivel cumplido con holgura.
4
AscenderRepetir el proceso desde el nivel siguiente. El veredicto final es el nivel más alto que pasa los tres filtros anteriores.

El resultado: cada decisión está vinculada a evidencia específica y a una regla explícita. Puedes auditar la evaluación incidente por incidente y, si discrepas con el veredicto, sabes exactamente dónde apuntar.

🧩 Instrumento vs. criterios: por qué viven separados

Una de las decisiones más importantes que tomamos al rediseñar el motor fue mantener las preguntas BEI y los indicadores conductuales como elementos separados en la arquitectura del producto.

  • Las preguntas BEI son el instrumento que provoca la evidencia. Las haces para que el candidato relate incidentes.
  • Los indicadores conductuales son los criterios que clasifican esa evidencia. Los aplicas para decidir qué nivel demuestran los incidentes relatados.

Mezclar ambos elementos en una misma estructura (por ejemplo, «preguntas de nivel 3») es un error frecuente. Lleva a pensar que ciertas preguntas producen respuestas de un nivel concreto — cuando en realidad la pregunta solo invita a relatar, y es el contenido del relato (contrastado con los indicadores) lo que clasifica el nivel.

Separarlos te da dos palancas independientes:

  • Mejorar las preguntas para que aflore más evidencia útil en cada entrevista.
  • Refinar los indicadores para que el veredicto sea más ajustado al nivel real del candidato.

⚡ Cómo Voicit lo aplica en cada evaluación

En Voicit, todo esto ya viene configurado por defecto y listo para usar:

1
Diccionario de 26 competencias por defecto. Cada competencia trae sus niveles (1-4), un conjunto de preguntas BEI por perfil de puesto (operativo, mando medio, ejecutivo) y sus indicadores conductuales con los tres roles (crítico, complementario, bloqueante) ya redactados. El punto de partida que la mayoría de consultoras solo necesitan retocar.
2
Dos modos para decidir qué evaluar. En modo manual, tú eliges las competencias relevantes para la entrevista. En modo automático, subes la descripción del puesto y Voicit detecta qué competencias del diccionario aplican a ese perfil concreto, basándose en las funciones, responsabilidades y requisitos del puesto.
3
Informe PDF y gráfico de competencias. Al terminar, Voicit genera un informe en PDF con el detalle de cada competencia evaluada (nivel detectado, indicadores observados y ausentes, bloqueantes activados y la cita textual de cada evidencia) y un gráfico de competencias vs. nivel requerido que permite ver, de un vistazo, el encaje del candidato con el puesto.
4
Personalización completa. Puedes añadir competencias propias, ajustar los niveles, modificar las preguntas BEI o redefinir los indicadores conductuales para adaptar todo a tu metodología, sector o cliente. El diccionario base no es un corsé: es un punto de partida.

El consultor pasa de «leerse» un informe que ha producido la IA a auditar una evaluación que la IA ha sustentado con evidencia. Es una diferencia de fondo, no de forma.

📋 Resumen comparativo

ElementoFunciónEfectoCuándo configurarlo
Preguntas BEILocalizar incidentes críticos en la conversación↑ Cobertura — aflora evidencia que se podría pasar por altoCuando quieres asegurar que se exploran escenarios concretos
Indicadores críticosCondición necesaria del nivel (en positivo)↑ Precisión — sin críticos, no hay nivelPara los comportamientos imprescindibles del nivel
Indicadores complementariosRefuerzo del nivel (en positivo)↑ Solidez — dan confianza al veredictoPara distinguir nivel cumplido justo vs. con holgura
Indicadores bloqueantesSeñal de alerta (en negativo)↓ Descalificación automática del nivelPara conductas de riesgo o derailment factors

Sin preguntas BEI, el motor puede pasar por alto evidencia relevante. Sin indicadores conductuales, le falta el marco de evaluación que aterriza la metodología. Con ambos, la evaluación de competencias por IA pasa de ser un informe que parece bueno a un proceso reproducible que puedes defender ante tu cliente con argumentos concretos.

💬 Preguntas frecuentes

¿Necesito conocimientos técnicos para configurar preguntas BEI e indicadores conductuales?

No. En Voicit hay un diccionario de 26 competencias con preguntas e indicadores ya redactados según los marcos de Korn Ferry, SHL y Hay. La mayoría de consultoras solo necesitan ajustarlos a su sector o cliente. Si tu metodología es muy específica, puedes crear competencias desde cero con un editor visual.

¿Cuál es la diferencia real entre preguntas BEI y preguntas de entrevista normales?

Las preguntas BEI piden siempre un incidente concreto: «Cuéntame una situación en la que…». Las preguntas normales (¿Sabes liderar? ¿Cómo trabajas en equipo?) invitan a respuestas hipotéticas o autoevaluativas, fáciles de fabricar. Las BEI fuerzan al candidato a contar algo que pasó — y, sobre todo, hacen mucho más fácil que el motor encuentre evidencia conductual real en la conversación.

¿Puedo evaluar competencias sin definir indicadores conductuales?

Sí, y el resultado seguirá siendo fiable si la competencia tiene niveles bien definidos y el motor aplica metodología BEI con su proceso en fases. Pero pierdes el marco de evaluación auditable: el motor seguirá generando una evaluación, pero será más interpretativa y menos reproducible. Los indicadores convierten la definición de un nivel en algo que se puede verificar punto por punto.

¿Qué pasa si la conversación no toca alguna de las preguntas BEI configuradas?

Nada problemático. Las preguntas son aditivas: orientan la búsqueda, pero no obligan a que cada una tenga su incidente. El motor extrae todos los incidentes relevantes que aparezcan en la conversación, encajen o no con una pregunta concreta. Lo único que pierdes es la oportunidad de explorar ese escenario en particular — algo que el sistema te señala como gap para que lo profundices en la siguiente entrevista.

¿Un bloqueante observado descalifica al candidato entero o solo el nivel?

Solo el nivel donde está definido y los superiores. Un bloqueante de nivel 3 impide asignar nivel 3 o 4, pero el candidato sigue siendo evaluable en nivel 1 o 2. Es una descalificación de nivel, no de candidato. Por eso es importante definirlos en el nivel donde tienen sentido — un bloqueante de nivel 1, por ejemplo, sí descalifica la competencia entera.

¿Voicit detecta automáticamente las competencias a evaluar?

Sí. Si subes la descripción del puesto, Voicit detecta del diccionario de 26 competencias cuáles aplican a ese perfil — basándose en las funciones, responsabilidades y requisitos descritos — y configura la evaluación con ellas. Tú puedes ajustar la selección antes de procesar la entrevista. Si prefieres elegirlas a mano, también puedes hacerlo en modo manual.

¿La IA puede sustituir mi juicio como consultor de selección?

No, y no debería. Las preguntas BEI y los indicadores conductuales hacen que la evaluación sea más rigurosa y auditable, pero el contexto del cliente, el encaje cultural y la responsabilidad de la recomendación siguen siendo tuyos. Lo que ganas es tiempo y trazabilidad — lo que te libera para hacer mejor la parte que solo tú puedes hacer.

Última actualización: mayo de 2026. Este artículo describe el enfoque metodológico que aplica el motor de evaluación de competencias de Voicit, basado en marcos de referencia como Korn Ferry/Lominger, SHL UCF, Hay Group, Hogan y CCL. Para decisiones formales de contratación, combina siempre la evaluación automatizada con el criterio profesional del consultor responsable.

Rafa Torres García

Rafa Torres García
CTO y cofundador de Voicit. Diseña los sistemas de evaluación de competencias con IA que usan consultoras de selección y equipos de RRHH para generar informes más precisos en menos tiempo.

¿Te ha resultado interesante? ¡Compártelo!

Artículos relacionados

Descubre el poder de la documentación automática.

Disfruta del plan gratis para siempre.