Anemia Screening MVP

XGBoost · NHANES 2017-2018 · Sin hemoglobina

ROC-AUC 0.994 PR-AUC 0.928 Recall 85.1%
Predicción Variables y contexto Dashboard Carga masiva

Prototipo académico. Este modelo no utiliza hemoglobina ni hematocrito como predictores y no reemplaza el diagnóstico clínico. Ante cualquier resultado, consulta con un profesional de salud.

Prototipo académico · Artículo en revisión

Anemia Screening MVP

Detección de riesgo de anemia sin hemoglobina mediante XGBoost

XGBoost NHANES 2017-18 ROC-AUC 0.994

¿Qué hace?

Estima la probabilidad de anemia a partir de 14 biomarcadores de laboratorio de rutina — sin necesitar hemoglobina ni hematocrito como predictores. El usuario ingresa los valores de un hemograma, perfil de hierro y PCR ultrasensible, y el modelo devuelve una probabilidad (0–100%) junto con el nivel de riesgo (bajo, intermedio, alto).

Además de la predicción, el sistema entrega retroalimentación clínica automática explicando qué valores están alterados, sus posibles causas y qué pasos seguir, complementado con un análisis generado por IA (Claude) para casos donde el patrón general es relevante aunque los valores individuales sean normales.

¿Para qué sirve?

Screening preventivo: Identificar personas en riesgo antes de que la hemoglobina caiga, usando marcadores que reflejan causas tempranas (ferritina, RDW).
Apoyo en recursos limitados: En contextos donde la hemoglobina no está disponible o es poco confiable (altitud, equipos descalibrados), este modelo puede orientar la decisión clínica.
Investigación académica: Demostrar que un modelo XGBoost entrenado en NHANES puede detectar anemia con alta precisión sin el marcador estándar de oro (Hb).
Educación clínica: Visualizar cómo los biomarcadores del hemograma y el perfil de hierro se interrelacionan para producir un patrón de riesgo.

Contexto y limitaciones

Población de entrenamiento: Adultos y adolescentes de EE.UU. (NHANES 2017-2018, nivel del mar). Los valores de referencia pueden diferir en población peruana de alta altitud.
No reemplaza el diagnóstico clínico. La hemoglobina sigue siendo el estándar de oro para diagnosticar anemia. Este modelo es una herramienta de screening complementaria.
Artículo en preparación: BioMedInformatics MDPI · Sección Applied Biomedical Data Science. El código fuente estará disponible en GitHub al publicar.

Cómo usar la herramienta

1

Realiza los exámenes

Hemograma completo + Perfil de hierro + hsCRP (ver sección abajo)

2

Ingresa los valores

Ve a la pestaña "Predicción" y completa el formulario con los resultados de laboratorio

3

Interpreta el resultado

El modelo devuelve riesgo bajo / intermedio / alto con retroalimentación clínica y análisis IA

4

Consulta a un médico

Ante cualquier resultado, especialmente intermedio o alto, busca evaluación clínica profesional

¿Qué es la anemia?

Condición en la que la concentración de hemoglobina es insuficiente para satisfacer las necesidades fisiológicas. Criterios OMS utilizados para definir el target del modelo:

Hombres Hb < 13.0 g/dL
Mujeres (no emb.) Hb < 12.0 g/dL
Mujeres (emb.) Hb < 11.0 g/dL

Enfoque: sin hemoglobina

La Hb es el estándar diagnóstico, pero no siempre está disponible. Este modelo predice anemia usando únicamente marcadores que reflejan sus causas y consecuencias eritrocitarias.

Detecta anemia ferropénica, inflamatoria y mixta
Útil cuando la Hb no está disponible o es poco confiable
RDW como marcador temprano (antes de que Hb caiga)

Dataset NHANES

National Health and Nutrition Examination Survey, ciclo 2017–2018. Encuesta representativa de población adulta/adolescente de EE. UU. con laboratorio estandarizado.

Registros totales 5 841
Prevalencia anemia 6.4%
Split entrenamiento 80% / 20%
Validación cruzada 5-fold estratificado

Exámenes de laboratorio necesarios

Solicita estos tres grupos de análisis · Referencia para el sistema de salud peruano

Examen 1

Hemograma completo

S/. 15–35

También llamado biometría hemática o serie roja. Es el análisis de sangre más común, disponible en cualquier laboratorio.

Variables que aporta:

RBC Recuento de eritrocitos
MCV Volumen corpuscular medio
MCH Hemoglobina corpuscular media
MCHC Concentración de Hb corpuscular
RDW Amplitud distribución eritrocitaria
WBC Leucocitos totales
PLT Recuento de plaquetas
Sin ayuno. Resultados en el mismo día.

Examen 2

Perfil de hierro

S/. 50–120

También llamado estudio de hierro o perfil férrico. Incluye ferritina sérica.

Variables que aporta:

Fe Hierro sérico (µg/dL)
TIBC Cap. total de fijación de hierro
Ferrit. Ferritina sérica (ng/mL)
Ayuno de 8–12 h requerido para el hierro sérico.

Examen 3

PCR ultrasensible

S/. 25–50

Proteína C reactiva de alta sensibilidad (hsCRP). Pide específicamente la versión ultrasensible.

Variable que aporta:

hsCRP Marcador de inflamación sistémica
¿Por qué importa? Diferencia la anemia ferropénica (PCR baja) de la anemia por enfermedad crónica (PCR alta), donde la ferritina puede estar falsamente elevada.
Sin ayuno estricto. No siempre disponible en postas rurales.

¿Dónde realizarlos en Perú?

EsSalud

Gratuito para asegurados. Requiere orden médica. Disponible en hospitales y policlínicos.

MINSA / SIS

Gratuito o a bajo costo. Hospitales nacionales (Rebagliati, Loayza) y centros de salud. La hsCRP puede no estar siempre disponible en postas.

Laboratorios privados

Sin orden médica. Suiza Lab, ROE, Blufstein, Fares Nippon. Resultados en 24–48 h. Costo total estimado: S/. 90–205.

Notas importantes

Altitud: En zonas >1 000 m.s.n.m. (Cusco, Puno, Huancayo…) los valores de RBC y MCV son fisiológicamente más altos. El modelo fue entrenado con datos de EE.UU. a nivel del mar y puede subestimar el riesgo en población altoandina.
Unidades: Verifica que el hierro sérico y TIBC estén en µg/dL. Si el reporte está en µmol/L, multiplica por 5.585 para convertir a µg/dL.
WBC y PLT: Estas variables se obtienen del hemograma. Algunas solicitudes básicas pueden omitir el recuento diferencial; pide el hemograma "completo" (CBC).
Uso clínico: Este modelo es una herramienta de apoyo para investigación. No reemplaza el diagnóstico médico ni la hemoglobina como estándar de oro.

Costo total estimado en laboratorio privado

Hemograma completo + Perfil de hierro + Ferritina + hsCRP

S/. 90–205

Precios Lima 2025 (referencia)

Variables del modelo

14 features agrupadas por dominio clínico. Importancia SHAP global (● = mayor contribución).

Código Variable Unidad Rango normal Significado clínico SHAP
Datos demográficos
RIDAGEYR Edad años Continua Los valores hematológicos varían con la edad; anemia más prevalente en extremos etarios.
RIAGENDR Sexo biológico 1/2 1=H · 2=M Define los umbrales OMS. Modula la interpretación de todos los índices eritrocitarios.
RIDEXPRG Embarazo 1–4 Categórica (1–4) El embarazo expande el volumen plasmático, diluyendo la Hb y modificando los valores de referencia.
Metabolismo del hierro
LBXIRN Hierro sérico µg/dL 60–170 Hierro circulante unido a transferrina. Variable por ingesta reciente.
LBXFER Ferritina ng/mL H:20–300 · M:12–150 Reservas tisulares de hierro. Primer marcador en caer. Puede estar falsamente elevado en inflamación.
LBDTIB TIBC µg/dL 250–370 Capacidad total de transporte de hierro. Elevado en anemia ferropénica.
Inflamación sistémica
LBXHSCRP hsCRP (PCR ultrasensible) mg/L <3 mg/L Marcador de inflamación aguda y crónica. Diferencia anemia ferropénica de anemia de enfermedad crónica.
Hematológicos
LBXWBCSI Leucocitos (WBC) ×10³/µL 4.5–11.0 Infecciones e inflamación afectan la eritropoyesis. Leucocitosis puede acompañar anemias reactivas.
LBXPLTSI Plaquetas (PLT) ×10³/µL 150–400 Trombocitosis reactiva muy frecuente en déficit de hierro. Índice de actividad medular compensatoria.
Índices eritrocitarios
LBXRBCSI RBC ★ SHAP #1 ×10⁶/µL H:4.5–6.0 · M:4.0–5.5 Variable más importante. Refleja fallo en producción eritrocitaria. Valores bajos indican déficit crónico.
LBXMCVSI MCV fL 80–100 Tamaño promedio del eritrocito. Bajo (<80): microcitosis → ferropenia. Alto (>100): macrocitosis → B12/folato.
LBXMCHSI MCH ★ SHAP #3 pg 27–33 Hb promedio por eritrocito. Hipocromía (<27 pg) indica déficit de hierro para síntesis de Hb.
LBXMC MCHC g/dL 32–36 Concentración de Hb dentro del eritrocito. Reducida en ferropenia avanzada.
LBXRDW RDW % 11.5–14.5 Aumenta antes de que Hb caiga. Alta variabilidad en tamaño eritrocitario indica eritropoyesis heterogénea.

● = mayor contribución SHAP promedio en el conjunto de test (n=1 169).

¿Por qué usar este modelo si el hemograma ya incluye la hemoglobina?

Respuesta a la objeción más frecuente sobre la utilidad del proyecto

La objeción

"Si el paciente ya se hizo un hemograma y un perfil de hierro, el médico puede ver directamente la hemoglobina y saber si hay anemia. ¿Para qué un modelo de ML?"

La hemoglobina (Hb) es el estándar diagnóstico de la anemia. Esta objeción es válida si se asume que cada paciente recibe un hemograma interpretado por un especialista. Sin embargo, esa suposición no siempre se cumple en la práctica.

La respuesta

El valor clínico de este modelo no está en reemplazar la Hb, sino en los escenarios donde la detección sistemática de anemia falla aunque el hemograma exista. Los argumentos son cinco:

1

El hemograma no se pide para buscar anemia

El médico ordena el hemograma por otra razón (check-up, infección, cirugía). La Hb está ahí, pero nadie la interpreta sistemáticamente para anemia. Este modelo puede funcionar como alerta automática sobre los datos ya existentes.

2

Detección de estados pre-anémicos

La ferritina cae semanas antes de que la Hb baje del umbral diagnóstico. Este modelo detecta el patrón de riesgo en la fase latente (RDW elevado + ferritina baja + Hb aún normal), cuando el tratamiento preventivo es más efectivo.

3

Screening automatizado a escala

En universidades o programas de salud con miles de estudiantes, revisar manualmente cada Hb es inviable. Un modelo automatizado puede priorizar quiénes necesitan evaluación médica urgente con costo operativo mínimo.

4

Confiabilidad limitada de la Hb en ciertos contextos

En zonas de alta altitud (Cusco, Puno, Huancayo) los valores de referencia de Hb son diferentes y los hemoglobinómetros portátiles pueden estar mal calibrados. Los índices eritrocitarios y el perfil de hierro son menos sensibles a estos problemas de calibración.

5

Reconocimiento de patrones en casos complejos

Un paciente puede tener Hb en rango normal pero con ferritina baja, RDW elevado y MCH reducido — un patrón que el modelo reconoce como riesgo. La Hb sola no captura esta complejidad; el modelo integra 14 marcadores simultáneamente.

Contribución académica independiente

Demostrar que XGBoost entrenado en NHANES alcanza ROC-AUC 0.994 sin Hb tiene valor científico por sí mismo. Establece un límite inferior de información contenida en los biomarcadores del metabolismo del hierro respecto a la probabilidad de anemia.

Conclusión: Este modelo no compite con la hemoglobina como diagnóstico — la complementa como sistema de alerta temprana, especialmente en contextos de screening masivo, recursos limitados o fases pre-anémicas donde la Hb aún no ha caído. Su valor es el de una herramienta de triage automatizado, no el de un reemplazante clínico.

Cómo interpretar el resultado

B

Bajo riesgo — prob < 20%

Perfil bioquímico sin señales de anemia. Índices y estado de hierro dentro de rangos esperados.

I

Intermedio — 20% a 50%

Señales mixtas. Conviene confirmar con hemoglobina y seguimiento clínico.

A

Alto riesgo — prob ≥ 50%

Patrón bioquímico altamente compatible con anemia ferropénica o alteración eritrocitaria.

Rendimiento del modelo

ROC-AUC (CV) 0.9973 ± 0.001

5-fold CV estratificado. Discriminación entre casos.

PR-AUC (CV) 0.9667 ± 0.014

Clave con clases desbalanceadas (6.4% anemia).

ROC-AUC test 0.9940

Conjunto de test holdout (n=1 169).

Recall

85.1%

Sensibilidad

Precisión

78.7%

Umbral p=0.5

F1

81.8%

Balance P/R

Nota: Las probabilidades son bimodales. La categoría "intermedio" representa ~1.2% de los casos del dataset.