Ask My DNA

Orientación de bienestar genómico personalizada

Blog Ask My DNA

11 min de lectura
2,317 palabras

Entendiendo Archivos VCF de Pruebas Genéticas Clínicas

Palabras clave: archivo VCF genética clínica explicado, convertir VCF análisis personal, métricas calidad pruebas genéticas, solicitar VCF médico

Los archivos VCF (Variant Call Format) son el estándar oro para datos genéticos clínicos, pero su formato técnico puede ser intimidante para usuarios no especializados. A diferencia de los datos de consumo como 23andMe, los archivos VCF contienen información mucho más detallada sobre calidad, cobertura y significancia clínica de cada variante. Esta guía te enseñará a entender, convertir y utilizar estos archivos potentes para análisis personal informado.

Formato de Archivo VCF Explicado para Usuarios No Técnicos

¿Qué es un Archivo VCF?

VCF (Variant Call Format) es el formato estándar internacional para almacenar variaciones genéticas identificadas mediante secuenciación de ADN. Es usado por laboratorios clínicos, investigadores, y bases de datos médicas globales.

Diferencias clave vs. datos de consumo:

23andMe/AncestryDNA:
- Formato: Texto simple, 4 columnas
- Contenido: Solo genotipo final
- Calidad: No reportada
- Cobertura: Array fijo ~700K SNPs

VCF Clínico:
- Formato: Estándar internacional complejo
- Contenido: Genotipo + calidad + anotaciones
- Métricas: Múltiples indicadores confiabilidad
- Cobertura: Variable, millones-billones variantes

Anatomía de un Archivo VCF

Estructura General:

##fileformat=VCFv4.2
##fileDate=20231201
##source=IlluminaTruSightOne_v1.1
##reference=GRCh38/hg38
##contig=<ID=chr1,length=248956422>
[... más metadatos ...]
#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	SAMPLE001
chr1	69897	rs200676709	T	C	255	PASS	AC=1;AF=0.5;DP=45	GT:AD:DP:GQ	0/1:22,23:45:99
chr1	69511	.	A	G	156	PASS	AC=1;AF=0.5;DP=32	GT:AD:DP:GQ	0/1:15,17:32:87

Sección de Encabezado (##):

##fileformat=VCFv4.2
- Versión estándar VCF usado

##reference=GRCh38
- Genoma referencia (crítico para interpretar posiciones)

##source=IlluminaTruSightOne
- Plataforma secuenciación usada

##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
- Definiciones campos de información

Columnas Principales del VCF

Columnas Obligatorias (8 primeras):

1. CHROM (Cromosoma):

Ejemplos:
chr1, chr2, ..., chr22, chrX, chrY, chrM

Importante:
- Algunos VCF usan "1, 2, 3" sin prefijo "chr"
- chrM = ADN mitocondrial
- Determina localización genómica exacta

2. POS (Posición):

Número entero: Posición exacta en cromosoma
Ejemplo: 69897 = posición 69,897 en cromosoma

Critical: Debe coincidir con genoma referencia
- GRCh37/hg19 vs GRCh38/hg38 tienen posiciones diferentes
- Liftover necesario para comparar entre versiones

3. ID (Identificador):

Ejemplos:
rs200676709 = dbSNP ID (variante conocida)
. = Variante nueva/no catalogada
COSV12345678 = COSMIC ID (cáncer)

Utilidad:
- Permite búsqueda literatura científica
- Cross-referencia bases datos públicas

4. REF (Alelo Referencia):

Nucleótido(s) en genoma humano referencia
Ejemplos:
T = Timina
A = Adenina
ATCG = Secuencia múltiples bases (indel)

5. ALT (Alelo Alternativo):

Nucleótido(s) observado en muestra
Ejemplos:
C = Sustitución simple T→C
G = Sustitución A→G
ATCGAA = Inserción
. = Deleción

6. QUAL (Calidad):

Score Phred de confianza variante
Interpretación:
20 = 99% confianza (1% probabilidad error)
30 = 99.9% confianza (0.1% probabilidad error)
40 = 99.99% confianza
60+ = Calidad excelente

Rule of thumb:
<20 = Baja calidad, verificar
20-30 = Calidad aceptable
>30 = Alta confianza

7. FILTER (Filtros):

Valores comunes:
PASS = Variante pasa todos filtros calidad
LowQual = Calidad insuficiente
DepthFilter = Cobertura muy baja
StrandBias = Sesgo dirección lectura
. = No filtros aplicados

Solo usar variantes PASS para análisis serios

8. INFO (Información Adicional):

Campos separados por punto y coma
Ejemplos importantes:
AC=1 = Allele Count (cuántas copias ALT)
AF=0.5 = Allele Frequency (frecuencia en muestra)
DP=45 = Depth (cobertura total posición)

Columnas de Muestra (9+)

FORMAT (Formato de Datos):

Define qué información viene para cada muestra
Ejemplo: GT:AD:DP:GQ significa:
- GT = Genotipo
- AD = Allelic Depth
- DP = Depth total
- GQ = Genotype Quality

Datos de Muestra:

Ejemplo: 0/1:22,23:45:99
Interpretación:
- 0/1 = Heterocigoto (REF/ALT)
- 22,23 = 22 lecturas REF, 23 lecturas ALT
- 45 = Cobertura total
- 99 = Calidad genotipo (Phred score)

Otros genotipos:
0/0 = Homocigoto referencia
1/1 = Homocigoto alternativo
./. = No determinado

Interpretando Calidad en VCF

Métricas de Calidad Críticas:

Depth (DP) - Cobertura:

Interpretación según contexto:
Exoma/Panel dirigido:
- <10x = Insuficiente
- 10-20x = Marginal
- 20-50x = Buena
- >50x = Excelente

Genoma completo:
- <10x = Insuficiente
- 10-30x = Aceptable
- 30-50x = Buena
- >50x = Excelente (costoso)

Genotype Quality (GQ):

Phred score confianza genotipo específico:
GQ <20 = Baja confianza
GQ 20-30 = Confianza moderada
GQ 30-50 = Alta confianza
GQ >50 = Confianza excelente

Crítico para variantes médicamente importantes

Allelic Balance (AD ratio):

Para heterocigotos, ratio lecturas REF:ALT
Ejemplo: 22,23 = ratio ~1:1 (ideal)

Señales de alerta:
- 30,5 = Posible error técnico
- 3,40 = Posible contaminación
- Ratio extremos sugieren problemas calidad

Convirtiendo Archivos VCF para Análisis Personal

Herramientas de Conversión VCF

VCF a Formato de Consumo (23andMe-like):

1. bcftools (Herramienta Profesional)

# Convertir VCF a formato simple
bcftools query -f '%ID\t%CHROM\t%POS\t[%GT]\n' input.vcf > output_simple.txt

# Filtrar solo variantes alta calidad
bcftools view -f PASS -q 30 input.vcf > filtered_high_quality.vcf

# Extraer solo SNPs (no indels)
bcftools view -v snps input.vcf > snps_only.vcf

2. PLINK (Análisis Genético)

# Convertir VCF a formato PLINK
plink --vcf input.vcf --make-bed --out converted_data

# Control calidad simultáneo
plink --vcf input.vcf --geno 0.1 --mind 0.1 --maf 0.01 --make-bed --out qc_data

3. Herramientas Online Gratuitas:

Galaxy Project:

URL: usegalaxy.org
Capacidades:
- Conversión VCF múltiples formatos
- Filtrado calidad interactivo
- Anotación funcional variantes
- No requiere instalación software

VCF Online Converter:

Servicios disponibles:
- VCF to 23andMe format
- VCF to AncestryDNA format
- VCF to PLINK format
- Filtrado automático calidad

Proceso de Conversión Paso a Paso

Paso 1: Preparación del Archivo VCF

Verificaciones pre-conversión:
1. Confirmar versión genoma referencia (GRCh37 vs GRCh38)
2. Identificar filtros calidad aplicados
3. Verificar completitud datos FORMAT fields
4. Evaluar cobertura general archivo

Paso 2: Filtrado de Calidad

Criterios mínimos recomendados:
- FILTER = PASS únicamente
- QUAL ≥ 30 (99.9% confianza)
- DP ≥ 10 (cobertura mínima)
- GQ ≥ 20 (calidad genotipo aceptable)

Comando bcftools ejemplo:
bcftools view -f PASS -e 'QUAL<30 || INFO/DP<10' input.vcf

Paso 3: Conversión a Formato Deseado

Para análisis con herramientas consumo:
1. Extraer campos: ID, CHROM, POS, GT
2. Convertir genotipos: 0/1 → AT, 1/1 → TT
3. Formatear según destino (23andMe, Ancestry, etc.)
4. Validar integridad conversión

Paso 4: Validación Post-Conversión

Verificaciones calidad:
- Número variantes esperado vs obtenido
- Distribución cromosómica lógica
- Ratio heterocigotos/homocigotos razonable
- Variantes conocidas presentes (ej: rs53576)

Herramientas de Anotación VCF

VEP (Variant Effect Predictor) - Ensembl:

Funcionalidad:
- Predicción efectos funcionales variantes
- Anotación genes afectados
- Scores patogenicidad (SIFT, PolyPhen)
- Frecuencias poblacionales
- Significancia clínica ClinVar

Uso básico:
1. Upload VCF a ensembl.org/vep
2. Seleccionar opciones anotación
3. Descargar results anotados

ANNOVAR:

Capacidades:
- Anotación funcional exhaustiva
- Integración múltiples bases datos
- Filtrado variantes patogénicas
- Priorización clínica

Bases datos incluidas:
- ClinVar (significancia clínica)
- OMIM (enfermedades genéticas)
- PharmGKB (farmacogenómica)
- COSMIC (cáncer)

Métricas de Calidad en Resultados de Pruebas Genéticas Clínicas

Indicadores de Calidad Técnica

Coverage/Cobertura por Región:

Exomas típicos:
- Media cobertura: 80-120x
- % bases >10x: >95%
- % bases >20x: >90%
- Uniformidad: CV <30%

Paneles dirigidos:
- Media cobertura: 200-500x
- % bases >50x: >95%
- Uniformidad: CV <20%
- Hotspots críticos: >100x

Métricas de Secuenciación:

Quality scores importantes:
- Q30 bases: >85% (1 error cada 1000 bases)
- Insert size mean: 300-400 bp típico
- GC bias: <5% desviación ideal
- Duplicates: <20% reads duplicados

Interpretación de Calidad por Contexto Clínico

Diagnóstico de Enfermedades Raras:

Estándares más estrictos requeridos:
- Cobertura mínima: 20x regiones críticas
- Calidad variantes: GQ ≥30 obligatorio
- Confirmación: Sanger sequencing variantes patogénicas
- Análisis familiar: Padres cuando posible

Farmacogenómica Clínica:

Requerimientos específicos:
- Genes CYP450: Cobertura uniforme >50x
- Star alleles: Identificación completa
- CNVs: Detección CYP2D6 duplicaciones
- Validación: Cross-platform cuando crítico

Screening de Cáncer Hereditario:

Calidad extra alta necesaria:
- BRCA1/2: Cobertura >100x exones críticos
- Variantes estructurales: MLPA confirmación
- Mosaicismo: Detección >5% frecuencia
- Reportes: Solo variantes Tier 1-2

Red Flags de Calidad Baja

Señales de Alerta Técnica:

❌ Cobertura desigual entre cromosomas
❌ Exceso variantes sin ID (muchos ".")
❌ Ratio Ti/Tv anormal (<2.0 o >2.5)
❌ Heterocigosity rate extremo (<0.5% o >2%)
❌ Contaminación detectada >2%
❌ % PASS variants <95%

Indicadores Problema Procesamiento:

❌ Missing genotype rate >5%
❌ Hardy-Weinberg deviation p<10^-6 múltiples loci
❌ Kinship inconsistencies familiares
❌ Population stratification extrema
❌ Batch effects evidentes

Cuándo Solicitar Archivos VCF de Tu Médico

Derecho de Acceso a Datos Genéticos

Marco Legal (EEUU):

21st Century Cures Act:
✅ Derecho acceso información médica electrónica
✅ Incluye datos genéticos y genómicos
✅ Sin costo adicional razonable
✅ Formato legible por máquina

Cómo solicitar:
1. Request formal escrito al laboratorio/médico
2. Especificar "raw data VCF format"
3. Mencionar 21st Century Cures Act
4. Incluir información identificación apropiada

Consideraciones Prácticas:

Factores que facilitan acceso:
✅ Laboratorio grande/comercial
✅ Institución académica
✅ Testing reciente (<2 años)
✅ Request a través médico ordenante

Posibles obstáculos:
⚠️ Laboratorio pequeño/local
⚠️ Testing muy antiguo (>5 años)
⚠️ Concern responsabilidad médico-legal
⚠️ Limitaciones técnicas infraestructura

Situaciones Donde VCF es Especialmente Valioso

Re-análisis con Nuevo Conocimiento:

Casos apropiados:
- Variantes de significado incierto inicial
- Nueva literatura sobre genes relevantes
- Desarrollo nuevos scores patogenicidad
- Guidelines clínicas actualizadas

Ejemplo: Gen que no tenía significado clínico hace 3 años
ahora asociado con síndrome específico

Análisis Familiar Complementario:

VCF permite:
- Comparación variantes entre familiares
- Segregation analysis patrones herencia
- Identificación variantes compartidas
- Análisis linkage en familias grandes

Farmacogenómica Personalizada:

Utilidad VCF:
- Análisis exhaustivo genes CYP450
- Star alleles no reportados inicialmente
- Interacciones medicamentosas complejas
- Protocolos dosificación personalizados

Preparación para Solicitar VCF

Documentación Necesaria:

Información requerida típicamente:
1. Nombre completo paciente
2. Fecha nacimiento
3. Número orden laboratorio
4. Médico ordenante
5. Fecha aproximada testing
6. Justificación solicitud (opcional pero útil)

Template de Solicitud:

"Estimado [Laboratorio/Dr. X],

Solicito acceso a los datos genómicos crudos (formato VCF)
correspondientes a mi prueba genética realizada el [fecha]
bajo orden #[número] del Dr. [nombre].

Según el 21st Century Cures Act, tengo derecho a acceder
mis datos médicos electrónicos sin costo irrazonable.

Propósito: [Re-análisis, second opinion, investigación personal]

Agradezco su asistencia.
Atentamente,
[Firma]"

Qué Esperar Después de Solicitar

Timeline Típico:

Laboratorios comerciales grandes: 1-2 semanas
Hospitales/instituciones académicas: 2-4 semanas
Laboratorios pequeños: 4-8 semanas
Casos complejos: Puede requerir seguimiento

Formatos de Entrega:

Opciones comunes:
- Email seguro con archivo adjunto
- Portal paciente download
- CD/USB físico por correo
- Transferencia segura FTP

Verificar integridad:
- Archivo no corrupto
- Tamaño razonable (MB a GB)
- Formato VCF válido

Casos de Estudio: Valor de Acceso VCF

Caso 1: Re-análisis Variante Incierta

Situación Inicial:

Paciente: Mujer 34 años, historia familiar cáncer mama
Testing inicial 2021: BRCA1/2 negativo, 3 VUS otros genes
Reporte: "Sin variantes patogénicas identificadas"

Valor del VCF (2024):

Re-análisis con ClinVar actualizado:
- VUS en PALB2 reclasificada "Likely Pathogenic"
- Nuevas guidelines ACMG aplicadas
- Riesgo cáncer significativamente aumentado

Resultado: Cambio manejo clínico completo
- Screening más temprano
- MRI mama anual
- Consideración cirugía preventiva

Caso 2: Farmacogenómica Detallada

Situación:

Paciente: Hombre 67 años, múltiples medicamentos
Testing inicial: Panel farmacogenómico básico
Reporte: "CYP2D6 normal function"

Análisis VCF Detallado:

Hallazgos adicionales:
- CYP2C19 *17 no reportado inicialmente
- SLCO1B1 variante riesgo estatinas
- UGT1A1 *28 relevante para irinotecan

Aplicación práctica:
- Ajuste dosis inhibidores bomba protones
- Cambio simvastatina → pravastatina
- Preparación para futura oncología

Herramientas de Análisis VCF para Usuarios

Software Gratuito Recomendado

IGV (Integrative Genomics Viewer):

Capacidades:
- Visualización variantes genómicas
- Integración tracks anotación
- Comparación múltiples muestras
- Export imágenes para reportes

Ideal para:
- Exploración visual variantes
- Validación calidad specific loci
- Comparaciones familiares

VCF-kit (Python):

Funciones útiles:
- Statistics básicas VCF
- Filtrado criterios múltiples
- Comparación entre muestras
- Conversion formatos

Comandos útiles:
vk stats input.vcf
vk filter --qual 30 input.vcf

Recursos Online

ClinVar Database:

URL: ncbi.nlm.nih.gov/clinvar
Función: Lookup significancia clínica variantes
Input: rsID o coordenadas genómicas
Output: Clasificación patogenicidad + evidencia

Variant Validator:

URL: variantvalidator.org
Función: Validación nomenclatura variantes
Utilidad: Convertir formatos, verificar coordinadas

Conclusión

Los archivos VCF representan el formato más completo y preciso para datos genéticos clínicos disponibles hoy. Aunque técnicamente complejos, proporcionan información invaluable sobre calidad, cobertura, y confianza que no está disponible en datos de consumo.

Acceder y entender tu VCF clínico te empodera para:

  • Re-análisis futuro con conocimiento actualizado
  • Second opinions informadas
  • Análisis familiar complementario
  • Farmacogenómica personalizada detallada

Tu VCF es tu propiedad intelectual genética más valiosa. Conocer cómo accederlo, interpretarlo, y utilizarlo te pone en control de tu información genética más precisa y completa.


Próximos Pasos:

  1. Evalúa si tienes pruebas genéticas clínicas previas con VCF disponible
  2. Solicita acceso usando template y marco legal apropiado
  3. Familiarízate con herramientas básicas interpretación VCF
  4. Considera re-análisis periódico con conocimiento actualizado

Disclaimer: Los archivos VCF contienen información médica compleja que debe interpretarse por profesionales calificados. El acceso a datos crudos no reemplaza interpretación clínica profesional ni consejería genética apropiada.

Referencias

  1. 2.
    . U. .
  2. 3.
    . National Center for Biotechnology Information.
  3. 4.
    . NIH.

Todas las referencias provienen de revistas revisadas por pares, agencias gubernamentales de salud y bases de datos médicas autorizadas.

Usamos analíticas basadas en consentimiento

Los píxeles de marketing (Meta, Google, LinkedIn, TikTok, Twitter) solo se activan si aceptas. Puedes rechazar y el sitio seguirá funcionando sin seguimiento.