Anexo F: Atlas de Vulnerabilidades Lógicas y Resiliencia del Sistema¶
1. Introducción: La Inferencia como Superficie de Ataque¶
La seguridad de una arquitectura de IA no se limita a la protección de datos ni al cifrado de red. En este anexo se establece que el lenguaje natural y la lógica formal constituyen vectores de ataque críticos. Un sistema resiliente debe ser capaz de procesar inputs maliciosos, persuasivos o erróneos sin degradar su Fidelidad Semántica ni comprometer su Soberanía Operativa.
Este Atlas consolida las vulnerabilidades estructurales de los Modelos de Lenguaje (Sistema 1), clasificándolas en cuatro dimensiones de riesgo operativo, cuya mitigación exige controles externos explícitos (Sistema 2).
2. Definiciones de las Dimensiones de Vulnerabilidad¶
A continuación, se describen las principales familias de fallos que todo arquitecto, auditor o responsable de GRC debe considerar y mitigar. La terminología utilizada corresponde a conceptos consolidados en la práctica operativa reciente (2024–2025).
Las cuatro dimensiones clasifican los fallos según el plano en el que se degrada el control:
- I. Retórica: Fallos inducidos por la forma persuasiva del lenguaje de entrada que provocan la violación de controles sin alterar la arquitectura del sistema.
- II. Emergente: Fallos emergentes del comportamiento estadístico interno que surgen del comportamiento interno y probabilístico del modelo, incluso ante inputs benignos, por efectos de auto-referencia, optimización o razonamiento extendido.
- III. Ética-Normativa: Fallos derivados de una jerarquización incorrecta de principios éticos u obligaciones regulatorias que conduce a incumplimiento o parálisis operativa.
- IV. Operativa: Fallos originados en el diseño, despliegue o coordinación del sistema en producción que amplifican el impacto del error más allá del razonamiento individual del modelo.
3. Matriz de Riesgo Semántico¶
| Dimensión | Tipo de Fallo | Concepto Operativo | Riesgo GRC Principal |
|---|---|---|---|
| I. Retórica | Ad Verecundiam / Ad Misericordiam | Adversarial Persuasion | Suplantación de Autoridad: Salto de protocolos por simulación de urgencia, jerarquía o victimización falsa. |
| I. Retórica | Red Herring / Cortina de Humo | Context Distraction | Inyección Indirecta: Ocultamiento de instrucciones maliciosas dentro de grandes volúmenes de información legítima. |
| II. Emergente | Bucle Tautológico | Feedback Loop Hallucination | Corrupción de Auditoría: El sistema valida sus propios errores previos como hechos dentro de la ventana de contexto. |
| II. Emergente | Sycophancy (Adulación) | Reward Hacking / Complacencia | Falsedad Sistémica: Generación de inexactitudes fácticas para maximizar la alineación percibida con el usuario. |
| III. Ética-Norm. | Falso Balance / Equidistancia | False Neutrality Bias | Incumplimiento Normativo: Tratamiento neutral ante hechos objetivamente ilegales o contrarios a políticas internas. |
| III. Ética-Norm. | Secuestro de Políticas | Moral Hijacking | Parálisis Operativa: Uso instrumental de principios éticos para bloquear funciones legítimas del sistema. |
| IV. Operativa | Deriva de Inferencia | Reasoning Drift | Degradación Lógica: La calidad de la decisión se degrada de forma acumulativa y no lineal en procesos multi-paso. |
| IV. Operativa | Alucinación Operacional | Factuality Failure | Decisión Errónea: Ejecución de acciones irreversibles basadas en información no verificada o inexistente. |
4. Matriz de Intersección: Vulnerabilidades vs. Pilares de Control¶
Cada vulnerabilidad identificada debe mapearse explícitamente a uno o más de los 20 Pilares de Control definidos en esta arquitectura.
| Vulnerabilidad Detectada | Pilar de Mitigación Primario | Mecanismo de Control |
|---|---|---|
| Sycophancy (Adulación) | Pilar 9: Fidelidad Semántica | Contraste obligatorio con fuentes externas inmutables (RAG / Grounding) previo a la generación. |
| Bucle Tautológico | Pilar 19: Expediente Técnico | Trazabilidad inmutable de inferencias y saneamiento periódico de la ventana de contexto. |
| Alucinación Operacional | Pilar 10: Verificabilidad | Política de Abstención Obligatoria (System 2 Override) ante ausencia de evidencia suficiente, independientemente de la confianza lingüística. |
| Falsa Dicotomía | Pilar 17: Explicabilidad | Obligación de explorar y documentar “terceras vías” antes de forzar decisiones binarias. |
| Reasoning Mode Collapse | Pilar 12: RAG (Knowledge) | Inyección sistemática de casos de borde y eventos de baja frecuencia (Cisnes Negros). |
| Secuestro de Políticas | Pilar 3: Inmutabilidad (PaC) | Anclaje de reglas críticas en código duro (middleware), no en prompts de sistema. |
5. Definiciones Técnicas de Frontera¶
A. Sycophancy (Adulación Sistémica)¶
Tendencia estadística del modelo a priorizar la probabilidad de aceptación del usuario por sobre la veracidad fáctica, validando premisas incorrectas para maximizar utilidad percibida.
B. Alucinación Operacional¶
Producción de respuestas accionables en ausencia de evidencia suficiente, cuando el comportamiento correcto era la abstención. Su impacto es directo sobre la cadena de valor.
C. Reasoning Drift (Deriva de Inferencia)¶
Acumulación progresiva de errores probabilísticos menores en cadenas de razonamiento extensas, conduciendo a conclusiones inconsistentes con las premisas iniciales sin error sintáctico detectable.
D. False Neutrality Bias (Falso Balance)¶
Aplicación indebida de neutralidad a escenarios binarios de cumplimiento normativo, generando ambigüedad donde existe obligación clara.
E. Reasoning Mode Collapse (Colapso de Modo)¶
Reducción de la diversidad inferencial ante complejidad elevada, produciendo respuestas genéricas y conservadoras que degradan la efectividad del sistema.
6. Protocolo de Certificación: El Test del Sofista¶
(Ensayo de Resiliencia Lógica y Retórica)
Ninguna instancia de IA o agente autónomo debe entrar en producción sin un certificado formal de Resiliencia Lógica. El protocolo incluye pruebas adversariales controladas con métricas objetivas:
- Prueba de Inmunidad a la Adulación
- Objetivo: Inyección de premisas falsas para inducir validación.
- Benchmark: Ratio de rechazo ≥ 98 %.
- Prueba de Resistencia Retórica
- Objetivo: Ataques de apelación emocional o urgencia (Ad Misericordiam).
- Benchmark: Tasa de bypass = 0 % (tolerancia cero).
- Validación de Compresión Semántica
- Objetivo: Verificar preservación de cláusulas obligatorias en resúmenes normativos.
- Benchmark: Pérdida de fidelidad semántica ≤ 2 %.
7. Evidencias, Logs y Métricas de Resiliencia¶
Propósito Normativo¶
Esta sección define los artefactos verificables que demuestran que las vulnerabilidades lógicas no solo están descritas, sino activamente controladas. Su función es cerrar la brecha entre análisis conceptual y evidencia auditora. Ningún control descrito en este Anexo se considera efectivo sin evidencia técnica asociada.
7.1 Tipología de Evidencias Exigidas¶
Toda mitigación debe generar al menos uno de los siguientes tipos de evidencia:
- Evidencia Preventiva: Demuestra que el fallo no puede ejecutarse (bloqueo a priori).
- Evidencia Detectiva: Demuestra que el fallo es identificado oportunamente (alerta in-flight).
- Evidencia Correctiva: Demuestra capacidad de contención y reversión (recuperación post-hoc).
Estas evidencias forman parte obligatoria del Expediente Técnico del Agente.
7.2 Matriz de Evidencias por Vulnerabilidad¶
| Vulnerabilidad | Evidencia Requerida | Tipo de Evidencia | Métrica Clave |
|---|---|---|---|
| Sycophancy (Adulación) | Registro de contraste RAG + rechazo explícito de premisas falsas | Preventiva | % de respuestas con refutación explícita |
| Bucle Tautológico | Logs de limpieza de contexto y hashes de sesión | Detectiva | Nº de autoreferencias por sesión |
| Alucinación Operacional | Evento de abstención forzada (System 2 Override) | Correctiva | Ratio de abstención justificada |
| Deriva de Inferencia | Traza técnica de inferencia multi-paso con checkpoints | Detectiva | Variación semántica acumulada |
| Secuestro de Políticas | Log de colisión entre ética y operación | Preventiva | Tiempo medio de resolución |
| Falso Balance | Registro de decisión normativa explícita | Correctiva | % de decisiones no neutrales |
7.3 Logs Forenses Obligatorios¶
La arquitectura debe generar logs inmutables, con retención mínima definida por política institucional, que incluyan:
- Identificador único de sesión y transacción.
- Hash del input original (integridad).
- Vulnerabilidad detectada (si aplica).
- Pilar de control activado.
- Acción ejecutada (rechazo, abstención, escalamiento).
- Timestamp sincronizado.
- Identidad del agente o sistema invocador.
Nota: Estos logs son no opcionales y deben ser accesibles para auditoría interna y externa.
7.4 Métricas de Resiliencia Operativa¶
Las siguientes métricas deben ser monitoreadas y reportadas periódicamente:
- Índice de Fidelidad Semántica.
- Tasa de Abstención Correcta.
- Ratio de Bypass Ético.
- Latencia Introducida por Controles LOSA.
- Tasa de Incidentes por Dimensión (I–IV).
La degradación sostenida de cualquiera de estas métricas activa un evento de revisión obligatoria del agente.
7.5 Criterio de Aprobación para Producción¶
Un agente solo puede ser autorizado para producción si:
- Todas las vulnerabilidades del Anexo F tienen evidencia asociada.
- Las métricas clave cumplen los umbrales definidos.
- El Expediente Técnico se encuentra completo y firmado.
- El "Test del Sofista" ha sido aprobado.
La ausencia de evidencia se considera fallo de control, incluso si no existe incidente registrado.
Declaración de Integridad y Auditoría
Este anexo, en sus partes 1 a 6, identifica y sistematiza las familias de fallos inherentes a arquitecturas de IA en producción.
La parte 7 establece los mecanismos de control y evidencia operativa que permiten demostrar su mitigación efectiva.
Sin evidencia técnica verificable, la resiliencia es solo una declaración teórica.
Con evidencia, la arquitectura se vuelve gobernable, auditable y defendible frente a exigencias regulatorias, operativas y forenses.