Saltar a contenido

Guía 14 - Modelos

Guia 14: Modelos y Mercado LLM

Subtítulo: Del "Jefe de Adquisiciones" al "Arquitecto de Portafolio"

Introducción: La Falacia del "Modelo Único"

No existe el "mejor modelo". Existe solo el modelo más eficiente para una tarea específica. El error estratégico más común es la "monogamia tecnológica": casarse con un solo proveedor (ej. solo GPT) para todas las tareas.

El mercado de 2025 es un ecosistema fragmentado de especialistas: modelos propietarios masivos, modelos open-source soberanos y agentes-como-servicio.

Esta guía transforma al "Comprador de Software" en un "Arquitecto de Portafolio". Aprenderemos a optimizar el Triángulo de Adquisición (Rendimiento, Control, Costo) implementando un Agente Enrutador que orquesta múltiples cerebros según la necesidad del momento.

El Cuarto Vértice: La Portabilidad (Exit Strategy)

Al Triángulo de Adquisición (Rendimiento, Control, Costo) debemos añadir un factor de veto: la Portabilidad.

Antes de casarte con un modelo, pregúntate: "¿Qué tan difícil es divorciarse?"

  • Baja Portabilidad: Modelos que usan formatos propietarios o "Asssitants API" cerrados. Si te vas, pierdes tu lógica.
  • Alta Portabilidad: Modelos que aceptan prompts estándar y devuelven JSON estándar. Si te vas, solo cambias la dirección de la API.

Principio de Soberanía: Nunca construyas tu lógica de negocio principal en un formato que solo un proveedor puede leer.


Concepto Clave: La Arquitectura de Adquisición (Suscripción vs. API)

Antes de elegir un proveedor, el Arquitecto debe elegir la modalidad de acceso. Existe una confusión habitual en el mercado al no distinguir entre el Producto de Consumo (el coche con chofer) y el Componente de Ingeniería (el motor).

1. La Distinción Estructural

Criterio Chatbot (AaaS/Suscripción) API (Inferencia Pura)
Ejemplo ChatGPT Plus, Claude.ai, Gemini Advanced. OpenAI API, Anthropic API, Vertex AI.
Finalidad Aumento Personal. Herramienta cerrada para potenciar a un humano. Automatización Industrial. Componente para construir sistemas (Agentes).
Gobernanza Caja Negra. Sin acceso al System Prompt. El proveedor controla los filtros. Caja de Cristal. Control total sobre el System Prompt y la capa LOSA.
Costo Fijo. (Ej. $20/mes). No escala con el volumen, pero tiene límites de uso. Variable. (Pago por Token). Escala linealmente con la eficiencia del prompt.
Integración Nula/Baja. Difícil de conectar con ERPs o bases de datos propias. Total. Es la única vía para conectar Herramientas y RAG.

2. Herramienta de Decisión: El Algoritmo de los 3 Filtros

Para decidir qué contratar, no use la intuición. Aplique este algoritmo secuencial:

  • Filtro 1: Integración (La Pregunta Técnica)

    • ¿Necesita que la IA se conecte a otros software (BD, CRM, Excel)?
    • ¿Necesita inyectar conocimiento propietario masivo (RAG)?
    • Si la respuesta es SÍ a cualquiera, está obligado a usar API.
  • Filtro 2: Usuario (La Pregunta Operativa)

    • ¿Es para Aumento Individual? (Un analista dialogando para inspirarse). Suscripción.
    • ¿Es para Procesos de Fondo? (Clasificar 1.000 correos a las 3 AM sin humanos). API.
  • Filtro 3: Financiero (El Quiebre de Tokenomics)

    • Si ambos son viables, decida por volumen. La Suscripción es rentable para uso humano intensivo diario (costo fijo). La API es rentable para tareas esporádicas o de alto volumen automatizado (costo variable optimizable).

Parte 1: El Pilar Técnico: La Arquitectura Transformer

Antes de analizar el mercado de "motores" (modelos), es crucial entender la arquitectura técnica que define a la generación actual de IA: el Transformer.

Presentada en 2017 por Google, esta arquitectura es el motor detrás de casi todos los modelos que dominan el panorama 2025-2026, incluyendo las familias GPT (OpenAI), Gemini (Google), Claude (Anthropic) y los principales modelos open-source como Llama (Meta) y Mistral.

¿Qué es y por qué domina?

El Transformer resolvió el problema de cómo "entender" secuencias de texto a gran escala. Su innovación clave es el mecanismo de "auto-atención" (self-attention), que permite al modelo sopesar la importancia de diferentes palabras en una oración, sin importar qué tan lejos estén unas de otras.

Es esta capacidad de "ver" y "conectar" el contexto completo de un texto lo que les da su poder para razonar, traducir y generar lenguaje con coherencia.

La Limitación Estratégica

Sin embargo, esta arquitectura tiene dos implicaciones estratégicas que impactan directamente en el "Triángulo de Adquisición" (Rendimiento, Control, Costo):

  • Costo de Escalado (Costo): El mecanismo de auto-atención es computacionalmente intensivo y representa el principal límite económico para la operación a gran escala.

Recapitulando: La Tiranía del Costo Cuadrático

En la arquitectura Transformer, el costo y uso de memoria no crecen de forma lineal, sino cuadrática (O(n²)) respecto a la longitud del contexto. Esto significa que duplicar la longitud de un documento no duplica el costo, sino que lo cuadruplica (o más). Procesar documentos legales masivos en una sola ventana puede destruir el margen operativo si no se gestiona con criterio. (Ver Guía 03).

  • Naturaleza Estática (Control): Los Transformers se entrenan en una "foto" masiva del conocimiento (un corpus de datos) y luego se "congelan". No están diseñados para aprender de forma continua o para integrar nueva información después de su entrenamiento, un desafío que exploramos en la Guía 17: Perspectivas.

Nota del Arquitecto: El Giro hacia los Agentes (2025)

La industria ha validado oficialmente el cambio de paradigma de "Chatbots" a "Agentes". El reporte 101 Real-World Gen AI Use Cases (Google Cloud, Oct 2025) clasifica el mercado ya no por modelos, sino por 6 Tipos de Agentes:

  1. Customer Agents: (Nuestro Blueprint 1).
  2. Employee Agents: (Nuestros Agentes PM de productividad).
  3. Creative Agents: (Nuestros Co-Pilotos de Marketing).
  4. Data Agents: (Nuestros Agentes de Gobernanza y RAG).
  5. Code Agents: (Nuestros Co-Pilotos de Desarrollo).
  6. Security Agents: (Nuestros componentes de arquitectura LOSA).

Implicancia: La estrategia de "Agente Enrutador" propuesta en esta guía es la única capaz de orquestar estos 6 tipos de especialistas en un solo portafolio coherente.


Parte 2: El Panorama 2025-2026: Los Tres Ecosistemas

Como “Jefes de Adquisiciones” de nuestra fábrica de IA, el mercado de “motores” (LLMs) se ha consolidado en tres ecosistemas claros. Como establecimos en la Guía 03, la arquitectura Transformer es el motor técnico fundamental que impulsa a la gran mayoría de los modelos en estos ecosistemas (GPT, Llama, Claude, etc.).

Este anexo se enfoca en cómo los proveedores "empaquetan" esa arquitectura, con sus límites de costo cuadrático y memoria estática, en distintas estrategias de suministro:

A. Modelos Propietarios (APIs) - "Arrendar el Cerebro"

  • Qué es: Arriendas el poder de cómputo y el modelo a un proveedor.
  • Proveedores: Google (Gemini), OpenAI (GPT), Anthropic (Claude).
  • Fortaleza: Acceso inmediato a la máxima potencia y a ventanas de contexto gigantescas (1M+ tokens). Ideal para tareas cognitivas complejas.
  • Riesgo: Dependencia tecnológica y exposición de datos al proveedor (los datos viajan a su nube). El costo operacional es alto por token.

B. Modelos Open-Source / Open-Weigh (Ejecución Local) - "Comprar la Máquina"

Nota Técnica: Modelos Open-Source / Open-Weights: En este documento usamos ambos términos de forma operativa para referirnos a modelos cuyos pesos pueden ser ejecutados localmente, independientemente de su licencia exacta.

  • Qué es: Descargas los "pesos" del modelo y lo ejecutas en tu propia infraestructura (on-premise o nube privada). Tienes la máquina, no solo una conexión a ella.
  • Proyectos: Llama (Meta), Mistral/Mixtral, Qwen.
  • Fortaleza: Soberanía y transparencia de los datos ya que nunca salen de tu control (ideal para entornos regulados). Ofrece máximo control para personalización profunda, incluyendo el Ajuste Fino para especializar el "cerebro" sin restricciones externas.
  • Riesgo:
    1. Costo de Infraestructura: Requiere hardware GPU dedicado y un equipo de ingeniería capaz de gestionar la Industrialización (el proceso de escalar prototipos a producción).
    2. Responsabilidad de Seguridad Total: A diferencia de las APIs, donde el proveedor gestiona la seguridad, aquí el modelo es vulnerable. Las técnicas de seguridad nativas (como el "desaprendizaje" de conceptos dañinos) son inmaduras y pueden revertirse fácilmente con un ajuste fino mínimo. Si no construyes tu propia capa de seguridad (LOSA), el modelo está desprotegido.

Nota del Arquitecto: La Brecha Open-Source (Nov 2025)

La brecha de capacidad se ha cerrado. Actualmente, los modelos abiertos de vanguardia tienen un retraso de menos de un año respecto a los modelos de frontera cerrados.

Implicancia: La decisión de usar Open-Source ya no implica sacrificar inteligencia. El trade-off ha cambiado: ganas potencia y soberanía, pero asumes el 100% de la carga de la ciberseguridad, ya que las salvaguardas del proveedor se pueden desactivar.

C. Agentes-como-Servicio (AaaS) - "Contratar al Especialista"

  • Qué es: Consumes un producto terminado que encapsula el modelo y la arquitectura (como la Generación Aumentada por Recuperación (RAG), el sistema de recuperación de conocimiento).
  • Ejemplos: Perplexity, Microsoft Copilot, ChatGPT Enterprise.
  • Fortaleza: Implementación en tiempo récord y soluciones enfocadas (ej. ofimática, investigación). Costo inicial bajo (suscripción).
  • Riesgo: Flexibilidad técnica baja ("caja negra"). La Gobernanza (el control de seguridad y datos) depende 100% del contrato con el proveedor.

Parte 3: El "Triángulo de Adquisición"

Como "Jefe de Adquisiciones", no puedes tenerlo todo. Cada decisión equilibra tres fuerzas. Hemos reemplazado "Capacidad" por "Control", un término más robusto y estratégico.

  1. Rendimiento (Potencia): La inteligencia "cruda". Su capacidad para razonar (usando un ciclo de ReAct o Razonar-Actuar), escribir código complejo y pasar benchmarks (pruebas de Evaluación de calidad).
  2. Control (Soberanía): ¿Qué tanto gobierno tienes sobre el proceso? Esto incluye:
    • Soberanía de Datos: ¿Dónde residen los datos? ¿Salen de tu nube?
    • Auditoría: ¿Puedes trazar las decisiones y los logs?
    • Personalización: ¿Puedes hacer Ajuste Fino al modelo?
    • Seguridad: ¿Cómo se manejan los riesgos de Gobernanza?
  3. Costo (Economía): El costo total, no solo el precio por token. Incluye el costo de infraestructura (GPUs), licencias y el costo de personal (Industrialización).

Parte 4: La Solución Estratégica: El "Agente Enrutador"

El panorama 2025-2026 demuestra que la estrategia ganadora no es elegir un motor, sino construir un portafolio y usar el motor adecuado para cada tarea.

¿Cómo se implementa esto? Con la arquitectura de Diseño Cognitivo más avanzada: el Agente Enrutador.

El "Agente Enrutador" (que puede implementarse como un Agente Director, cuando además coordina flujos complejos) es un “cerebro” metacognitivo que gestiona el portafolio.

  1. Llega una Tarea: "Resume este email de 2 líneas."
  2. Agente Enrutador (Razona): "Esto es una tarea 'simple' y 'corta'. No necesito al caro GPT-4o. Usaré un modelo del Ecosistema B (Open-Source) o una API barata (Haiku)."
  3. Agente Enrutador (Actúa): Llama al motor más eficiente y económico.
  4. Llega otra Tarea: "Analiza las implicaciones de este contrato sensible de 500 páginas."
  5. Agente Enrutador (Razona): "Esto es 'complejo' y de 'contexto largo'. Además, los datos son 'sensibles'. Necesito 'Control' total."
  6. Agente Enrutador (Actúa): Llama al modelo Open-Source (Ecosistema B) hosteado localmente para garantizar la soberanía de los datos.

Nota: ReAct no implica razonamiento humano; es un patrón de diseño que estructura la secuencia Razón → Acción → Observación para reducir errores operativos.

Beneficio: Obtienes el máximo Rendimiento cuando lo necesitas y el máximo Control y Costo-eficiencia cuando no. Has optimizado el "Triángulo de Adquisición".

Optimización de Latencia: El Costo del Semáforo

Usar un Agente Enrutador añade un "peaje" de tiempo a cada interacción (el tiempo que tarda en decidir a dónde enviar el prompt).

Regla de Diseño: El Enrutador nunca debe ser un modelo pesado (como GPT-4 u Opus).

  • Usa modelos Flash/Haiku o incluso modelos de clasificación clásicos (BERT) para esta capa.
  • El "portero" debe ser rápido; el "experto" puede ser lento.

Nota del Arquitecto: Validación de Mercado (MIT 2025)

Esta estrategia de portafolio ("Comprar" o "Arrendar" en lugar de "Construir" todo desde cero) no es solo teórica.

Informes de la industria de 2025 (como el "State of AI in Business" del MIT) revelan que las iniciativas de "Comprar" (asociaciones estratégicas) tienen el doble de tasa de éxito (aprox. 66%) que las de "Construir" (desarrollo interno) (aprox. 33%).


Parte 5: Metodología Práctica de Selección (Checklist)

Para diseñar tu portafolio, usa este proceso:

  1. Definir el Caso de Uso: ¿Qué problema resuelve? (Precisión, latencia).
  2. Clasificar por Riesgo/Sensibilidad: ¿Los datos son públicos, internos o confidenciales (salud, jurídicos, seguridad)?
  3. Asignar el Tipo de Modelo: Usa la matriz de decisión y el checklist de abajo.
  4. Pilotar con Métricas: Implementa un prototipo (la versión v1 de prueba) y mide con la guía de Evaluación (QA).
  5. Monitorear y Revisar: Implementa logs (parte de la Industrialización) y revisa el portafolio cada 3-6 meses.

Matriz de Decisión Estratégica

Dimensión Propietario (API) Open-Source (Local) AaaS (Producto)
Gobernanza de Datos Limitada: los datos viajan a la nube del proveedor. Total: Control local. Ideal para regulación. Depende del proveedor y del contrato.
Costo Inicial Bajo. Alto (Hardware GPU, equipo). Bajo (Suscripción).
Costo Operacional Alto (Pago por token a escala). Medio (Infraestructura, soporte). Fijo/Variable (Licencia).
Flexibilidad Técnica Media (Prompting, RAG). Alta (Ajuste Fino, RAG, modificación). Baja ("Caja negra").

Criterio de Desempate: La Transparencia Documental

Si dos modelos tienen rendimiento similar, elige siempre el que tenga mejor documentación técnica (System Card).

  • Un modelo "Caja Negra" sin documentación de entrenamiento es un riesgo de Compliance futuro.
  • Un modelo con "Pesos Abiertos" o documentación transparente te permite auditar por qué falló, algo invaluable cuando la auditoría de seguridad te pida explicaciones.

Checklist Rápido de Decisión

Pregunta Clave Acción Requerida (Ejemplos)
¿Los datos son sensibles (salud, seguridad, jurídico)? (Si es SÍ: Priorizar Open-Source Local)
¿Requiere auditoría y trazabilidad completa? (Si es SÍ: Priorizar Open-Source o API con cláusulas de logs)
¿Necesitamos customización profunda (Ajuste Fino)? (Si es SÍ: Requerir Open-Source)
¿Tenemos capacidad de Industrialización interna? (Si es NO: Priorizar API o AaaS, o planificar contratación)

Caso de Estudio: Estándares Gubernamentales Avanzados

Para operar en un mercado global, el Arquitecto debe adoptar los estándares contractuales más altos disponibles. Analizamos el modelo de la Directiva N°44 (un estándar gubernamental de referencia en Latam y la OCDE) como un benchmark de cómo las organizaciones maduras se protegen legalmente ante proveedores de IA.

Nota del Arquitecto: Cláusulas Contractuales Blindadas (Benchmark 2025)

Independientemente de su jurisdicción, este marco propone 3 cláusulas universales que usted debe exigir a cualquier proveedor de IA para proteger su IP:

  1. Contra la "Caja Negra" (Explicabilidad): Exigir al proveedor mecanismos técnicos que permitan trazar por qué el modelo llegó a una decisión crítica. La norma es no aceptar modelos opacos (Black Box) para decisiones críticas de negocios.
  2. Propiedad Intelectual del "Fine-Tuning" (IP): Definir explícitamente que los "pesos neuronales" resultantes de un ajuste fino le pertenecen a usted. Si usted pagó el entrenamiento, el "cerebro" es suyo, no del proveedor.
  3. Evaluación de Impacto (DPIA): Exigir un mapeo de riesgos de privacidad y sesgos antes de la adjudicación, no durante el desarrollo.

Herramienta: Aunque este es un documento de origen público (Bases Tipo de Ciencia de Datos), su estructura técnica actúa como un estándar de referencia internacional para definir SLAs (Niveles de Servicio), perfiles de equipo e hitos de pago aplicables a cualquier industria privada.


Parte 6: Enfoque Especial: Sector Público y Entornos Regulados

Para instituciones públicas o reguladas (finanzas, salud), el factor Control (Soberanía de Datos, Auditoría) debe superar casi siempre al Rendimiento. En estos entornos, el riesgo técnico se traduce directamente en riesgo institucional y político.

  1. Priorizar Soberanía de Datos: Favorecer soluciones locales (Open-Source) para cualquier información crítica o sensible.
  2. Exigir Transparencia y Auditoría: Exigir documentación técnica clara y la capacidad de auditar los procesos y los logs.
  3. Contratar con Cláusulas de Gobernanza: Al usar APIs (Ecosistema A) o AaaS (Ecosistema C), incluir cláusulas contractuales específicas sobre residencia de datos, trazabilidad y retención de logs.

Resiliencia Operativa y Riesgo de Concentración

La elección de un modelo no es solo una decisión de rendimiento; es una decisión de continuidad de negocio. En marcos de alta exigencia (como DORA o SR 11-7), la dependencia absoluta de un único proveedor de modelo fundacional se considera un riesgo de concentración operativa que debe ser mitigado.

Para que su arquitectura sea resiliente, su estrategia de salida debe incluir:

  • Mapeo de Dependencias Críticas: Identificar qué procesos de negocio se detendrían si el endpoint del modelo falla o si el proveedor cambia sus políticas de uso.
  • Contratos con Derechos de Auditoría: Asegurar que los acuerdos de nivel de servicio (SLA) permitan la transparencia necesaria para auditorías de cumplimiento y gestión de incidentes.
  • Portabilidad de la "Fábrica de Prompts": Mantener una separación lógica entre las instrucciones (prompts) y el motor de ejecución, facilitando la migración a modelos alternativos (ej. de GPT-4 a Claude o Llama) sin reconstruir toda la lógica de negocio.
  • Pruebas de Continuidad: Realizar simulacros periódicos de "conmutación por error" (failover) hacia modelos secundarios o locales para validar que los agentes sigan operando bajo condiciones de degradación del servicio principal.

El 'Seguro' de la Soberanía

Poseer los pesos de un modelo (Soberanía de Pesos) o ejecutar SLMs localmente no es solo una medida de costo, es la garantía de resiliencia definitiva ante cambios geopolíticos o regulatorios que puedan afectar el suministro de inteligencia vía API.


Conclusión: De Gobernador a Arquitecto de Portafolio

La maestría no reside en saber qué LLM es "mejor", sino en tener el juicio de ingeniería para diseñar un ecosistema flexible: rendimiento donde importa, Control donde hay riesgo, y Costo donde la escala lo exige. El rol final no es solo gobernar una fábrica; es ser el "Arquitecto del Portafolio de IA".