Ingeniería de contexto: darle a la IA lo que necesita

Aprendé a elegir y ordenar lo que ve la IA para que trabaje mejor, gaste menos y deje de inventar.

La ingeniería de contexto es el arte de decidir qué información ve un modelo de IA en cada momento. No se trata de escribir un prompt más largo: se trata de armar el conjunto más chico de información de alto valor que logre el resultado que querés. Si la IA "alucina", se desenfoca o ignora tus instrucciones, casi siempre el problema está en el contexto, no en el modelo.

Qué es el contexto (y por qué no es solo tu pregunta)

Cuando le hablás a un agente de IA, "el contexto" es todo lo que el modelo puede mirar antes de responder: las instrucciones del sistema, las herramientas que tiene disponibles, los documentos que le pasaste, el historial de la conversación y los resultados de las acciones que ejecutó. Todo eso compite por su atención.

La clave que casi nadie entiende: el modelo tiene un presupuesto de atención finito. Cada palabra que metés consume parte de ese presupuesto, tenga o no que ver con tu pedido. Más texto no es más inteligencia: muchas veces es menos, porque lo importante queda diluido entre cosas que no aportan.

La anatomía del contexto

Pensá el contexto como cinco cajones, cada uno con su función:

Instrucciones del sistema: definen quién es el agente, qué puede y qué no puede hacer. Se cargan al principio y mandan en todo lo demás.
Definiciones de herramientas: qué acciones sabe ejecutar (buscar, leer un archivo, llamar a una API). Si dos herramientas se parecen demasiado, el agente no sabe cuál usar.
Documentos: el material de referencia que le pasás para esta tarea puntual.
Historial de mensajes: la conversación hasta ahora. En tareas largas, esto crece y se come todo el espacio.
Resultados de herramientas: lo que devolvieron las acciones. En la práctica, esto suele ser lo que más lugar ocupa, a veces más del 80% del contexto.

La altura correcta de las instrucciones

Cuando escribís las instrucciones del sistema, hay dos formas de equivocarse. Una es ser demasiado vago ("ayudame con el código"): el agente no tiene señales concretas y adivina. La otra es ser demasiado rígido, llenando todo de reglas frágiles que se rompen apenas cambia algo. La "altura correcta" está en el medio: específico para guiar, flexible para que el agente piense.

Una técnica que funciona muy bien es separar la instrucción en bloques con títulos claros, así el modelo navega tu pedido sin perderse:

<CONTEXTO>
Sos un analista de marketing que trabaja con una PyME de e-commerce en Argentina.
Vendemos indumentaria. Cliente típico: 25-40 años, compra desde el celular.
</CONTEXTO>

<INSTRUCCIONES>
- Escribí en español rioplatense, tono cercano y directo.
- Cada recomendación tiene que ser accionable esta semana, sin presupuesto extra.
- Si te falta un dato para decidir, preguntá antes de inventar.
</INSTRUCCIONES>

<FORMATO_DE_SALIDA>
Devolvé una tabla: Acción | Impacto esperado | Esfuerzo (bajo/medio/alto).
</FORMATO_DE_SALIDA>

Esa estructura no es decorativa: le marca al modelo dónde está el fondo, dónde las reglas y dónde lo que tenés que entregar. Reduce muchísimo las respuestas que se van por las ramas.

Calidad, no cantidad: qué incluir y qué dejar afuera

El mito de que "ventanas de contexto más grandes resuelven todo" ya está desmentido. El principio que tenés que grabarte es informatividad por encima de exhaustividad: incluí lo que importa para la decisión que el modelo tiene que tomar ahora, y dejá afuera el resto.

Esto importa por dos razones. El costo y el tiempo crecen de forma desproporcionada con el tamaño del contexto: pasar de 200 mil a 400 mil tokens no cuesta el doble, cuesta mucho más. Y la calidad empieza a caer pasado cierto punto aunque la ventana técnicamente aguante más.

Un ejemplo práctico: si querés que la IA redacte la respuesta a un reclamo, no le pegues los 40 correos del cliente desde 2019. Pasale solo el reclamo actual, la política relevante y dos ejemplos de cómo respondés vos. Menos ruido, mejor resultado.

El problema del "perdido en el medio"

Los modelos prestan atención de forma despareja. Le dan mucha importancia al principio y al final de lo que les pasás, y bastante menos al medio. La información enterrada en el centro de un texto largo puede tener entre 10% y 40% menos de chances de ser recordada con precisión.

La consecuencia es directa: poné lo crítico al principio o al final. Si tu prompt tiene muchas reglas, no dejes la más importante en el párrafo del medio.

[ARRIBA — máxima atención]
REGLA INNEGOCIABLE: nunca prometas plazos de entrega menores a 72 horas.

[MEDIO — atención baja]
Detalles de estilo, ejemplos de tono, plantillas de saludo, aclaraciones varias.

[ABAJO — máxima atención]
RECORDATORIO ANTES DE RESPONDER: revisá que no hayas prometido menos de 72 horas
y que la respuesta esté en español rioplatense.

Repetir la regla clave arriba y abajo, y mandar el "relleno" al medio, es una de las jugadas más baratas y efectivas que existen.

Carga progresiva: traé la info cuando hace falta

En lugar de meter toda la documentación de entrada, conviene trabajar como trabaja una persona: no memorizás la biblioteca entera, sabés dónde buscar y vas a buscar solo cuando lo necesitás. Eso se llama divulgación progresiva o carga "justo a tiempo".

En la práctica, le das referencias livianas (nombres de archivos, links, resúmenes) y dejás que cargue el contenido completo solo cuando la tarea lo pide. El contexto queda liviano y rápido, sin perder acceso a lo demás.

En vez de pegar los tres manuales completos, dale esto al agente:

- resumen-producto.md        (panorama general, cargar siempre)
- politica-devoluciones.md   (cargar SOLO si la consulta es sobre devoluciones)
- guia-tecnica-instalacion.md (cargar SOLO si preguntan cómo instalar)

Instrucción: leé primero el resumen. Abrí los otros archivos únicamente
si la consulta del cliente lo requiere. No los cargues "por las dudas".

Lo mejor suele ser una estrategia híbrida: precargás lo estable y siempre necesario (las reglas del proyecto, la identidad del agente) y dejás que explore bajo demanda lo que cambia o es muy específico.

Cuando el contexto se pudre: patrones de degradación

A medida que el contexto crece, aparecen fallas predecibles. Conviene reconocerlas para poder diagnosticarlas:

Envenenamiento (poisoning): un error o un dato inventado entra al contexto y se repite, reforzándose solo. Cada decisión siguiente se apoya en el error. Síntoma típico: el mismo error aparece una y otra vez aunque lo corrijas.
Distracción: con tanto texto, el modelo le da bola a información irrelevante en vez de a su propio conocimiento. Ojo: alcanza con un solo documento de más para empeorar el resultado.
Confusión: el agente mezcla requisitos de tareas distintas. Pasa mucho cuando arrancás un tema nuevo en la misma conversación sin limpiar lo anterior.
Choque (clash): dos datos correctos pero contradictorios conviven en el contexto (por ejemplo, una política vieja y una nueva) y el agente no sabe a cuál hacerle caso.

La señal más práctica de degradación: el agente empieza a fallar en tareas que antes hacía bien. Cuando veas eso, no insistas con más prompts encima del mismo hilo. Limpiá el contexto.

El marco para gestionar el contexto: escribir, elegir, comprimir, aislar

Frente a un contexto que crece, tenés cuatro herramientas. Memorizá estos cuatro verbos:

Escribir (write): sacá información de la conversación y guardala afuera (un archivo, una nota, un documento de estado). El contexto activo queda liviano y la info sigue disponible.
Elegir (select): traé solo lo relevante con búsqueda y filtrado. Ataca la distracción dejando afuera lo que no suma.
Comprimir (compress): resumí para ocupar menos sin perder lo esencial. Por ejemplo, reemplazar un resultado largo por sus tres conclusiones.
Aislar (isolate): dividí el trabajo en sub-agentes o sesiones separadas para que ningún contexto crezca tanto como para degradarse. Es la jugada más agresiva y, muchas veces, la más efectiva.

El aislamiento es especialmente útil cuando una tarea grande se parte en partes independientes. En vez de un solo agente que hace todo y se satura, tenés un coordinador con contexto liviano que reparte el trabajo:

COORDINADOR (contexto liviano)
  - Entiende el objetivo general y reparte tareas.
  - No carga el detalle de cada subtarea.

SUB-AGENTE "redacción" (contexto aislado)
  - Recibe solo: el tema, el tono y el público.
  - Devuelve el texto y nada más.

SUB-AGENTE "verificación de datos" (contexto aislado)
  - Recibe solo: el texto y las fuentes a chequear.
  - Devuelve: qué afirmaciones son correctas y cuáles no.

Cuando le pasás trabajo a un sub-agente, sé breve y concreto. No le cuentes toda la historia del proyecto: dale el objetivo y el formato de salida. "Revisá este texto y devolvé los errores de datos en una lista" rinde mucho más que doscientas palabras de antecedentes que no va a usar.

Próximo paso

Agarrá un prompt que uses seguido y aplicale una sola cosa de esta guía: subí tu regla más importante al principio, sacá del medio todo lo que sea relleno y repetí lo crítico al final. Vas a notar la diferencia en la próxima respuesta. Si querés que veamos juntos cómo armar el contexto de tus agentes para tu caso real, reservá una llamada en /agenda y lo trabajamos en vivo.