Los 6 niveles de autonomía de la IA (2026): un marco práctico

2026-04-25 · Alex

Marco práctico de 6 niveles para la autonomía de la IA en 2026, sintetizando SAE J3016, Levels of AGI de DeepMind, la hoja de ruta de 5 niveles de OpenAI, el NIST AI RMF y la Ley de IA de la UE.

Del chatbot al agente autónomo, los sistemas de IA recorren hoy una escalera clara de independencia. Tomando prestado de los niveles SAE de conducción autónoma, los Levels of AGI de DeepMind y la hoja de ruta interna en 5 niveles de OpenAI, esta guía sitúa las herramientas actuales — y explica qué cambia en cada peldaño.

Por qué importa un marco por niveles

Cuando SAE International publicó J3016 en 2014 (revisado en 2021), dio a la industria del automóvil un vocabulario común: un Tesla en Autopilot es Nivel 2 (asistencia al conductor), un robotaxi de Waymo es Nivel 4 (alta autonomía en una zona definida). Esa única taxonomía acabó con una década de marketing confuso y permitió a los reguladores escribir reglas que apuntaban a la capacidad correcta.

La IA está hoy en la misma niebla en la que estaba el automóvil hacia 2012. Los proveedores llaman *agente* a casi cualquier cosa. Algunos son chatbots reactivos, otros ejecutan planes multietapa sobre sistemas reales. El paper Levels of AGI de Google DeepMind (Morris et al., 2024) y la hoja de ruta interna en 5 niveles de OpenAI (revelada por Bloomberg en julio de 2024) son los primeros intentos serios de dar a la IA la claridad que SAE dio a los coches.

Los 6 niveles, de L0 a L5

Sintetizando SAE J3016, *Levels of AGI* de DeepMind y las taxonomías de IA agéntica que surgen de Anthropic, Microsoft y Salesforce, una única escalera de 6 peldaños describe la mayoría de los sistemas reales desplegados hoy. La variable clave en cada paso no es la inteligencia bruta — es cuánta aprobación humana necesita el sistema antes de actuar.

La mayoría de las herramientas empresariales etiquetadas como *Copilot* o *Assistant* viven en L1 o L2. La mayoría de los productos etiquetados como *Agent* en 2026 son honestamente L3. Los verdaderos sistemas L4 (horizonte largo, autocorrectivos, operando sin aprobación paso a paso) son raros; el L5 (abierto, autodirigido) no existe aún fuera de demos de investigación. Saber en qué peldaño se sitúa realmente tu herramienta es lo que separa un despliegue seguro de una demanda en portada.

Qué cambia legal y operativamente en cada nivel

La autonomía no es solo una especificación de producto — desencadena regulación. La Ley de IA de la UE clasifica los sistemas por *riesgo*, pero sus obligaciones de transparencia y supervisión humana escalan de hecho con la autonomía: cuanto más hace el sistema por su cuenta, más tienes que informar a las personas y más de cerca debe poder supervisarlo un humano. Los estándares de seguridad y gestión de riesgos empujan en la misma dirección, pidiendo monitorización, registro y controles de reversión más estrictos a medida que se sube de L1 hacia L4.

La tensión central es simple: a mayor autonomía, más difícil es mantener el comportamiento real del agente alineado con lo que de verdad quieres — el problema de alineación. En L1 es trivial; en L4 domina el esfuerzo de ingeniería. Por eso los grandes laboratorios publican ahora políticas de seguridad que condicionan los despliegues de mayor autonomía al cumplimiento de umbrales de evaluación específicos, en lugar de lanzarlos solo por capacidad.

Cómo elegir tu nivel objetivo: un test de 4 preguntas

Entonces, ¿cómo eliges un peldaño de verdad? Cuando construimos los controles de autonomía dentro de Agentys, cada caso de uso candidato pasó por el mismo filtro de cuatro preguntas: reversibilidad, radio de impacto, observabilidad y tiempo de recuperación. Las respuestas te dicen el nivel más alto que puedes desplegar con seguridad — no el más bajo que tu modelo puede alcanzar técnicamente.

La mayoría de los equipos hace esto al revés. Empiezan preguntando *¿qué puede hacer el modelo?* y acaban en L4 porque la demo lucía impresionante. La pregunta correcta es *¿qué modo de fallo estoy suscribiendo?* — y la respuesta casi siempre te tira de vuelta a L2 o L3. Hemos visto decenas de pilotos fracasar así; los que despliegan y se mantienen son los que eligieron el peldaño *defensivamente* primero y solo subieron cuando los logs de auditoría demostraron que el peldaño inferior se había vuelto aburrido.

Elige el nivel de autonomía más bajo que resuelva tu problema, no el más alto que tu proveedor pueda venderte. La lección de SAE en automoción se traslada bien: la mayor parte del valor vive en L2 y L3, el precipicio de ingeniería y responsabilidad está entre L3 y L4, y casi nadie en 2026 necesita L5. Conocer el peldaño real en el que se sitúa tu IA es la primera auditoría que cualquiera que despliegue estos sistemas debería hacer.