El MIT documentó que el 95% de los pilotos de IA generativa no cambia el P&L. No porque la tecnología no funcione. Porque nadie sabe llevarla de piloto a operación real.
El MIT Digital Business Center publicó la cifra que hoy aparece en cada conversación de junta directiva mid-market en Latinoamérica. Solo el 5% de los pilotos de IA generativa que entran al ciclo discovery, sandbox, demo cruza al otro lado: la operación productiva con métricas medibles en P&L. El otro 95% queda en la presentación.
La cifra no es sobre la tecnología. La tecnología funciona. Los modelos están disponibles, los stacks son maduros, las APIs son estables. El 95% falla por una razón distinta, y entender esa razón es la diferencia entre una empresa que invierte el próximo trimestre y otra que se queda explicando un piloto que nunca operó.
El patrón en cinco fases
Primero, el entusiasmo. La empresa identifica una iniciativa de IA con potencial alto: automatización de un proceso administrativo, agente de servicio al cliente, sistema de scoring de crédito. Hay champions internos. Hay presupuesto. La conversación es honesta.
Segundo, el piloto. Se contrata un proveedor externo, se acota el alcance, se define una demostración. El proveedor cobra por entregar el demo, no por producir. La definición de éxito está atada a funciona en sandbox, no a funciona en producción.
Tercero, el reporte. El piloto demuestra que el modelo funciona. Se hace una presentación a la junta. Hay aplausos. Aparece la frase siguiente paso: escalar.
Cuarto, la promesa de escalar. Surge la pregunta sobre arquitectura, integración, equipos, monitoreo, governance. El proveedor original se desacopla porque su contrato terminó en el demo. La empresa busca quien escale. No encuentra. O encuentra cotizaciones que duplican el costo del piloto. Los champions internos pierden tracción.
Quinto, el silencio. Pasa un trimestre. Otro. Aparece otra iniciativa. Se repite el ciclo. El P&L no cambia.
Las tres causas raíz
La primera causa es estructural: la arquitectura del piloto se diseña como POC, no como sistema de producción. Sin telemetría real, sin pipeline de datos sostenible, sin governance, sin monitoreo. Cuando llega el momento de escalar, el sistema no escala porque no fue diseñado para escalar. Hay que reconstruir desde cero.
La segunda causa es de capacidades: nadie en la empresa tiene experiencia llevando IA a producción real. El equipo de tecnología sabe operar la infraestructura existente. El equipo de negocio sabe diseñar procesos. Pero la frontera donde la IA se inserta en una operación real, con error rates aceptables, con feedback loops, con auditoría regulatoria, es un perfil técnico-estratégico que las empresas medianas raramente tienen interno.
La tercera causa es comercial: el proveedor que cobra por demo cumplió su contrato cuando el demo funcionó. Su modelo de negocio no está alineado con producción. Cuando la empresa pide la fase 2, el proveedor cotiza una propuesta nueva con presupuesto distinto, y a menudo la conversación de continuidad se rompe.
El piloto que pasa a producción no se diseña como piloto. Se diseña como producción desde la propuesta inicial.
Las cuatro preguntas que separan el 5% del 95%
Antes de aprobar un proyecto de IA en una empresa mediana, cuatro preguntas filtran el 95% de los pilotos que no van a llegar.
Primera. ¿La arquitectura propuesta corre en stack producción desde el día uno, o en sandbox aislado? Si la respuesta es sandbox, el costo de la fase 2 será mayor que el costo del piloto entero. Si la respuesta es stack producción con configuración limitada, el camino a escalar es lineal.
Segunda. ¿Hay un plan de monitoreo operativo definido en la propuesta? Métricas de error rate, latencia, costo por inferencia, drift del modelo. Si esos términos no aparecen en el alcance, el proveedor está vendiendo demo, no producción.
Tercera. ¿Hay un equipo definido para mantener el sistema después del go-live? Interno, externo, mixto. Si no hay equipo, no hay producción. Hay un piloto en pausa.
Cuarta. ¿El proveedor cobra por outcome o por entregable? Outcome significa que la cuenta solo se cierra cuando el sistema produce métricas en P&L. Entregable significa que la cuenta se cierra cuando el demo funciona. La diferencia decide el siguiente trimestre.
Lo que está bajo control
El 5% que sí llega a producción no es un misterio. Es disciplina operativa que se puede contratar o construir. Las decisiones concretas: arquitectura desde día uno alineada con stack productivo, plan de monitoreo y governance escrito en la propuesta inicial, equipo interno o externo definido para post go-live, contrato con cláusulas de outcome no de entregable, y un punto único de coordinación operativa entre las funciones técnicas y de negocio.
Cuando esos cinco elementos están escritos en la propuesta antes de empezar, la probabilidad de cruzar al 5% sube significativamente. Cuando faltan, la empresa está pagando para participar en el 95%.