construimos un traductor que convierte el bloqueo gris — renders greybox de arcilla/matcap que salen directo de un programa 3d, con cámara y geometría exactas, sin materiales ni luz — en planos cinematográficos pintados y terminados, mediante generación image-to-image.

el truco

el truco está en el papel que juega el greybox. no es un vibe. es una restricción dura. al generador se le dice, en lenguaje claro: esta es la geometría, la cámara y el layout finales. los colores pastel del matcap son ids de material, no colores finales. mantén cada contorno, silueta y posición de cámara exactamente. solo viste las formas con el estilo. la arcilla carga la composición; el modelo solo decide la pintura.

el pipeline: exportar la arcilla → alimentarla como referencia de estructura → apilar el prompt en un orden fijo (universo → dirección de arte → tratamiento → "realízalo por completo" → bloqueo de estructura → las reglas → lectura de escena → notas creativas → negativo) → recibir un plano que calca el layout exactamente pero está completamente pintado.

antes / después

la herramienta trae un slider de barrido para que puedas arrastrar entre los dos estados, y quedarte con cualquiera de los lados:

la misma toma, vestida como un plano cinematográfico nocturno pintado
el bloqueo de arcilla gris — geometría y cámara exactas, sin materiales ni luz
‹›
bloqueorender
una toma amplia del lab. arrastra el divisor — arcilla gris a la izquierda, plano pintado a la derecha. luego cambia la hora: mismos huesos, distinta pintura.
  • izquierda (bloqueo): arcilla gris plana. formas correctas, cámara correcta, profundidad correcta — y cero alma. una escena 3d con las luces apagadas.
  • derecha (render): el mismo cuadro, las mismas siluetas, la misma cámara, ahora un plano cinematográfico pintado y atmosférico — escalones de valor, charcos de luz cálida, atmósfera — sin que un solo contorno se haya movido.
  • y como cada variante es seleccionable en ambos lados, también puedes barrer render contra render: la misma geometría como noche, amanecer, en llamas, recuperada por la naturaleza. mismos huesos, distinta hora. esa es la toma que lo demuestra — hace que "la estructura está bloqueada, solo cambió el tratamiento" sea algo que puedes ver, no solo afirmar.

la lección

la forma usual de sacarle una composición específica a un modelo de imagen es describirla en palabras y volver a tirar hasta que caigan bien los dados — peleas con el modelo por la cámara y el layout en cada generación, y se desvía cada vez. dale al modelo la geometría como un input real y dejas de apostar en la parte que ya conoces. decides la composición río arriba, donde tienes herramientas de verdad (un viewport 3d), y gastas el modelo solo en aquello en lo que de verdad es bueno: superficies, luz, atmósfera.

deja de pedirle a la máquina tragamonedas que también sea tu camarógrafo.

deja que cada herramienta haga aquello en lo que de verdad es buena.

el problema

tiene modos de fallo reales, y fingir lo contrario sería puro hype.

  • "demasiado literal" — vuelve como arcilla teñida. los bloqueos escasos, centrados en objetos y con dirección débil hacen que el modelo solo recoloree el greybox en vez de realizarlo. el arreglo no es sutil: pon la dirección de arte al frente con énfasis ("un cuadro cinematográfico pintado, no un recoloreo de arcilla gris"), y prohíbe explícitamente "render 3d crudo / recoloreo" en el negativo. hay que subir la restricción y la creatividad juntas.
  • el estilo hay que fijarlo o se desvía. "pictórico" se fue demasiado suelto y se salió del modelo; 3d/pbr completo quedó demasiado fotorrealista. aterrizar un look específico y con nombre — con cuadros de referencia — fue la diferencia entre una salida consistente y un estilo distinto en cada tirada.
  • hay cosas que simplemente no puede hacer — así que no se las pidas. hay un elemento característico en este mundo que el modelo no logra renderizar de forma convincente. la respuesta no es un mejor prompt, es: prohibirlo del todo en el negativo, mantener limpia la salida de la ia, y agregar ese elemento a mano después. saber qué 5% mantener fuera de las manos de la máquina.
  • los personajes y la continuidad todavía necesitan a un humano. agregar figuras a una escena es una ruptura controlada del bloqueo de estructura y necesita supervisión; mantener un mismo conjunto consistente a través de varios ángulos de cámara no está probado — eso es una pasada de juicio humano, no algo que el traductor cierre por sí solo todavía.

en resumen: le quita el azar a la composición. no le quita el gusto, la dirección de arte ni la pasada humana final. hace que la máquina sea confiable en el único trabajo para el que la restringiste — que es justamente el punto.