La navaja suiza de AI - ComfyUI

 

En nuestra oficina procuramos integrar la inteligencia artificial generativa en los procesos de diseño arquitectónico, desde la generación estocástica de imágenes hacia flujos de trabajo controlados así como la iteración precisa de proyectos ya definidos.

Workflow para inpainting en Visualización Arquitectónica mediante Modelos de Difusión Flux

El objetivo primordial de esta investigación es la preservación rigurosa de la geometría estructural propuesta en la fase de diseño, delegando la inferencia de materialidades complejas a la inteligencia artificial. Esta síntesis controlada se logra mediante la orquestación de dos mecanismos críticos:

  1. Técnicas de Inpainting Selectivo: A diferencia de la generación global, el inpainting actúa como una restricción espacial, delimitando con precisión las áreas susceptibles de modificación y protegiendo la integridad del contexto y la base.

  2. Condicionamiento Semántico Avanzado: A través de prompts estructurados (positivos y negativos) y el uso de modelos CLIP, se guía al motor generativo para que interprete y aplique texturas y condiciones lumínicas específicas, traduciendo descripciones abstractas en representaciones visuales fotorrealistas sin alterar la volumetría de referencia.

2.Metodología del Flujo de Trabajo (Workflow)

La integración de la inteligencia artificial generativa en los procesos de diseño arquitectónico ha evolucionado desde la generación estocástica de imágenes hacia flujos de trabajo estructurados que permiten procesos controlados de iteración de ideas.

Generación Estocástica vs. Sistemas Deterministas

2.1 Definición de Área de Intervención (Máscara)

La fase inicial consiste en la carga de la imagen base y la delimitación de la zona de trabajo mediante la creación de una máscara. A diferencia de los procesos de img2img tradicionales que afectan a la totalidad del lienzo, esta metodología emplea un sistema de enmascarado selectivo.

  • Imagen Base: Se parte de una volumetría o fotografía existente.

  • Máscara de Inpainting: Se define explícitamente la región de interés.

Definición de Área de Intervención (Máscara)

2.2 Configuración del Modelo y Ajuste Estilístico

Esta etapa del proceso se enfoca en la preparación del motor de inteligencia artificial y sus herramientas complementarias. Es la fase fundamental donde se dota al sistema de la capacidad necesaria para reconocer la estructura en la imagen base y entender cómo aplicar los nuevos materiales y estilos solicitados.

Se emplea como modelo central Flux.1 Dev, seleccionado por su superioridad en la adherencia a instrucciones complejas. Sin embargo, el modelo base por sí solo puede resultar genérico. Para orientar la generación hacia una estética específica sin incurrir en el costo computacional de un reentrenamiento completo, se implementa la técnica de Adaptación de Bajo Rango (LoRA - Low-Rank Adaptation).

Un modelo LoRA específico es agregado en el flujo. Este componente actúa como un modificador de peso en las capas de atención del modelo principal, orientando los resultados hacia el estilo deseado. El parámetro de "peso" (weight) en el nodo de carga del LoRA es crítico, ya que determina la intensidad de esta influencia estilística sobre la capacidad generalista del modelo base Flux.

El rango operativo de este parámetro va desde 0.0 a 1.0, pero en la práctica se maneja dentro de intervalos específicos según el objetivo de la generación:

  1. Rango Estándar (0.0 a 1.0)

    • Valor 1.0: Representa la intensidad completa para la que fue entrenado el LoRA. El estilo aprendido se manifiesta con su máxima fidelidad.

    • Valores Intermedios (0.4 a 0.8): Permiten una mezcla equilibrada, donde el LoRA aporta carácter sin anular su capacidad para interpretar el condicionamiento semántico.

Valores Bajos (< 0.4): Resultan en influencias demasiado sutiles, casi imperceptibles.

Definición de modelo y LoRA

2.3 Condicionamiento Semántico Mediante Ingeniería de Prompts

Una vez definidos el modelo y LoRA, el producto del proceso generativo se define a través del condicionamiento semántico. Esta fase traduce la intención de diseño en vectores matemáticos (embeddings) que guiarán la síntesis de imagen dentro de las áreas enmascaradas. Se utiliza una estrategia dual de condicionamiento positivo y negativo.

  • Condicionamiento Positivo: La instrucción textual positiva no es una simple descripción, sino una estructura jerárquica diseñada para maximizar la atención del modelo sobre elementos específicos.

  1. Definición Estilística: Establecimiento del género de representación (ej. "Industrial-chic architectural photography").

  2. Paleta de Materialidad: Enumeración precisa de texturas dominantes y sus estados de conservación (ej. "weathered corten steel bridges", "raw timber slat ceilings", "large glass facade").

  3. Condiciones Atmosféricas y Lumínicas: Descripción de la interacción de la luz, natural o artificial, con la geometría (ej. "sunlight streaming inside, golden hour light").

  4. Detalles de Contexto y Entorno: Elementos secundarios que enriquecen la escena y anclan el edificio en una realidad plausible (ej. "indoor planters, concrete floors, busy street background").

  5. Atributos Fotográficos y de Composición: Definición explícita de las características técnicas de la captura para asegurar un resultado fotorrealista de grado profesional. Esto incluye tipo de lente, enfoque y resolución (ej. "wide-angle lens, eye-level shot, sharp focus across frame, 8k uhd, highly detailed").

  • Condicionamiento Negativo (El Espacio Repulsivo): Simultáneamente, se emplea un prompt negativo para definir un "espacio repulsivo" en el proceso de difusión. Su función no es describir la ausencia de objetos, sino instruir al modelo sobre qué artefactos generativos debe evitar activamente. Se incluyen términos relacionados con la degradación de la calidad visual (ej. "blurry, low quality, monochromatic, noisy") y aberraciones estructurales (ej. "deformed structures, unrecognizable structures, bad perspective"), asegurando que la trayectoria de muestreo converja hacia resultados visualmente coherentes.

  • Ambos condicionamientos son procesados por los nodos CLIP Text Encode y enviados al sampler como guías fundamentales para la generación.

Condicionamiento semántico positivo y negativo

2.4 Proceso de Muestreo Reconstrucción

La etapa final de la metodología es el proceso de muestreo (sampling), ejecutado en el nodo KSampler. En esta fase, el modelo de difusión emplea los condicionamientos semánticos (prompts) y las estructuras guías ajustadas (LoRA) para transformar una representación estocástica ruidosa en una imagen coherente dentro de las áreas delimitadas por la máscara.

El éxito de la intervención depende de la calibración de los parámetros del sampler. A continuación, se analizan los componentes determinantes de este proceso según la configuración observada en el flujo de trabajo:

2.4.1. Control de Aleatoriedad (Seed)

• Valor numérico que determina el patrón de ruido pseudoaleatorio de partida. Su fijación permite "congelar" la aleatoriedad, asegurando la replicabilidad de una imagen específica si el resto de parámetros se mantienen constantes.


2.4.2. Pasos (Steps)

• Número total de ciclos de refinamiento que ejecuta el modelo. Una mayor cantidad de pasos otorga al modelo más oportunidades para resolver detalles y texturas.

2.4.3. Escala CFG (Classifier-Free Guidance)

• Coeficiente que regula la rigidez con la que el modelo se adhiere a las instrucciones del prompt textual. Valores altos fuerzan una fidelidad semántica estricta al texto: valores más bajos otorgan mayor libertad interpretativa al modelo

2.4.4. Muestreador y programador (Sampler-Scheduler)

• El muestreador es el algoritmo numérico específico encargado de resolver las ecuaciones matemáticas del proceso de difusión paso a paso.

• El programador define el ritmo de la eliminación de ruido a lo largo de los pasos determinados (Steps).

2.4.5. Denoiser (Fuerza de Eliminación de Ruido)

• Define la intervención sobre la imagen de ruido base.

 
Anterior
Anterior

Rincones del hogar con un propósito