近年来,图像生成取得了显著的进展,扩散模型在该领域发挥着重要作用。像 DALL-E2 和 Stable Diffusion 这样的大规模文本到图像生成模型,可以根据文本输入创建复杂的图像,但它们只能基于文本输入进行条件生成,缺乏精确定位概念或使用参考图像来控制生成过程的能力,限制了信息的表达。
“精细化”可控图片生成,主要是使用包括文字和更精细化的控制条件(conditions),包括物体框、人体姿态、草图、边缘图、深度图等同时引导图片生成。
与 ControlNet、T2I-Adapter 这些模型相比,虽然 GLIGEN 同样不改变 Stable Diffusion 原始权重,通过新加模块处理 condition 。但 GLIGEN 中的 condition 并非直接在 unet feature 上做和,而是加入新的 attention 层来处理 condition(类似 text 的加入形式)。因此,GLIGEN 具有使用 bounding-box 控制生成的能力(因为可以加入 text 信息作为bounding-box label)。
由于新加入的模块参数量很小,GLIGEN几乎不会影响运行速度和显存占用(比T2I-Adapter、ControlNet快得多)。在bounding-box2image(layout2image)的生成中, GLIGEN 使用 CLIP encoder 可以做到 open-word 生成。
6月16日早10点,「AI新青年讲座」第214讲邀请到 GLIGEN 一作、威斯康星大学麦迪逊分校的在读博士李昱恒参与,主讲《基于grounding精细控制的文本-图像生成模型GLIGEN》。
