首页 >> 知识 >> 基于 grounding 精细控制的文本

基于 grounding 精细控制的文本

2024-09-29 10:30:14 924

近年来，图像生成取得了显著的进展，扩散模型在该领域发挥着重要作用。像 DALL-E2 和 Stable Diffusion 这样的大规模文本到图像生成模型，可以根据文本输入创建复杂的图像，但它们只能基于文本输入进行条件生成，缺乏精确定位概念或使用参考图像来控制生成过程的能力，限制了信息的表达。

“精细化”可控图片生成，主要是使用包括文字和更精细化的控制条件（conditions），包括物体框、人体姿态、草图、边缘图、深度图等同时引导图片生成。

与 ControlNet、T2I-Adapter 这些模型相比，虽然 GLIGEN 同样不改变 Stable Diffusion 原始权重，通过新加模块处理 condition 。但 GLIGEN 中的 condition 并非直接在 unet feature 上做和，而是加入新的 attention 层来处理 condition（类似 text 的加入形式）。因此，GLIGEN 具有使用 bounding-box 控制生成的能力（因为可以加入 text 信息作为bounding-box label）。

由于新加入的模块参数量很小，GLIGEN几乎不会影响运行速度和显存占用（比T2I-Adapter、ControlNet快得多）。在bounding-box2image（layout2image）的生成中， GLIGEN 使用 CLIP encoder 可以做到 open-word 生成。

6月16日早10点，「AI新青年讲座」第214讲邀请到 GLIGEN 一作、威斯康星大学麦迪逊分校的在读博士李昱恒参与，主讲《基于grounding精细控制的文本-图像生成模型GLIGEN》。