近期,中國(guó)科學(xué)院合肥物質(zhì)院智能所謝成軍與張潔團(tuán)隊(duì)基于控制條件相關(guān)性分析,設(shè)計(jì)了面向擴(kuò)散變換器的可控圖像生成方案,相關(guān)研究成果以RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers為題被AI領(lǐng)域CCF-A類會(huì)議Proceedings of the AAAI Conference on Artificial Intelligence (AAAI26)接收。
擴(kuò)散變換器(Diffusion Transformer)近年來(lái)在文本生成圖像、文本生成視頻等任務(wù)中發(fā)揮著核心作用,其優(yōu)越的可擴(kuò)展性顯著推動(dòng)了生成模型的發(fā)展。然而,現(xiàn)有可控?cái)U(kuò)散變換器方法往往依賴笨重的控制分支,引入大量參數(shù)與計(jì)算開銷,同時(shí)普遍忽視了不同Transformer層對(duì)控制信息敏感度存在的差異,導(dǎo)致資源分配低效、算力利用不足等問(wèn)題。
針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了相關(guān)性引導(dǎo)的高效可控生成框架 RelaCtrl,在不犧牲生成質(zhì)量的前提下,以更加精煉、智能的方式將控制信號(hào)融入擴(kuò)散變換器。該框架首先定義并計(jì)算“ControlNet相關(guān)性得分”,通過(guò)在推理階段逐層跳過(guò)控制分支,系統(tǒng)評(píng)估各層控制對(duì)最終圖像質(zhì)量和控制精度的影響?;谶@一度量,RelaCtrl 可自適應(yīng)調(diào)整控制層的插入位置、參數(shù)規(guī)模與建模能力,有效削減冗余參數(shù)與重復(fù)計(jì)算,在控制能力與資源利用之間實(shí)現(xiàn)動(dòng)態(tài)平衡。在結(jié)構(gòu)設(shè)計(jì)上,團(tuán)隊(duì)進(jìn)一步以精心設(shè)計(jì)的二維隨機(jī)混合模塊(TDSM)替代傳統(tǒng)復(fù)制模塊中的自注意力機(jī)制和前饋網(wǎng)絡(luò)(FFN),構(gòu)建高效的詞元混合器與通道混合器,在保持表達(dá)能力的同時(shí)大幅壓縮計(jì)算成本。實(shí)驗(yàn)結(jié)果表明,與典型 ControlNet 方法相比,RelaCtrl 僅以約 15% 的參數(shù)量和計(jì)算復(fù)雜度即可獲得更優(yōu)的生成表現(xiàn),在多項(xiàng)定性與定量指標(biāo)上均展現(xiàn)出顯著優(yōu)勢(shì)。
碩士研究生曹可為論文第一作者,張潔副研究員為論文通訊作者。該工作在顯著降低參數(shù)量與計(jì)算成本的同時(shí)保持生成質(zhì)量,為AIGC領(lǐng)域提供了更高效、輕量化的可控生成解決方案。
論文鏈接:https://arxiv.org/abs/2502.14377

圖 1 可控圖像生成方案架構(gòu)圖

圖 2 相關(guān)性曲線的實(shí)驗(yàn)結(jié)果
表1 模型在不同控制條件下的實(shí)驗(yàn)結(jié)果


圖 3 不同可控生成方法的定性比較結(jié)果
