科學(xué)島團(tuán)隊(duì)提出面向擴(kuò)散變換器的可控圖像生成方案

作者：曹可發(fā)布時(shí)間：2025-11-27【打印】【關(guān)閉】

近期，中國(guó)科學(xué)院合肥物質(zhì)院智能所謝成軍與張潔團(tuán)隊(duì)基于控制條件相關(guān)性分析，設(shè)計(jì)了面向擴(kuò)散變換器的可控圖像生成方案，相關(guān)研究成果以RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers為題被AI領(lǐng)域CCF-A類會(huì)議Proceedings of the AAAI Conference on Artificial Intelligence (AAAI26)接收。

擴(kuò)散變換器（Diffusion Transformer）近年來(lái)在文本生成圖像、文本生成視頻等任務(wù)中發(fā)揮著核心作用，其優(yōu)越的可擴(kuò)展性顯著推動(dòng)了生成模型的發(fā)展。然而，現(xiàn)有可控?cái)U(kuò)散變換器方法往往依賴笨重的控制分支，引入大量參數(shù)與計(jì)算開銷，同時(shí)普遍忽視了不同Transformer層對(duì)控制信息敏感度存在的差異，導(dǎo)致資源分配低效、算力利用不足等問(wèn)題。

針對(duì)上述挑戰(zhàn)，研究團(tuán)隊(duì)提出了相關(guān)性引導(dǎo)的高效可控生成框架 RelaCtrl，在不犧牲生成質(zhì)量的前提下，以更加精煉、智能的方式將控制信號(hào)融入擴(kuò)散變換器。該框架首先定義并計(jì)算“ControlNet相關(guān)性得分”，通過(guò)在推理階段逐層跳過(guò)控制分支，系統(tǒng)評(píng)估各層控制對(duì)最終圖像質(zhì)量和控制精度的影響?；谶@一度量，RelaCtrl 可自適應(yīng)調(diào)整控制層的插入位置、參數(shù)規(guī)模與建模能力，有效削減冗余參數(shù)與重復(fù)計(jì)算，在控制能力與資源利用之間實(shí)現(xiàn)動(dòng)態(tài)平衡。在結(jié)構(gòu)設(shè)計(jì)上，團(tuán)隊(duì)進(jìn)一步以精心設(shè)計(jì)的二維隨機(jī)混合模塊（TDSM）替代傳統(tǒng)復(fù)制模塊中的自注意力機(jī)制和前饋網(wǎng)絡(luò)（FFN），構(gòu)建高效的詞元混合器與通道混合器，在保持表達(dá)能力的同時(shí)大幅壓縮計(jì)算成本。實(shí)驗(yàn)結(jié)果表明，與典型 ControlNet 方法相比，RelaCtrl 僅以約 15% 的參數(shù)量和計(jì)算復(fù)雜度即可獲得更優(yōu)的生成表現(xiàn)，在多項(xiàng)定性與定量指標(biāo)上均展現(xiàn)出顯著優(yōu)勢(shì)。

碩士研究生曹可為論文第一作者，張潔副研究員為論文通訊作者。該工作在顯著降低參數(shù)量與計(jì)算成本的同時(shí)保持生成質(zhì)量，為AIGC領(lǐng)域提供了更高效、輕量化的可控生成解決方案。

論文鏈接：https://arxiv.org/abs/2502.14377

圖 1 可控圖像生成方案架構(gòu)圖

圖 2 相關(guān)性曲線的實(shí)驗(yàn)結(jié)果

表1 模型在不同控制條件下的實(shí)驗(yàn)結(jié)果

圖 3 不同可控生成方法的定性比較結(jié)果

日韩精品一区第一页,久久精品亚洲一区二区,污的网站在线观看,亚洲精品中文字

科研進(jìn)展

科學(xué)島團(tuán)隊(duì)提出面向擴(kuò)散變換器的可控圖像生成方案

相關(guān)鏈接

附件下載