日韩精品一区第一页,久久精品亚洲一区二区,污的网站在线观看,亚洲精品中文字

科研進(jìn)展

當(dāng)前位置:首頁(yè) > 科學(xué)研究 > 科研進(jìn)展

科學(xué)島團(tuán)隊(duì)提出面向擴(kuò)散變換器的可控圖像生成方案

作者:曹可發(fā)布時(shí)間:2025-11-27【打印】【關(guān)閉】

近期,中國(guó)科學(xué)院合肥物質(zhì)院智能所謝成軍與張潔團(tuán)隊(duì)基于控制條件相關(guān)性分析,設(shè)計(jì)了面向擴(kuò)散變換器的可控圖像生成方案,相關(guān)研究成果以RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers為題AI領(lǐng)域CCF-A類會(huì)議Proceedings of the AAAI Conference on Artificial Intelligence (AAAI26)接收

擴(kuò)散變換器(Diffusion Transformer)近年來(lái)在文本生成圖像、文本生成視頻等任務(wù)中發(fā)揮著核心作用,其優(yōu)越的可擴(kuò)展性顯著推動(dòng)了生成模型的發(fā)展。然而,現(xiàn)有可控?cái)U(kuò)散變換器方法往往依賴笨重的控制分支,引入大量參數(shù)與計(jì)算開銷同時(shí)普遍忽視了不同Transformer層對(duì)控制信息敏感度存在差異,導(dǎo)致資源分配低效、算力利用不足等問(wèn)題。

針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了相關(guān)性引導(dǎo)的高效可控生成框架 RelaCtrl,在不犧牲生成質(zhì)量的前提下,以更加精煉、智能的方式將控制信號(hào)融入擴(kuò)散變換器。該框架首先定義并計(jì)算“ControlNet相關(guān)性得分”,通過(guò)在推理階段逐層跳過(guò)控制分支,系統(tǒng)評(píng)估各層控制對(duì)最終圖像質(zhì)量和控制精度的影響?;谶@一度量,RelaCtrl 可自適應(yīng)調(diào)整控制層的插入位置、參數(shù)規(guī)模與建模能力,有效削減冗余參數(shù)與重復(fù)計(jì)算,在控制能力與資源利用之間實(shí)現(xiàn)動(dòng)態(tài)平衡。在結(jié)構(gòu)設(shè)計(jì)上,團(tuán)隊(duì)進(jìn)一步以精心設(shè)計(jì)的二維隨機(jī)混合模塊(TDSM)替代傳統(tǒng)復(fù)制模塊中的自注意力機(jī)制和前饋網(wǎng)絡(luò)(FFN),構(gòu)建高效的詞元混合器與通道混合器,在保持表達(dá)能力的同時(shí)大幅壓縮計(jì)算成本。實(shí)驗(yàn)結(jié)果表明,與典型 ControlNet 方法相比,RelaCtrl 僅以約 15% 的參數(shù)量和計(jì)算復(fù)雜度即可獲得更優(yōu)的生成表現(xiàn),在多項(xiàng)定性與定量指標(biāo)上均展現(xiàn)出顯著優(yōu)勢(shì)。

碩士研究生曹可為論文第一作者,張潔副研究員為論文通訊作者。該工作在顯著降低參數(shù)量與計(jì)算成本的同時(shí)保持生成質(zhì)量,為AIGC領(lǐng)域提供了更高效、輕量化的可控生成解決方案。

論文鏈接:https://arxiv.org/abs/2502.14377

圖 1 可控圖像生成方案架構(gòu)圖


圖 2 相關(guān)性曲線的實(shí)驗(yàn)結(jié)果

表1 模型在不同控制條件下的實(shí)驗(yàn)結(jié)果


圖 3 不同可控生成方法的定性比較結(jié)果



附件下載

主站蜘蛛池模板: 手游| 包头市| 克山县| 贵州省| 徐闻县| 全南县| 永新县| 孝感市| 高唐县| 瓦房店市| 保山市| 龙山县| 泰宁县| 介休市| 普定县| 淮南市| 榕江县| 东乌珠穆沁旗| 西峡县| 台东市| 黄浦区| 珠海市| 庄浪县| 吐鲁番市| 宿松县| 阳东县| 双鸭山市| 西和县| 商城县| 岳普湖县| 广水市| 溧阳市| 东山县| 万源市| 图木舒克市| 云浮市| 东兴市| 浑源县| 洛宁县| 新兴县| 宾阳县|