現(xiàn)在咨詢,獲得最前沿的AR產(chǎn)品
2025-11-19
編輯:劉余欣|分類(lèi):論文|2025年11月17日
(映維網(wǎng)Nweon 2025年11月17日)隨著生成式AI在圖像創(chuàng)建領(lǐng)域的快速發(fā)展,AI生成全景圖像因其在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛力而備受關(guān)注。然而,這類(lèi)圖像存在的獨(dú)特質(zhì)量問(wèn)題,如幾何扭曲、語(yǔ)義不合理性以及文本-圖像對(duì)應(yīng)性差,嚴(yán)重影響了沉浸式用戶體驗(yàn)。當(dāng)前,缺乏專(zhuān)門(mén)用于系統(tǒng)評(píng)估和優(yōu)化AI生成全景圖像(AIGODIS)質(zhì)量的數(shù)據(jù)集和計(jì)算方法。
為解決這一問(wèn)題,上海交通大學(xué),天津大學(xué),華東師范大學(xué),法國(guó)南特大學(xué)團(tuán)隊(duì)構(gòu)建了首個(gè)綜合性人類(lèi)反饋數(shù)據(jù)庫(kù)OHF2024,并基于此提出了兩個(gè)新型計(jì)算模型:BLIP2OIQA(用于圖像質(zhì)量評(píng)估)和BLIP2OISal(用于失真感知顯著性預(yù)測(cè))。這項(xiàng)研究首次實(shí)現(xiàn)了對(duì)AIGODIS的多維度質(zhì)量度量、局部失真區(qū)域的精準(zhǔn)定位,以及基于反饋的自動(dòng)化圖像優(yōu)化。

研究團(tuán)隊(duì)系統(tǒng)地構(gòu)建了OHF2024數(shù)據(jù)庫(kù),其流程如下:
● 數(shù)據(jù)生成:研究從50個(gè)涵蓋室內(nèi)外場(chǎng)景的文本提示詞出發(fā),采用了五種代表性的生成模型(MVDiffusion, Text2Light, DALLE, omni-inpainting, 及一個(gè)微調(diào)的Stable Diffusion模型)進(jìn)行圖像生成,最終獲得600張AIGODIS,確保了數(shù)據(jù)源的多樣性。
● 主觀實(shí)驗(yàn)設(shè)計(jì):在嚴(yán)格控制的實(shí)驗(yàn)環(huán)境下,20名具有正?;虺C正視力的受試者使用HTC VIVE Pro Eye頭戴式顯示器,對(duì)每張圖像從三個(gè)預(yù)定義的維度進(jìn)行評(píng)分:
● 質(zhì)量:評(píng)估顏色、光照、清晰度等低層視覺(jué)屬性。
● 舒適度:評(píng)估由圖像失真、結(jié)構(gòu)變形等引起的視覺(jué)不適感,該維度對(duì)VR/AR應(yīng)用至關(guān)重要。
● 對(duì)應(yīng)性:評(píng)估生成圖像與輸入文本提示詞的語(yǔ)義一致性。
● 失真感知標(biāo)注:除了評(píng)分,受試者還通過(guò)手柄點(diǎn)擊提供了圖像中嚴(yán)重失真區(qū)域的坐標(biāo)數(shù)據(jù)。這些數(shù)據(jù)經(jīng)處理后生成了600張連續(xù)的失真感知顯著圖,為模型訓(xùn)練提供了像素級(jí)的監(jiān)督信號(hào)。
● 數(shù)據(jù)處理與統(tǒng)計(jì)分析:主觀評(píng)分遵循ITU-R BT.500標(biāo)準(zhǔn)進(jìn)行異常值剔除和Z-score歸一化,最終計(jì)算得到每個(gè)圖像的三個(gè)平均意見(jiàn)得分(MOS)。統(tǒng)計(jì)分析表明,三個(gè)評(píng)估維度間的斯皮爾曼秩相關(guān)系數(shù)僅為中等或弱相關(guān)(0.4-0.61),證實(shí)了多維度評(píng)估框架的必要性。
BLIP2OIQA模型旨在精確預(yù)測(cè)人類(lèi)在三個(gè)維度上的視覺(jué)體驗(yàn)分?jǐn)?shù)。其技術(shù)架構(gòu)包含以下核心組件:
● 視口分割與特征提?。耗P褪紫葘⑤斎氲牡染嘀鶢钔队叭皥D渲染為六個(gè)視口圖像(上、下、前、后、左、右,F(xiàn)OV=110°)。每個(gè)視口圖像與文本提示詞一同輸入一個(gè)基于BLIP-2構(gòu)建的共享編碼器。該編碼器利用其Q-Former模塊,通過(guò)交叉注意力機(jī)制,生成每個(gè)視口的文本-圖像融合特征。
● 注意力特征聚合模塊:該模塊模擬人類(lèi)瀏覽全景圖時(shí)的認(rèn)知過(guò)程。首先,自注意力層捕捉每個(gè)視口內(nèi)部的質(zhì)量信息。隨后,三個(gè)獨(dú)立的交叉注意力層(權(quán)重不共享)分別處理視口間特征,專(zhuān)門(mén)用于提取與“質(zhì)量”、“舒適度”和“對(duì)應(yīng)性”相關(guān)的全局一致性信息。例如,舒適度交叉注意力層會(huì)重點(diǎn)關(guān)注視口間的幾何連貫性和風(fēng)格一致性。
● 分?jǐn)?shù)回歸:聚合后的三個(gè)視角感知特征向量,分別通過(guò)三個(gè)獨(dú)立的多層感知機(jī)(MLP)回歸頭,映射為最終的維度分?jǐn)?shù)。訓(xùn)練中使用L1損失函數(shù)直接優(yōu)化預(yù)測(cè)分?jǐn)?shù)與MOS之間的差異。
BLIP2OISal模型的任務(wù)是輸出一張與輸入全景圖分辨率相同的顯著圖,高亮顯示存在嚴(yán)重失真的視覺(jué)顯著區(qū)域。與BLIP2OIQA不同,該模型將整張全景圖(不進(jìn)行視口分割)與文本提示詞輸入共享編碼器,以獲得全局的文本-圖像融合特征,并保留編碼過(guò)程中產(chǎn)生的多層圖像特征以提供空間細(xì)節(jié)。
團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)以驗(yàn)證模型性能。對(duì)于IQA性能,在OHF2024測(cè)試集上,BLIP2OIQA在質(zhì)量、舒適度、對(duì)應(yīng)性三個(gè)維度的評(píng)估中,其斯皮爾曼秩相關(guān)系數(shù)(SRCC)和皮爾遜線性相關(guān)系數(shù)(PLCC)均顯著優(yōu)于包括MANIQA、HyperIQA等在內(nèi)的21種先進(jìn)無(wú)參考IQA模型。交叉生成模型測(cè)試進(jìn)一步證明了其良好的泛化能力。

對(duì)于顯著性預(yù)測(cè)性能,BLIP2OISal在失真感知任務(wù)上,在CC、NSS、KLD等多個(gè)關(guān)鍵指標(biāo)上全面超越了20種傳統(tǒng)及深度學(xué)習(xí)顯著性預(yù)測(cè)模型,表明其能更有效地定位與失真相關(guān)的視覺(jué)注意力區(qū)域。
另外,消融研究顯示,通過(guò)系統(tǒng)性移除模型組件(如視口分割、注意力模塊、特征融合模塊等)的實(shí)驗(yàn),證實(shí)了所提出架構(gòu)中每個(gè)核心組件的有效性,尤其是交叉注意力機(jī)制和文本-圖像特征融合對(duì)性能提升貢獻(xiàn)顯著。
同時(shí),研究團(tuán)隊(duì)演示了一個(gè)完整的自動(dòng)化優(yōu)化閉環(huán)。所述流程首先利用BLIP2OIQA篩選出低質(zhì)量圖像,隨后使用BLIP2OISal預(yù)測(cè)其失真區(qū)域并生成二值掩碼。將該掩碼與原始圖像輸入至MVDiffusion的修復(fù)模塊中,對(duì)指定區(qū)域進(jìn)行內(nèi)容重生成。定量與定性結(jié)果均顯示,優(yōu)化后的圖像在BLIP2OIQA預(yù)測(cè)分?jǐn)?shù)和后續(xù)人工評(píng)分上均有顯著提升,驗(yàn)證了該優(yōu)化流程的有效性。
相關(guān)論文:Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images
https://arxiv.org/pdf/2506.21925
這項(xiàng)研究通過(guò)構(gòu)建高質(zhì)量的OHF2024數(shù)據(jù)庫(kù)和提出性能卓越的BLIP2系列模型,為解決AI生成全景圖像的質(zhì)量評(píng)估與優(yōu)化問(wèn)題提供了首個(gè)端到端的解決方案。它不僅推動(dòng)了沉浸式媒體內(nèi)容質(zhì)量評(píng)估領(lǐng)域的研究進(jìn)展,同時(shí)為AIGC在VR/AR產(chǎn)業(yè)中的實(shí)際應(yīng)用提供了關(guān)鍵的工具和方法。
轉(zhuǎn)載聲明:
本文轉(zhuǎn)載自映維網(wǎng)【劉余欣】,于2025年11月17日首發(fā),原文鏈接:
文章所用圖片、視頻均來(lái)自文章關(guān)聯(lián)個(gè)人、企業(yè)實(shí)體等提供
若本轉(zhuǎn)載內(nèi)容存在侵權(quán)情形(包括但不限于未經(jīng)授權(quán)轉(zhuǎn)載、內(nèi)容版權(quán)爭(zhēng)議等),請(qǐng)版權(quán)相關(guān)方及時(shí)與我方聯(lián)系,我方在核實(shí)相關(guān)情況后,將第一時(shí)間刪除該內(nèi)容,以保障您的合法權(quán)益