上海交大等團(tuán)隊(duì)構(gòu)建OHF2024數(shù)據(jù)庫(kù)并提出BLIP2模型評(píng)估與優(yōu)化AI生成全景圖像質(zhì)量

2025-11-19

編輯：劉余欣|分類(lèi)：論文|2025年11月17日

（映維網(wǎng)Nweon 2025年11月17日）隨著生成式AI在圖像創(chuàng)建領(lǐng)域的快速發(fā)展，AI生成全景圖像因其在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛力而備受關(guān)注。然而，這類(lèi)圖像存在的獨(dú)特質(zhì)量問(wèn)題，如幾何扭曲、語(yǔ)義不合理性以及文本-圖像對(duì)應(yīng)性差，嚴(yán)重影響了沉浸式用戶體驗(yàn)。當(dāng)前，缺乏專(zhuān)門(mén)用于系統(tǒng)評(píng)估和優(yōu)化AI生成全景圖像（AIGODIS）質(zhì)量的數(shù)據(jù)集和計(jì)算方法。

為解決這一問(wèn)題，上海交通大學(xué)，天津大學(xué)，華東師范大學(xué)，法國(guó)南特大學(xué)團(tuán)隊(duì)構(gòu)建了首個(gè)綜合性人類(lèi)反饋數(shù)據(jù)庫(kù)OHF2024，并基于此提出了兩個(gè)新型計(jì)算模型：BLIP2OIQA（用于圖像質(zhì)量評(píng)估）和BLIP2OISal（用于失真感知顯著性預(yù)測(cè)）。這項(xiàng)研究首次實(shí)現(xiàn)了對(duì)AIGODIS的多維度質(zhì)量度量、局部失真區(qū)域的精準(zhǔn)定位，以及基于反饋的自動(dòng)化圖像優(yōu)化。

研究團(tuán)隊(duì)系統(tǒng)地構(gòu)建了OHF2024數(shù)據(jù)庫(kù)，其流程如下：

● 數(shù)據(jù)生成：研究從50個(gè)涵蓋室內(nèi)外場(chǎng)景的文本提示詞出發(fā)，采用了五種代表性的生成模型（MVDiffusion, Text2Light, DALLE, omni-inpainting, 及一個(gè)微調(diào)的Stable Diffusion模型）進(jìn)行圖像生成，最終獲得600張AIGODIS，確保了數(shù)據(jù)源的多樣性。

● 主觀實(shí)驗(yàn)設(shè)計(jì)：在嚴(yán)格控制的實(shí)驗(yàn)環(huán)境下，20名具有正?；虺C正視力的受試者使用HTC VIVE Pro Eye頭戴式顯示器，對(duì)每張圖像從三個(gè)預(yù)定義的維度進(jìn)行評(píng)分：

● 質(zhì)量：評(píng)估顏色、光照、清晰度等低層視覺(jué)屬性。

● 舒適度：評(píng)估由圖像失真、結(jié)構(gòu)變形等引起的視覺(jué)不適感，該維度對(duì)VR/AR應(yīng)用至關(guān)重要。

● 對(duì)應(yīng)性：評(píng)估生成圖像與輸入文本提示詞的語(yǔ)義一致性。

● 失真感知標(biāo)注：除了評(píng)分，受試者還通過(guò)手柄點(diǎn)擊提供了圖像中嚴(yán)重失真區(qū)域的坐標(biāo)數(shù)據(jù)。這些數(shù)據(jù)經(jīng)處理后生成了600張連續(xù)的失真感知顯著圖，為模型訓(xùn)練提供了像素級(jí)的監(jiān)督信號(hào)。

● 數(shù)據(jù)處理與統(tǒng)計(jì)分析：主觀評(píng)分遵循ITU-R BT.500標(biāo)準(zhǔn)進(jìn)行異常值剔除和Z-score歸一化，最終計(jì)算得到每個(gè)圖像的三個(gè)平均意見(jiàn)得分（MOS）。統(tǒng)計(jì)分析表明，三個(gè)評(píng)估維度間的斯皮爾曼秩相關(guān)系數(shù)僅為中等或弱相關(guān)（0.4-0.61），證實(shí)了多維度評(píng)估框架的必要性。

BLIP2OIQA模型旨在精確預(yù)測(cè)人類(lèi)在三個(gè)維度上的視覺(jué)體驗(yàn)分?jǐn)?shù)。其技術(shù)架構(gòu)包含以下核心組件：

● 視口分割與特征提?。耗Ｐ褪紫葘⑤斎氲牡染嘀鶢钔队叭皥D渲染為六個(gè)視口圖像（上、下、前、后、左、右，F(xiàn)OV=110°）。每個(gè)視口圖像與文本提示詞一同輸入一個(gè)基于BLIP-2構(gòu)建的共享編碼器。該編碼器利用其Q-Former模塊，通過(guò)交叉注意力機(jī)制，生成每個(gè)視口的文本-圖像融合特征。

● 注意力特征聚合模塊：該模塊模擬人類(lèi)瀏覽全景圖時(shí)的認(rèn)知過(guò)程。首先，自注意力層捕捉每個(gè)視口內(nèi)部的質(zhì)量信息。隨后，三個(gè)獨(dú)立的交叉注意力層（權(quán)重不共享）分別處理視口間特征，專(zhuān)門(mén)用于提取與“質(zhì)量”、“舒適度”和“對(duì)應(yīng)性”相關(guān)的全局一致性信息。例如，舒適度交叉注意力層會(huì)重點(diǎn)關(guān)注視口間的幾何連貫性和風(fēng)格一致性。

● 分?jǐn)?shù)回歸：聚合后的三個(gè)視角感知特征向量，分別通過(guò)三個(gè)獨(dú)立的多層感知機(jī)（MLP）回歸頭，映射為最終的維度分?jǐn)?shù)。訓(xùn)練中使用L1損失函數(shù)直接優(yōu)化預(yù)測(cè)分?jǐn)?shù)與MOS之間的差異。

BLIP2OISal模型的任務(wù)是輸出一張與輸入全景圖分辨率相同的顯著圖，高亮顯示存在嚴(yán)重失真的視覺(jué)顯著區(qū)域。與BLIP2OIQA不同，該模型將整張全景圖（不進(jìn)行視口分割）與文本提示詞輸入共享編碼器，以獲得全局的文本-圖像融合特征，并保留編碼過(guò)程中產(chǎn)生的多層圖像特征以提供空間細(xì)節(jié)。

團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)以驗(yàn)證模型性能。對(duì)于IQA性能，在OHF2024測(cè)試集上，BLIP2OIQA在質(zhì)量、舒適度、對(duì)應(yīng)性三個(gè)維度的評(píng)估中，其斯皮爾曼秩相關(guān)系數(shù)（SRCC）和皮爾遜線性相關(guān)系數(shù)（PLCC）均顯著優(yōu)于包括MANIQA、HyperIQA等在內(nèi)的21種先進(jìn)無(wú)參考IQA模型。交叉生成模型測(cè)試進(jìn)一步證明了其良好的泛化能力。

對(duì)于顯著性預(yù)測(cè)性能，BLIP2OISal在失真感知任務(wù)上，在CC、NSS、KLD等多個(gè)關(guān)鍵指標(biāo)上全面超越了20種傳統(tǒng)及深度學(xué)習(xí)顯著性預(yù)測(cè)模型，表明其能更有效地定位與失真相關(guān)的視覺(jué)注意力區(qū)域。

另外，消融研究顯示，通過(guò)系統(tǒng)性移除模型組件（如視口分割、注意力模塊、特征融合模塊等）的實(shí)驗(yàn)，證實(shí)了所提出架構(gòu)中每個(gè)核心組件的有效性，尤其是交叉注意力機(jī)制和文本-圖像特征融合對(duì)性能提升貢獻(xiàn)顯著。

同時(shí)，研究團(tuán)隊(duì)演示了一個(gè)完整的自動(dòng)化優(yōu)化閉環(huán)。所述流程首先利用BLIP2OIQA篩選出低質(zhì)量圖像，隨后使用BLIP2OISal預(yù)測(cè)其失真區(qū)域并生成二值掩碼。將該掩碼與原始圖像輸入至MVDiffusion的修復(fù)模塊中，對(duì)指定區(qū)域進(jìn)行內(nèi)容重生成。定量與定性結(jié)果均顯示，優(yōu)化后的圖像在BLIP2OIQA預(yù)測(cè)分?jǐn)?shù)和后續(xù)人工評(píng)分上均有顯著提升，驗(yàn)證了該優(yōu)化流程的有效性。

相關(guān)論文：Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images

https://arxiv.org/pdf/2506.21925

這項(xiàng)研究通過(guò)構(gòu)建高質(zhì)量的OHF2024數(shù)據(jù)庫(kù)和提出性能卓越的BLIP2系列模型，為解決AI生成全景圖像的質(zhì)量評(píng)估與優(yōu)化問(wèn)題提供了首個(gè)端到端的解決方案。它不僅推動(dòng)了沉浸式媒體內(nèi)容質(zhì)量評(píng)估領(lǐng)域的研究進(jìn)展，同時(shí)為AIGC在VR/AR產(chǎn)業(yè)中的實(shí)際應(yīng)用提供了關(guān)鍵的工具和方法。

轉(zhuǎn)載聲明：

本文轉(zhuǎn)載自映維網(wǎng)【劉余欣】，于2025年11月17日首發(fā)，原文鏈接：

https://news.nweon.com/136063

文章所用圖片、視頻均來(lái)自文章關(guān)聯(lián)個(gè)人、企業(yè)實(shí)體等提供

若本轉(zhuǎn)載內(nèi)容存在侵權(quán)情形（包括但不限于未經(jīng)授權(quán)轉(zhuǎn)載、內(nèi)容版權(quán)爭(zhēng)議等），請(qǐng)版權(quán)相關(guān)方及時(shí)與我方聯(lián)系，我方在核實(shí)相關(guān)情況后，將第一時(shí)間刪除該內(nèi)容，以保障您的合法權(quán)益

裸露视频免费在线观看,裸露视频免费在线观看,色综合天天综合色av,丝袜老熟女一区二区,91九色蝌蚪91pornv,91人妻偷拍熟女网站,欧美高清一区三区在线专区,亚洲国产av自拍偷拍,一区二区三区中文字幕在线看

上海交大等團(tuán)隊(duì)構(gòu)建OHF2024數(shù)據(jù)庫(kù)并提出BLIP2模型評(píng)估與優(yōu)化AI生成全景圖像質(zhì)量