10月9日,騰訊官方宣布,最新的混元圖像3.0已在元寶App上線,可生成表情包組圖、四格漫畫、人像寫真、紀實攝影、設計配圖等。
    一覺醒來,AI生圖「王者」登場!
    LMArena最新發布榜單:「混元圖像3.0」在文生圖任務中,一舉奪魁,力壓群雄。
    它直接碾壓了谷歌火遍全網Nanobanana模型,以及字節Seedream4。
    對此,LMArena官方發帖表示祝賀。
    不得不說,這一成績太頂了,而且,「混元圖像3.0」完全開源、免費。
    9月28日,騰訊正式發布并開源了「混元圖像3.0」——業界首個開源工業級原生多模態生圖模型。
    它的性能直接對標閉源模型,且刷新了開源AI生圖模型的SOTA。
    發布僅3天,「混元圖像3.0」強勢登頂HuggingFace熱榜,蟬聯一周第一,如今又在LMArena上斬獲亮眼的戰績。
    這一系列表現,讓業界再次關注到騰訊混元模型的進展。
    回望2023年到2024年,相較國內其他實力玩家,騰訊混元一度顯得有些「低調」——其混元直到2023年9月才正式上線。彼時實測中規中矩。
    2024年,混元陸續開始發力開源,5月開源首個中文原生DiT文生圖模型HunyuanDiT,11月推出首個開源文本模型HunYuan-Large和3D生成模型,12月開源混元視頻生成大模型HunyuanVideo。
    這時混元在多模態開源領域的優勢開始逐漸顯現,其生圖與生視頻模型相當一段時間內是社區最受歡迎的開源模型。
    而進入2025年,混元仿佛按下了加速鍵,開啟了「狂飆式」的開源節奏,密集發布輪番轟炸。
    生文領域,從HunYuan-A13B到一系列小模型,再到翻譯模型Hunyuan-MT-7B,混元的開源勢頭緊追頭部模型,質量更是穩步提升。
    如果說圖像、視頻、文本模型的開源讓混元嶄露頭角,那么3D系列模型直接讓它站上了世界舞臺聚光燈下,從其3D2.1版本開源以來,混元的3D生成一直在霸榜,成為名副其實的全球最強;最近還發布了首個支持物理仿真的開源世界模型。
    如今,圖像領域,混元同樣不遑多讓。
    我們已經看到,最新「混元圖像3.0」連續兩次霸榜,成為AI文生圖最能打的模型。
    但有一說一,目前圖片領域都已經在卷圖片編輯了,混元這里還是缺了的。
    官方也表示,這個版本的后訓練只完成了文生圖能力,圖像編輯、多輪交互等版本在研發中。
    畢竟基座模型都原生多模態了,圖片編輯肯定能支持。混元確實要加快了。
    一手實測,屬實驚艷到了
    回到最新上線的「混元圖像3.0」,不僅具備了強大的常識推理、精準的語義理解能力,生成的圖像真實,更富有極致美感。
    而且,它還能全面支持中英文及長文本渲染。
    自亮相以來,已有不少網友搶先實測,結果紛紛被「混元圖像3.0」的強大表現所折服。
    左右滑動查看
    如今,所有人皆可通過騰訊混元官網和騰訊元寶,開啟圖像生成的暢玩體驗。
    展開來說,混元圖像3.0(HunyuanImage3.0)具備了以下三大特點:
    原生多模態模型支持利用世界知識進行推理,目前主要開放生圖能力
    精確文字生成,超長文本渲染
    具有精確的語義理解能力,能夠實現超長的文本語義理解,整體美學接近商業級模型
    上知天文,下知地理
    混元圖像3.0支持世界知識推理,熟悉地理、數學、物理、歷史、文學等常識,畫圖更懂提示詞。
    比如,地球四季的形成涉及到地球繞太陽公轉地軸傾斜。
    如果圖像模型做不到「上知天文,下知地理」,那下列指令生成的結果可能完全錯誤。
    但這次混元新模型生成的結果科學性完全有保證:
    prompt:畫圖解釋一下地球四季的形成。
    中學物理,也不在話下:
    prompt:四格動畫,解釋牛頓三大定律。
    看看混元圖像3.0眼中的「三打白骨精」:
    極致美學:細節,細節,更多的細節
    混元圖像3.0可以理解很復雜的指令,最多支持1000Token;而且開源模型做到了工業級別的美學輸出。
    換句話,這次可以支持更多的細節控制:風格、背景、基調、主題、色彩、動作、光線……想要什么效果,直接輸入,混元圖像3.0一鍵直出:
    prompt:這是一幅極具視覺張力的祭志風海報。整體籠罩在暗黑幽靈般的神秘氛圍中,背景采用簡約高級的純紅色,干凈純粹卻不顯張揚。為畫面奠定了沉穩而富有張力的基調,畫面主體是古風漢服服飾的超級近距離特寫,以暗黑橘色柔光為主光源,勾勒出人物清晰而細膩的輪廓,人物露著肩膀,姿態魅惑又帶著一絲魅惑,眼神嫵媚勾人。在整體暗光環境中尤為突出,同時,人物周身裝飾著暗黑低飽和的銀輝光效果,如同月光般清冷朦朧,為這份妖嬈增添了幾分疏離的幽靈感,強化了暗黑風格的神秘氣質,讓特寫畫面更具超強的視覺沖擊力。
    混元一鍵生成高品質攝影、電影質感的圖像:
    prompt:電影感的城市街角場景:一棟暖橙色外墻、帶橫向白色條紋的建筑,底部是粗糙的石質基座;左側有一扇帶百葉的窗;窗旁用細繩懸著一盞黑色吊燈,在墻面投下清晰陰影。左上方強烈陽光傾灑,使被照亮的橙色墻面與右側深棕色陰影形成銳利對比。畫面下方的人形剪影沿人行道行走。整體為低飽和、寫實風格,墻面肌理與石粒細節豐富,明暗對比強烈;色調以暖橙與深棕為主,營造靜謐都市氛圍;剪影姿態富有動感。背景隱約可見另一棟建筑與光禿樹木的輪廓。8K分辨率,高品質攝影,自然光,黑色電影,還是專業攝影師的作品。
    在人物生成方面,混元圖像3.0在細節上把控也非常不錯。
    因為支持更長、更復雜的指令,利用混元圖像3.0可以一次性生成九宮格。比如,可直接輸出多個表情包:
    左右滑動查看
    類似的,可以制作其他風格或類型的表情包:
    得益于精確的語義理解能力,混元圖像3.0可理解超長的文本,解放更多創意,可以更快完成原型設計:
    左右滑動查看
    混元官方X賬號還有各種創意圖案的生成。
    左右滑動查看
    下筆如有神:長文本渲染
    文字生成、長文本渲染一直是圖像生成模型的難點。
    這次混元3.0實現了「精確文字生成、長文本渲染」,對于中文海報生成等場景更加友好。
    比如,混元圖像3.0對「圖像生成,解放創意」的理解:
    左右滑動查看
    prompt:生成一幅海報,宣傳AI日新月異,進步神速,突出圖像生成領域解放創意。
    對于更長的文本,這次混元渲染也沒問題:
    prompt:一張空白的宣紙上,手寫體寫著李白的作品第一行寫著:“春夜宴從弟桃花園序”,"李白",;第二行寫:“夫天地者,萬物之逆旅也;光陰者,百代之過客也。”第三行寫:“而浮生若夢,為歡幾何?”第四行寫:“古人秉燭夜游,良有以也。況陽春召我以煙景,大塊假我以文章。”第五行寫:“會桃花之芳園,序天倫之樂事。”第六行寫:“群季俊秀,皆為惠連;吾人詠歌,獨慚康樂。幽賞未已,高談轉清。”第七行寫:“開瓊筵以坐花,飛羽觴而醉月。”第八行寫:“不有佳詠,何伸雅懷?如詩不成,罰依金谷酒數。”
    英文渲染也沒問題:
    核心技術揭秘
    架構革命性創新
    騰訊最新發布的混元圖像3.0徹底顛覆了傳統圖像生成模型的架構,將語言、視覺和圖像生成融為一體,仿佛賦予了AI一個「能畫圖的大腦」。
    架構創新
    不同于以往DiT系列(DiffusionTransformer)那種讓大模型僅充當文本編碼器的做法,混元圖像3.0采用了80B參數規模的MoE架構,擁有64個專家網絡,但每次推理時僅激活約13B的參數。
    也就是說,它相當于匯聚了64位各有所長的繪畫「大師」,但每次作畫只讓其中最相關的少數專家上場,各展所長。
    這種門控機制使模型既享有了海量參數帶來的知識容量,又避免了讓所有專家同時運轉的低效,在保證推理速度的同時極大提升了模型能力。
    混元圖像3.0由此做到了「模型大」「效率高」兩不誤,真正實現了智慧與效率兼備,顛覆了以往人們對大模型「笨重耗資」的刻板印象。
    混元圖像3.0在一個自回歸Transformer中統一處理文本理解、視覺解析和高保真圖像生成。
    這種深度融合使模型天然繼承了強大的語言理解和推理能力,能夠像一位自帶大腦的畫家那樣利用龐大的世界知識進行構思,其生成效果已可比肩業界頂尖的閉源模型,被譽為開源領域最強的圖像大模型。
    廣義因果注意力機制
    廣義因果注意力機制是混元圖像3.0的一大創新,它讓模型在同一框架中既擅長「語言思考」,又具備「畫面全局感」。
    簡單來說,文本Token仍遵循語言模型的因果(自回歸)注意力,使模型保留鏈式邏輯推理能力;而圖像Token則被賦予全局注意力,允許模型「眼觀六路」,整體把握畫面的空間信息。
    這種廣義因果注意力構建了兼顧「語言因果推理」和「圖像全局建模」的注意力矩陣,在統一架構下真正實現了理解與生成的一體化融合。
    換言之,模型在生成圖像的過程中既不會丟失語言思維的連貫性,也能滿足圖像生成對全局一致性的需求,實現所「想」即所「畫」的高度統一。
    在模型設計上,混元圖像3.0采用了VAE+ViT雙編碼器結構:通過變分自編碼器(VAE)和視覺Transformer(ViT)的聯合特征來處理圖像信息,并將其與文本一并映射到統一的Token序列中。
    生成端則借鑒了Transfusion架構思想,將擴散式圖像生成過程無縫嵌入LLM架構里,實現了文本和圖像信息的靈活交互。
    通俗地說,過去模型往往先處理完文字再處理圖像,而混元圖像3.0則是讓圖文在同一「語句」中交織在一起處理。
    模型能夠一邊「讀懂」用戶的指令,一邊在「腦海」中勾勒畫面細節,兩種模態相輔相成,再也不需要割裂地分別對待。
    這種統一序列的設計大大提升了語義對齊和細節控制的能力,即使是復雜場景也能創作得穩定連貫。
    更令人稱道的是,混元圖像3.0在生成圖像時展現出了近似CoT推理般的思維過程。
    它內置了原生的圖文交織推理機制,模型仿佛能在「動筆」前先經過一番縝密的思考:逐步推理出對指令的理解、分解復雜邏輯關系,乃至構想畫面的布局和元素細節。
    這種能力得益于訓練中引入的大量CoT推理數據,讓模型學會了自主規劃從理解意圖到最終「落筆」的全過程。
    舉例來說,用戶讓它「畫出解方程的步驟圖」或「制作四格科普漫畫」,混元圖像3.0都會先在腦海中演算出步驟或劇情,再將推理結果轉換成一張張合乎邏輯、細節豐富的圖像。
    這意味著模型不再是收到指令就直接下筆的「機械手」,而更像是一個會三思而后行的AI藝術家——先「思考」清楚再「動筆」創作,因而生成的圖像格外精細、貼合意圖,讓人直觀感受到其理解力之強。
    注意力掩碼機制
    混元圖像3.0通過這樣的「圖文交織」訓練范式,讓模型習慣在長序列中同時處理多個圖像和文本。
    這樣一來,一個提示詞下多張圖片前后呼應、風格統一、情節連貫成為可能。
    然而,讓AI同時繪制多幅圖像也帶來了潛在的問題:這些圖像可能會互相「串臺」,干擾彼此的內容。
    為此,混元圖像3.0引入了一種專門的注意力掩碼機制,可以形象地理解為在AI大腦里拉起了隔離簾幕。
    當模型正在專注「潤色」一張尚處于生成過程中的畫面時,它看不到旁邊那些已經完成、干凈的圖像。
    每幅圖都在各自獨立的創作空間中完成,不會被其他畫面的內容所污染。
    這樣的隔離就像讓每張畫都有了自己的工作室,確保AI在多圖場景下也能穩定發揮——生成的多個畫面邏輯一致、互不矛盾。
    二維位置編碼
    為了讓AI更「懂」圖像的內部結構,混元圖像3.0還教會模型去感知畫面的二維布局。
    原本模型處理文本時,只能沿著一條直線(一維順序)理解位置;
    現在,它獲得了二維的位置感知,就好比在每張圖上鋪了一層看不見的網格坐標。
    模型為圖像Token引入了二維位置編碼,讓每個視覺片段都帶有原生的X-Y坐標定位。
    通過這種擴展,每個圖像Token都「知道」自己在畫面中的橫縱坐標,從而對圖像的空間結構有了天然的直覺。
    這意味著AI在理解和生成圖像時,不再只是逐像素地盲畫,而是仿佛真正明白了左上角在哪里、右下角有什么。
    這就好比模型天生長了一雙「畫家的眼睛」,對畫面中的上下左右有直覺般的感知,不會在生成過程中丟失空間關系。
    同時,模型支持多分辨率自適應輸出,可以根據提示內容自動預測最合適的圖像尺寸和寬高比。
    如果用戶沒有特別指明分辨率,混元圖像3.0會智能分析場景:人像肖像可能選取豎幅比例(如3:4),風景宏圖則偏好橫幅長寬比(如16:9),并針對細節豐富的畫面提高分辨率,以確保清晰度。
    這種動態調整相當于模型會替用戶選好「畫板」——讓每幅圖都在最適合的尺寸上呈現最佳的構圖和視覺效果,省去了繁瑣的手動參數設定,體現出模型對視覺創作的專業理解。
    漸進式訓練范式
    在訓練策略上,混元圖像3.0經歷了精心設計的多階段進化。
    首先是漸進式的預訓練:模型從低分辨率(如256px)的圖像和粗粒度標注學起,隨著訓練推進逐步提升至512px乃至高清的1024px,并不斷加入更復雜精細的圖文數據。
    在高分辨率階段,研發團隊額外融入了圖像編輯、多圖融合等任務數據,以及激發推理能力的CoT案例,讓模型在理解和生成長篇幅、多回合內容上也駕輕就熟。
    接著進入指令微調階段,使用格式化的文本-圖像指令數據強化模型對用戶意圖的遵循,使其更懂得聽話照做。
    最后,經過多輪人類偏好強化訓練,模型的審美品味和創作水準被打磨得更為精湛:包括精選高質量樣本的監督微調(SFT)、優劣對比的直接偏好優化(DPO),以及引入獎勵模型信號的強化學習策略(如MixGRPO、SRPO等),都在持續優化生成結果的細膩度與美感。
    通過由淺入深、循序漸進的訓練流程,混元圖像3.0不僅學會了畫畫,更學會了如何畫得更好、更美,充分迎合人類審美和創作偏好。
    原生多模態成績亮眼
    開源生態爆發
    放眼全世界,OpenAI、谷歌如今開發大模型的重點,不再是單模態,比如語言、語音、視頻等。
    多模態早已成為業界共識。
    作為國內頭部科技巨頭,騰訊也不例外。原生多模態不僅僅是為了順應潮流,而是讓AI具備真正「智能」的必經之路。
    這一次,騰訊的成功并非偶然,是其在AI領域不斷深耕、技術積累的結果。
    混元系列,作為騰訊的核心AI大模型,已經在多模態領域展現出越來越豐富優勢——
    從3D生成持續領先,到圖像生成逐漸趕超,騰訊正構建一個覆蓋文本、圖像、視頻、3D生成的全鏈路AI體系。
    在3D生成領域,混元3D已經是絕對的王者,不斷迭代,目前最新3.0版本——Hunyuan3D3.0,精度直接提升3倍,幾何分辨率達到1536³,細節逼真到驚人。
    在圖像生成領域,此前的混元圖像2.1拿下開源最強,到這次的圖像3.0直接跟閉源模型不分高下。
    文生圖階躍式進化,趕超頂尖閉源模型,也讓其接下來的圖生圖、圖片編輯能力十分讓人期待。
    在視頻生成領域,文生視頻模型也在不斷進化。最近開源的「視頻音效生成模型」HunyuanVideo-Foley、視頻-虛擬人模型HunyuanVideo-Avatar收獲了一眾好評。
    開源,是騰訊的另一殺手锏。
    「混元圖像3.0」一發布就火熱霸榜HuggingFace,背后離不開騰訊在開源社區的持續投入,推動全球開發者共建生態。
    目前,這款文生圖模型已在GitHub斬獲1.7k星。
    騰訊混元團隊還透露,混元圖像3.0圖生圖、圖像編輯、多輪交互等版本將于后續上線。
    生態賦能,無縫融入億級場景
    更讓人無法忽視的是,騰訊擁有龐大的生態優勢,旗下豐富的產品及場景,能將AI無縫集成到社交、游戲、廣告等實際落地應用中。
    2025年被視為AI「應用元年」,真正的挑戰在于落地速度與迭代能力。
    如今,混元正加速融入各類場景——推出AI播客并在ima、騰訊新聞上線,支持騰訊會議AI小助手、微信讀書AI問書AI助手對會議內容、整本書籍的理解和處理。
    同時,騰訊云的AI基礎設施支持企業定制化部署混元模型,廣泛覆蓋教育、醫療、金融等行業。
    混元正通過開源積累生態,場景與技術互相反哺,構建出騰訊特色的AI之路。

