6月28日,阿里云通義千問剛剛發文,宣布推出最新的多模態統一理解與生成模型Qwen VLo。這一全新升級的模型可以進行高質量的再創造,實現從感知到生成的跨越。
官方表示,Qwen VLo采用動態分辨率訓練,支持動態分辨率生成。無論是輸入端還是輸出端,模型都支持任意分辨率和長寬比的圖像生成。這意味著用戶不再受限于固定的格式,可以根據實際需求生成適配不同場景的圖像內容。
此外,Qwen VLo還創新性地引入了一種全新的生成機制:從上到下、從左到右逐步清晰的生成過程。這一機制不僅提升了生成效率,還特別適用于需要精細控制的長段落文字生成任務。
阿里云官方提醒,Qwen VLo屬于預覽階段,還有很多不足的地方,在生成的過程可能存在不符合事實、不完全和原圖一致的問題,開發團隊還在持續迭代。