本站1月28日消息,今天,阿里云通義千問開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個尺寸版本。
其中,旗艦版Qwen2.5-VL-72B在13項權(quán)威評測中奪得視覺理解冠軍,超越GPT-4o與Claude3.5。
官方介紹稱,新的Qwen2.5-VL能更準確地解析圖像內(nèi)容,突破性地支持超1小時的視頻理解,可以在視頻中搜索具體事件,并對視頻的不同時間段進行要點總結(jié),從而快速、高效地幫助用戶提取視頻中蘊藏的關(guān)鍵信息。
而且無需微調(diào)就可變身為一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現(xiàn)給指定朋友送祝福、電腦修圖、手機訂票等多步驟復雜操作。
Qwen2.5-VL 不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和布局。
此外,Qwen2.5-VL將OCR識別能力提升至一個新的水平,增強了多場景、多語言和多方向的文本識別和文本定位能力。同時,在信息抽取能力上進行大幅度增強,以滿足日益增長的資質(zhì)審核、金融商務(wù)等數(shù)字化、智能化需求。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。