“紫東太初”: 從多模態(tài)走向全模態(tài)
2023-06-26發(fā)表于管理員
“紫東太初”:
從多模態(tài)走向全模態(tài)

【新看點(diǎn)】

◎本報記者 陸成寬

    

    輸入一張圖書(shū)館的圖片和一段汽車(chē)鳴笛的音頻,“紫東太初”就能發(fā)現其中的問(wèn)題,分析出這段音頻不太可能出現在圖書(shū)館場(chǎng)景中;給出一張救護車(chē)圖片、一段森林救火的視頻和一段警笛音頻,它也能準確識別并講述一段完整的救援故事。

    6月16日,在人工智能框架生態(tài)峰會(huì )2023上,中國科學(xué)院自動(dòng)化研究所所長(cháng)徐波在發(fā)布“紫東太初”全模態(tài)大模型時(shí),展示了該模型的新“能耐”。

    作為“紫東太初”1.0的升級版,“紫東太初”全模態(tài)大模型具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力,不僅能讀懂文字、圖像和音頻,還能理解視頻、3D點(diǎn)云、傳感信號,可以結合圖像、聲音和視頻完成場(chǎng)景分析,其理解和生成能力更加接近人類(lèi),向通用人工智能邁出關(guān)鍵一步。

    全模態(tài)升級版更“聰明”

    “‘紫東太初’全模態(tài)大模型以國產(chǎn)化基礎軟硬件平臺昇騰AI為基礎,其算法由中國科學(xué)院自動(dòng)化研究所自主研發(fā),算力則由武漢人工智能計算中心提供支持?!敝袊茖W(xué)院自動(dòng)化所研究員張家俊介紹,無(wú)論是算法,還是算力,亦或是硬件,“紫東太初”都是“中國造”。

    “人類(lèi)學(xué)習要受到視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)等各種信號的綜合影響,每一種不同類(lèi)型的信號都是一種模態(tài),人類(lèi)的學(xué)習過(guò)程是全模態(tài)的。同樣,機器要想變得‘更聰明’,也需要像人一樣,發(fā)展貫通圖、文、音等多種模態(tài)的大模型?!睆埣铱≡谡勂痖_(kāi)發(fā)全模態(tài)大模型的原因時(shí)解釋道。

    鑒于此,2019年,中國科學(xué)院自動(dòng)化研究所就堅持以“圖—音—文”多模態(tài)技術(shù)為核心,確立多模態(tài)大模型布局,整合所內圖像、文本、語(yǔ)音等研究方向的優(yōu)勢資源開(kāi)展集團式攻關(guān),于2021年9月成功打造“紫東太初”1.0多模態(tài)大模型?!白蠔|太初”1.0助推人工智能從“一專(zhuān)一能”邁向“多專(zhuān)多能”,向發(fā)展通用人工智能邁出了堅實(shí)的第一步。

    邁入數字經(jīng)濟時(shí)代,數據的范疇不斷拓寬,不僅包含人類(lèi)自身產(chǎn)生的語(yǔ)音、圖像、文字等數據,還有機器產(chǎn)生的大量結構和非結構化數據。

    徐波介紹,針對新需求與新趨勢,新升級的“紫東太初”2.0在語(yǔ)音、圖像和文本之外,加入了視頻、傳感信號、3D點(diǎn)云等更多模態(tài),從技術(shù)架構上實(shí)現了結構化和非結構化數據的全模態(tài)開(kāi)放式接入;突破了能對信息進(jìn)行充分理解和靈活生成的多模態(tài)分組認知編解碼技術(shù),以及能融合多個(gè)任務(wù)的認知增強多模態(tài)關(guān)聯(lián)技術(shù)等,大模型多模態(tài)認知能力大幅提升。

    展現廣闊產(chǎn)業(yè)應用前景

    “‘紫東太初’2.0可以像人一樣綜合運用多種信號進(jìn)行思考?!睋邪l(fā)團隊介紹,它可以理解三維場(chǎng)景、傳感信號等數字物聯(lián)時(shí)代的重要信息,完成音樂(lè )、圖片和視頻等數據之間的跨模態(tài)對齊,能夠處理音樂(lè )視頻分析、三維導航等多模態(tài)關(guān)聯(lián)應用需求,并可實(shí)現音樂(lè )、視頻等多模態(tài)內容理解和生成。

    “目前,‘紫東太初’大模型已展現出廣闊的產(chǎn)業(yè)應用前景,在神經(jīng)外科手術(shù)導航、短視頻內容審核、法律咨詢(xún)、醫療多模態(tài)鑒別診斷、交通違規圖像研讀等領(lǐng)域開(kāi)展了一系列引領(lǐng)性、示范性應用?!毙觳ㄕf(shuō)。

    比如,在醫療場(chǎng)景下,“紫東太初”大模型與神經(jīng)外科機器人MicroNeuro相結合,可實(shí)現在術(shù)中實(shí)時(shí)融合視覺(jué)、觸覺(jué)等多模態(tài)信息,協(xié)助醫生對手術(shù)場(chǎng)景進(jìn)行實(shí)時(shí)推理判斷。

    再比如,在法律咨詢(xún)領(lǐng)域,“紫東太初”大模型僅用0.546秒就可對法律案件進(jìn)行拆解、提取關(guān)鍵事件,在辦公效率方面實(shí)現案件分析速度的百倍提升,可有效解決律師整體資源匱乏、服務(wù)成本高等問(wèn)題。

    “‘紫東太初’已經(jīng)開(kāi)放服務(wù)平臺,支持各行業(yè)根據各自需求‘組裝’模塊,再輸入少量的行業(yè)樣本數據,就能產(chǎn)出自主可控的行業(yè)相關(guān)大模型?!睆埣铱≌f(shuō)。

    徐波表示,中國科學(xué)院自動(dòng)化研究所未來(lái)將以“紫東太初”大模型為基礎,持續探索與類(lèi)腦智能、博弈智能等技術(shù)路徑的相互融合,最終實(shí)現可自主進(jìn)化的通用人工智能,為促進(jìn)我國數字經(jīng)濟快速發(fā)展貢獻力量。