欧美亚洲另类专区,精品一区二区三区免费福利,伊人色综合网久久天天,欧美人牲口杂交在线播放免费

              首頁 > 新聞 > 港聞 > 正文

              ?AI港人才2/中大成宇:開發(fā)深度思考AI大模型 港產(chǎn)“T1”反應(yīng)快成本低

              2025-04-24 05:01:33大公報
              字號
              放大
              標(biāo)準(zhǔn)
              分享

                圖:中大計算機科學(xué)與工程學(xué)系副教授成宇與其團隊,目前主要聚焦于多模態(tài)模型架構(gòu)以及快速模型架構(gòu)的研究。\大公報記者麥潤田攝

                伴隨人工智能(AI)技術(shù)的加速演進,AI大模型已成為產(chǎn)業(yè)的核心驅(qū)動力,如何優(yōu)化現(xiàn)有的大模型,構(gòu)建更高效的模型以適配社會需求,是當(dāng)代AI發(fā)展的重要課題。

                香港中文大學(xué)計算機科學(xué)與工程學(xué)系副教授成宇,在接受《大公報》專訪時表示目前專注于高效AI模型架構(gòu)研究,當(dāng)中涵蓋多模態(tài)模型以及快速模型架構(gòu)兩大方向,并取得多項成果。其團隊擔(dān)任技術(shù)顧問的騰訊深度思考模型 “T1” ,已在今年3月底推出。此模型開發(fā)成本與DeepSeek相比更低,響應(yīng)時間更是壓縮至10多秒。成宇希望,在一至兩年后AI可在特定的工種替代人力,5至10年內(nèi)實現(xiàn)應(yīng)用場景內(nèi)80%的工作由AI完成。\大公報記者 陳煒琛

                成宇與其團隊目前主要聚焦于多模態(tài)模型架構(gòu)以及快速模型架構(gòu)的研究。所謂多模態(tài)模型,是能夠綜合處理圖片、語音與文本等多模態(tài)信息的模型。而快速模型架構(gòu),則是對問題推理、響應(yīng)時間更加快速的模型。

                從單模態(tài)進化到多模態(tài)

                成宇指出,“當(dāng)前主流的深思考模型,如DeepSeek、ChatGPT等,主要是采用單模態(tài)架構(gòu),在文本處理領(lǐng)域具有強大的邏輯推理能力,但其應(yīng)用場景相對局限。”相比之下,多模態(tài)模型能綜合處理多種復(fù)雜信息,能有效應(yīng)對現(xiàn)時社會的多樣需求。此外,他表示,由于當(dāng)前的模型規(guī)模較大,“在實時交互場景中面臨推理時間較長、算力資源成本高昂的痛點”,因此研發(fā)兼顧精度與效率的快速模型架構(gòu)是發(fā)展AI的重要方向。

                成宇去年10月份加入中大任職,而在加入中大之前,成宇在微軟美國研究院與OpenAI團隊合作期間,對其Copilot模型的結(jié)構(gòu)進行輕量化優(yōu)化,為其后續(xù)的快速推理技術(shù)研究積累了關(guān)鍵經(jīng)驗。

                在不斷推進當(dāng)前研究工作的同時,回顧過往,早在2020年,成宇及其團隊便有極具前瞻性的構(gòu)想。成宇表示,在多數(shù)大模型僅關(guān)注文本信息時,他與團隊就提出構(gòu)建多模態(tài)大模型的想法。他透露,在當(dāng)時他們便搭建了將文本、圖像、語音等信息融合起來的第一代的多模態(tài)模型框架。成宇直言,“這一成果為后續(xù)GPT-4o等多模態(tài)模型架構(gòu)提供了技術(shù)雛形。”

                此外,AI在迅猛發(fā)展的同時,不可避免地會出現(xiàn)諸如AI幻覺(即虛構(gòu)現(xiàn)實)、AI偏見(如性別歧視)、AI安全(如生成危險有害內(nèi)容)等方面問題。針對以上問題,成宇表示,在2023年他與團隊構(gòu)建了一套客觀的評測機制,借助數(shù)據(jù)去檢測大模型存在的問題,進而及時進行修改。成宇透露,目前該評測機制已被不少企業(yè)采納。

                5至10年內(nèi)可做八成工種

                騰訊研發(fā)的“T1”模型是標(biāo)志性落地科研成果。成宇表示,“T1”屬于較快速的深思考模型,在今年3月底已在微信“騰訊元寶”免費上線。成宇透露,大概是去年年中開始與騰訊合作,年底時便搭建了一個反應(yīng)較快的基座模型。而后在這個基座模型的基礎(chǔ)上,利用大量的數(shù)據(jù)不斷地進行迭代,最終花費了七至八個月的時間完成了“T1”的搭建。

                成宇表示,一般情況下,深度思考或深度推理類模型在維持其深度思考能力(如邏輯回溯、多步驗證)時,其響應(yīng)速度會變慢,則需要優(yōu)化其模型架構(gòu)。他透露,在“T1”模型研發(fā)的第一階段團隊已解決此問題,成功壓縮了推理時間。成宇補充,“與DeepSeek相比,T1響應(yīng)速度可能僅為其三分一到二分一,即10多秒便可達到同樣的處理效果”。

                據(jù)悉,“T1”沿用了混元Turbo S的創(chuàng)新架構(gòu),并采用了Hybrid-Mamba-Transformer融合模式。而這也是工業(yè)界首次將混合的Mamba架構(gòu)無損應(yīng)用于超大型推理模型。這一架構(gòu)有效降低了傳統(tǒng)Transformer結(jié)構(gòu)的計算復(fù)雜度,減少了內(nèi)存占用,成宇表示,這顯著降低了訓(xùn)練和推理成本。

                盡管“T1”取得了不錯的成果,但在研發(fā)和應(yīng)用推進過程中,亦面臨著不少挑戰(zhàn)。成宇坦言,AI領(lǐng)域的競爭激烈,新模型層出不窮,因此他們時刻面臨著外部的緊迫壓力。此外,AI模型漫長的迭代周期長同樣是一大難題。成宇進一步解釋,“當(dāng)前的AI模型體量龐大,訓(xùn)練一個模型往往需要耗時一至兩個月”。而在此期間,團隊須保持高度專注,持續(xù)去監(jiān)控模型訓(xùn)練過程中的各項表現(xiàn)指標(biāo),并根據(jù)實際情況動態(tài)調(diào)整架構(gòu),以確保最終成果的質(zhì)量與性能。

                目前,團隊也正探索如何將“T1”模型進行多模態(tài)升級,以增強其在不同場景下的應(yīng)用能力。成宇舉例,讓“T1”做到在面對一道復(fù)雜的幾何題時,可以自主解析圖像、繪制輔助線和公式推導(dǎo)。成宇對AI未來的多模態(tài)應(yīng)用充滿信心,他希望,一至兩年后可率先在特定的工種如代碼開發(fā)、平面式設(shè)計等領(lǐng)域?qū)崿F(xiàn)AI替代人力的突破,“終極目標(biāo)則為在5至10年內(nèi)實現(xiàn)應(yīng)用場景內(nèi)80%工作由AI完成。”

              點擊排行