當(dāng)前位置: CNMO > 新聞 > 新聞 > 正文

異構(gòu)計(jì)算+高性能低功耗NPU,高通正在推動(dòng)終端側(cè)生成式AI發(fā)展

CNMO 【廠商稿】 作者:高通 2024-09-06 18:03
評(píng)論(0
分享

  9月6日,2024全球AI芯片峰會(huì)在北京召開(kāi)。全球AI芯片峰會(huì)至今已成功舉辦六屆,現(xiàn)已成為國(guó)內(nèi)規(guī)模最大、規(guī)格最高、影響力最強(qiáng)的產(chǎn)業(yè)峰會(huì)之一。本屆峰會(huì)以“智算紀(jì)元 共筑芯路”為主題,共50多位來(lái)自AI芯片、Chiplet、RISC-V、智算集群與AI Infra系統(tǒng)軟件等領(lǐng)域的嘉賓參與進(jìn)行了報(bào)告、演講、高端對(duì)話和圓桌Panel,對(duì)AI芯片筑基智算新紀(jì)元進(jìn)行了全方位解構(gòu)。

  高通AI產(chǎn)品技術(shù)中國(guó)區(qū)負(fù)責(zé)人萬(wàn)衛(wèi)星受邀參加大會(huì)開(kāi)幕式,并發(fā)表了以“終端側(cè)AI創(chuàng)新開(kāi)啟智能計(jì)算全新體驗(yàn)”為主題的演講。他在演講中提出,高通公司持續(xù)深耕AI領(lǐng)域,面對(duì)當(dāng)前生成式AI的飛速發(fā)展,高通的領(lǐng)先SoC解決方案提供了異構(gòu)計(jì)算系統(tǒng)和具備高性能低功耗的強(qiáng)大NPU,能夠滿足當(dāng)前豐富生成式AI用例的不同需求和算力要求,并對(duì)實(shí)現(xiàn)最佳性能和能效至關(guān)重要。利用高通公司推出的領(lǐng)先第三代驍龍8移動(dòng)平臺(tái)和驍龍X Elite計(jì)算平臺(tái),終端側(cè)生成式AI現(xiàn)已應(yīng)用于旗艦終端和用例,終端側(cè)生成式AI的時(shí)代已經(jīng)到來(lái)。

異構(gòu)計(jì)算+高性能低功耗NPU,高通正在推動(dòng)終端側(cè)生成式AI發(fā)展

  演講全文如下:

  大家上午好!非常感謝主辦方的邀請(qǐng),讓我能夠代表高通公司再次參加本次活動(dòng),跟大家分享AI芯片在生成式AI這個(gè)當(dāng)前最火熱的賽道上,高通公司做的一些工作。今天我給大家?guī)?lái)的演講主題是“終端側(cè)AI創(chuàng)新開(kāi)啟智能計(jì)算全新體驗(yàn)”。

  作為一家芯片公司,高通為AI應(yīng)用的加速專門打造了高算力、低功耗的NPU。首先,我會(huì)給大家簡(jiǎn)單介紹一下這款高算力、低功耗NPU的演進(jìn)路徑。可以說(shuō),這是一個(gè)非常典型的由上層AI用例驅(qū)動(dòng)底層硬件設(shè)計(jì)的演進(jìn)過(guò)程??梢曰叵胍幌?,在2015年左右,大家所了解的AI用例主要是比較簡(jiǎn)單的語(yǔ)音識(shí)別、語(yǔ)音喚醒、圖片分類、圖片識(shí)別等。這些用例背后的底層模型,都是一些比較淺層的、規(guī)模比較小的CNN網(wǎng)絡(luò)。那個(gè)時(shí)候,我們就給這顆NPU搭配了標(biāo)量和矢量的硬件加速單元,滿足對(duì)于性能的需求。

  在2016年之后,計(jì)算攝影的概念在市場(chǎng)上得到普及,我們也將研究方向從傳統(tǒng)的語(yǔ)音識(shí)別、圖像分類擴(kuò)展到了對(duì)圖片和視頻的處理。隨著基于像素級(jí)別的處理對(duì)算力的要求越來(lái)越高,支撐這些應(yīng)用的模型除了更大規(guī)模、更多層數(shù)的CNN網(wǎng)絡(luò)之外,還有其他新型的網(wǎng)絡(luò),比如LSTM、RNN,甚至大家現(xiàn)在非常熟悉的Transformer。這些網(wǎng)絡(luò)對(duì)算力和功耗的要求非常敏感,所以我們?cè)跇?biāo)量和矢量加速單元的基礎(chǔ)之上,進(jìn)一步配備了一顆張量加速器,以提供更加充沛的算力,滿足應(yīng)用對(duì)像素級(jí)、對(duì)Transformer時(shí)序網(wǎng)絡(luò)、對(duì)算力的要求。

  2023年開(kāi)始,大模型,尤其是大語(yǔ)言模型開(kāi)始真正火爆起來(lái)。其實(shí)70%以上的大語(yǔ)音模型都是基于Transformer。因此,我們給這顆NPU專門配備了Transformer支持。同時(shí),我們?cè)诒3謽?biāo)量、矢量、張量等硬件加速的基礎(chǔ)之上,增加更多的硬件加速單元,包括集成獨(dú)特的微切片推理技術(shù),進(jìn)一步針對(duì)對(duì)算力要求和Transformer并行化要求較高的模型推理進(jìn)行加速。

  未來(lái)我們會(huì)持續(xù)地加大對(duì)NPU的投入。生成式AI的未來(lái)一定是多模態(tài)的趨勢(shì),所以今年我們也在致力于實(shí)現(xiàn)將一些真正的多模態(tài)大模型完整地運(yùn)行在端側(cè)。在今年2月份的MWC巴塞羅那2024上,高通公司基于第三代驍龍8移動(dòng)平臺(tái)展示了一個(gè)demo,就是讓超過(guò)70億參數(shù)的多模態(tài)語(yǔ)言模型(LMM)完整地跑在端側(cè)。

  從模型規(guī)模來(lái)講,高通未來(lái)會(huì)支持更大規(guī)模的大語(yǔ)言模型,今年我們將有希望看到超過(guò)100億參數(shù)以上的大語(yǔ)言模型完整運(yùn)行在端側(cè)。當(dāng)然,終端側(cè)需要跑多大的模型,取決于實(shí)際的用例和這些用例對(duì)KPI的要求。

  我們?yōu)槭裁粗铝τ谠诮K端側(cè)去推理這些生成式AI模型呢?在終端側(cè)進(jìn)行AI處理不僅具有成本、個(gè)性化、時(shí)延等優(yōu)勢(shì),我們認(rèn)為還有最重要的一點(diǎn),就是隱私性。包括手機(jī)、PC等個(gè)人設(shè)備上的個(gè)人信息、聊天記錄、相冊(cè)信息、甚至包括用戶的生物特征信息等等,從用戶角度來(lái)講,不希望這些數(shù)據(jù)上傳到云端做處理。通過(guò)運(yùn)行大語(yǔ)言模型、大視覺(jué)模型等,在終端側(cè)完成這些數(shù)據(jù)的處理,我們認(rèn)為這可以很好地保護(hù)普通用戶的隱私。從另外一個(gè)角度來(lái)講,終端側(cè)是離數(shù)據(jù)產(chǎn)生最近的地方。因?yàn)楫a(chǎn)生這些數(shù)據(jù)的設(shè)備,包括麥克風(fēng)、攝像頭,各種各樣的傳感器數(shù)據(jù)。在離數(shù)據(jù)產(chǎn)生最近的地方去完成數(shù)據(jù)的處理,這也是非常自然而然保護(hù)用戶隱私的處理方法。

  大家對(duì)高通Hexagon NPU的了解,我相信大部分是從搭載驍龍平臺(tái)的手機(jī)開(kāi)始的,但是高通除了有驍龍移動(dòng)平臺(tái)之外,還有非常豐富的產(chǎn)品線,覆蓋汽車、物聯(lián)網(wǎng)、PC、可穿戴設(shè)備等。高通Hexagon NPU已經(jīng)賦能了我們的絕大多數(shù)產(chǎn)品,也就意味著我們的合作伙伴、開(kāi)發(fā)者朋友們可以在這些不同的產(chǎn)品形態(tài)上,用NPU來(lái)做算法的加速、享受充沛的算力。除了硬件之外,我們還有統(tǒng)一的高通AI軟件棧(Qualcomm AI Stack),可以讓OEM、開(kāi)發(fā)者在高通所支持的不同產(chǎn)品形態(tài)上去完成模型的部署和優(yōu)化。

  接下來(lái)更深入地介紹一下高通Hexagon NPU的硬件架構(gòu)。以第三代驍龍8為例,高通Hexagon NPU中最重要的是張量、矢量和標(biāo)量三大加速單元,它們能夠?qū)Σ煌臄?shù)據(jù)類型做處理,例如張量加速器可以用來(lái)處理卷積運(yùn)算、張量數(shù)據(jù)。此外還包括片上內(nèi)存,讓這三個(gè)加速器能夠協(xié)作更高效。神經(jīng)網(wǎng)絡(luò)推理是有很多層的,每層之間都會(huì)有一些中間數(shù)據(jù)。而這些中間數(shù)據(jù)如果沒(méi)有片上內(nèi)存做緩存的話,可能都要跑在DDR上,這樣對(duì)性能、功耗都會(huì)有非常大的影響。所以我們通過(guò)在NPU上配備比較大的片上內(nèi)存,能夠更好地釋放AI算力。

  此外,高通NPU的整個(gè)硬件設(shè)計(jì)會(huì)隨著業(yè)界先進(jìn)工藝的發(fā)展不斷迭代。這顆處理器的微架構(gòu),包括前端設(shè)計(jì)和后端設(shè)計(jì)也會(huì)每年進(jìn)行迭代,實(shí)現(xiàn)最佳性能和能效。不管是AI手機(jī)還是AI PC,對(duì)功耗都有很高的要求,我們要保證設(shè)備在日常使用中不會(huì)發(fā)燙、有更長(zhǎng)續(xù)航。因此我們給NPU專門打造了加速器專用電源,以實(shí)現(xiàn)最佳能效比。我們還會(huì)通過(guò)升級(jí)微切片技術(shù),支持網(wǎng)絡(luò)深度融合,獲取最佳性能。除了前面這些技術(shù)升級(jí)之外,我們還會(huì)提供更高主頻,支持更大的DDR帶寬。對(duì)于生成式AI模型,尤其是在解碼階段,需要DDR的支持,所以更大的DDR帶寬就意味著大模型的解碼速度更快,能給消費(fèi)者帶來(lái)更好的用戶體驗(yàn)。

  除了專門的高算力、低功耗NPU之外,我們還有一個(gè)單獨(dú)的模塊叫高通傳感器中樞,它也可以用來(lái)做AI推理加速。它是DSP加多核Micro NPU的設(shè)計(jì),最大的特點(diǎn)是功耗特別低,適用于一些需要始終在線的任務(wù),包括始終開(kāi)啟的攝像頭、手勢(shì)識(shí)別、人臉檢測(cè)、始終開(kāi)啟的語(yǔ)音喚醒等等。因?yàn)檫@些用例需要始終在線,所以對(duì)功耗尤其敏感。我們?cè)谟布O(shè)計(jì)上,也會(huì)通過(guò)專門的傳感器中樞加速模塊來(lái)適配,對(duì)功耗極其敏感的用例進(jìn)行加速。

  前面介紹了非常多的硬件內(nèi)容,下面會(huì)從用例方面來(lái)介紹一下我們是如何完成這些工作的。目前有非常多的AI用例,包括自然語(yǔ)言理解、自然語(yǔ)言處理相關(guān)的用例,還有計(jì)算攝影中降噪、超分、HDR、背景模糊等圖像處理相關(guān)的用例,現(xiàn)在還有視頻生成、視頻處理等。此外,現(xiàn)在AI在游戲里也有很多應(yīng)用,像AI NPC、自動(dòng)劇情、地圖繪制、二創(chuàng)等等。這些用例對(duì)各種KPI的要求和算力要求也不一樣,有按需型用例、持續(xù)型用例和泛在型用例,很難有單一的處理器可以滿足所有KPI的要求。

  舉個(gè)簡(jiǎn)單例子,有些任務(wù)是在CPU運(yùn)行中突發(fā)的任務(wù),這時(shí)理論上不應(yīng)該喚醒全新的IP,否則時(shí)延會(huì)非常大,這個(gè)時(shí)候可以考慮用CPU架構(gòu)去做加速。還有一些用例對(duì)算力要求比較高,可能需要長(zhǎng)時(shí)間的處理,包括游戲領(lǐng)域、視頻/圖片處理領(lǐng)域以及大模型等用例。還有一種用例可能需要始終在線,這種時(shí)候用CPU、GPU或者NPU去加速都不合適,因?yàn)樗鼘?duì)功耗極其敏感。

  高通通過(guò)推出異構(gòu)計(jì)算系統(tǒng),來(lái)滿足這些廣泛AI用例對(duì)不同算力和KPI的要求。我們提供的異構(gòu)計(jì)算系統(tǒng),包括通用的硬件加速單元——CPU和GPU,用來(lái)處理實(shí)時(shí)的、突發(fā)的、對(duì)時(shí)延非常敏感的任務(wù);我們還有NPU,它特別適用于需要持續(xù)性處理、對(duì)算力要求比較高、對(duì)功耗要求也比較高的一些任務(wù),包括大模型、視頻/圖片處理以及游戲中持續(xù)運(yùn)行的用例等;此外,還有傳感器中樞用來(lái)處理始終開(kāi)啟的手勢(shì)識(shí)別、語(yǔ)音喚醒等用例。

  設(shè)計(jì)這樣的異構(gòu)計(jì)算系統(tǒng),我們考慮了哪些因素,是怎么完成這個(gè)目標(biāo)的呢?第一,我們希望提供極致的性能;第二,我們也希望實(shí)現(xiàn)比較好的持續(xù)性能表現(xiàn),包括能效比;第三,我們也會(huì)從整體成本上考慮,以及考慮芯片尺寸的大小。最后我們也會(huì)考慮單位面積能夠提供的算力。我們充分考慮這些因素,打造出這樣一顆NPU和具有異構(gòu)計(jì)算系統(tǒng)的SoC,為消費(fèi)者帶來(lái)了極致的AI,尤其是生成式AI的用戶體驗(yàn)。

  前面介紹了我們的AI硬件技術(shù),包括各種各樣的IP處理器、異構(gòu)計(jì)算系統(tǒng)。接下來(lái),我會(huì)跟大家介紹高通所賦能的AI體驗(yàn)。

  自去年年底第三代驍龍8和驍龍X Elite平臺(tái)發(fā)布后,大家能夠看到市面上已經(jīng)推出了非常多搭載這兩款平臺(tái)的產(chǎn)品。很多產(chǎn)品其實(shí)已經(jīng)具有了端側(cè)大模型的能力,我在這里舉幾個(gè)例子:第一個(gè)是今年年初發(fā)布的三星Galaxy S24 Ultra,它能夠支持實(shí)時(shí)翻譯的功能;第二個(gè)是OPPO Find X7 Ultra推出了AI消除功能,如果想要將圖片里面的背景或路人移除的話,可以非常方便地用這個(gè)功能得到你想要的照片;第三是榮耀Magic6系列的智慧成片功能,可以非常方便地在圖庫(kù)里面找到與Prompt相關(guān)的圖片或視頻,生成一段vlog分享給你的家人跟朋友。

  今年在MWC巴塞羅那2024期間,高通展示了在Android智能手機(jī)上運(yùn)行的大語(yǔ)言和視覺(jué)助理大模型(LLaVA),這是一個(gè)超過(guò)70億參數(shù)的大型多模態(tài)語(yǔ)言模型(LMM)。我們正在攜手合作伙伴,將多模態(tài)大模型完整地帶到端側(cè),帶到消費(fèi)者面前。

  第三代驍龍8和驍龍X Elite平臺(tái)已經(jīng)賦能推出了豐富的具備終端側(cè)AI或生成式AI能力的旗艦終端和用例。這些用例既有娛樂(lè)類的,包括圖片生成、圖片編輯等,也有生產(chǎn)工具類的,包括寫(xiě)作助手、文本總結(jié)、實(shí)時(shí)翻譯等,能夠給日常生活或工作帶來(lái)更高的效率。

  總結(jié)一下今天的分享內(nèi)容,第一高通的SoC解決方案提供了異構(gòu)計(jì)算系統(tǒng),包括多個(gè)IP處理器組件,其中有通用的CPU、GPU、專用的NPU、超低功耗的傳感器中樞,這些IP處理器組件各自會(huì)承擔(dān)不同的任務(wù),包括對(duì)時(shí)延敏感的、對(duì)算力敏感的、或?qū)拿舾械娜蝿?wù)。同時(shí),它們也可以互相組合、共同完成一些更復(fù)雜的處理任務(wù),提供端到端的服務(wù)。在2023年驍龍峰會(huì)期間,我們展示了怎么利用高通的異構(gòu)計(jì)算系統(tǒng)去完成端到端的虛擬化身AI助手,當(dāng)時(shí)我們把整個(gè)處理管線拆解成三部分:前處理、中間的文本生成、虛擬化身渲染的后處理。其中前處理是跑在CPU上,中間的大語(yǔ)言模型跑在NPU上,后處理跑在GPU以及傳感器中樞上面。第二,我們提供強(qiáng)大、算力充沛、超低功耗的專用NPU,方便大家在NPU上部署更大、更先進(jìn)、更豐富的模型。第三,我們認(rèn)為,終端側(cè)生成式AI時(shí)代已經(jīng)到來(lái),驍龍計(jì)算平臺(tái)和驍龍移動(dòng)平臺(tái)已經(jīng)賦能了非常多具備終端側(cè)生成式AI功能的終端產(chǎn)品。

  最后,我也想在這里做一個(gè)小小的預(yù)告,搭載最新高通Oryon CPU的下一代驍龍移動(dòng)平臺(tái),即將在今年10月21-23日舉行的驍龍峰會(huì)上發(fā)布,大家敬請(qǐng)期待,謝謝!


分享

加入收藏

網(wǎng)友評(píng)論 0條評(píng)論
用其他賬號(hào)登錄:
請(qǐng)稍后,數(shù)據(jù)加載中...
查看全部0條評(píng)論 >
潮機(jī)范兒

Copyright © 2007 - 北京沃德斯瑪特網(wǎng)絡(luò)科技有限責(zé)任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號(hào) 京ICP備09081256號(hào) 京公網(wǎng)安備 11010502036320號(hào)