欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長(zhǎng)資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            有著“年度 AI 風(fēng)向標(biāo)”之稱GTC 大會(huì)是英偉達(dá)每年最重要的發(fā)布平臺(tái)之一,廣納當(dāng)今計(jì)算領(lǐng)域最熱門(mén)話題的相關(guān)培訓(xùn)和見(jiàn)解,并為廣大開(kāi)發(fā)者創(chuàng)造與頂級(jí)專家交流的機(jī)會(huì)。12月15日-19日,GTC中國(guó)大會(huì)首次以線上大會(huì)的形式與開(kāi)發(fā)者相見(jiàn),共組織265場(chǎng)技術(shù)演講,演講者分別來(lái)自百度、阿里、騰訊、字節(jié)跳動(dòng)等眾多知名企業(yè)與清華大學(xué)、中科院計(jì)算所等知名高校。百度飛槳也貢獻(xiàn)了四個(gè)主題演講,現(xiàn)在為您帶來(lái)飛槳大規(guī)模分布式訓(xùn)練進(jìn)展與應(yīng)用的演講實(shí)錄。

            課程鏈接:https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20351

            AI Studio鏈接:https://aistudio.baidu.com/aistudio/education/group/info/2099

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            大規(guī)模分布式訓(xùn)練作為飛槳的重要功能模塊,在并行訓(xùn)練API、并行策略、框架基礎(chǔ)架構(gòu)都有了相應(yīng)的更新升級(jí)。在一小時(shí)的演講中,百度主任研發(fā)架構(gòu)師董大祥圍繞飛槳框架新版本的大規(guī)模訓(xùn)練與應(yīng)用展開(kāi),介紹了大規(guī)模分布式訓(xùn)練的功能、性能、以及在產(chǎn)業(yè)中的實(shí)踐。

            以下為演講實(shí)錄部分:

            飛槳的這次改動(dòng)中主要是對(duì)并行訓(xùn)練API進(jìn)行了全面更新,使代碼變得更加簡(jiǎn)潔,也更方便調(diào)試,另外也對(duì)并行訓(xùn)練的策略進(jìn)行了進(jìn)一步的升級(jí),可以適用于更大規(guī)模的模型參數(shù)。

            飛槳的分布式訓(xùn)練API——Fleet的1.X版本已經(jīng)投入使用,但一直在內(nèi)部不斷地打磨優(yōu)化和一些升級(jí),所以在文檔中處于面向用戶隱藏的狀態(tài)。新版本中,我們固定了分布式訓(xùn)練API,正式面向外部的開(kāi)發(fā)者開(kāi)放,同時(shí)也把一些主流的訓(xùn)練模式,包括集合通信訓(xùn)練和參數(shù)服務(wù)器訓(xùn)練,做成統(tǒng)一的Fleet API(paddle.distributed.fleet),并在集合通信訓(xùn)練功能下實(shí)現(xiàn)了動(dòng)態(tài)圖和靜態(tài)圖訓(xùn)練API的統(tǒng)一。

            如下三份代碼分別展示了采用參數(shù)服務(wù)器訓(xùn)練、集合通信訓(xùn)練的動(dòng)態(tài)圖和靜態(tài)圖方式訓(xùn)練模型的示例代碼,可以看到僅需要幾行代碼的新增即可完成單機(jī)轉(zhuǎn)化為分布式訓(xùn)練的目標(biāo)。

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            為了讓用戶能夠靈活定義不同的分布式訓(xùn)練模式,我們開(kāi)放了分布式加速策略distributed strategy類供用戶定義并行訓(xùn)練的策略,比如我們可以去定義同步訓(xùn)練或者異步訓(xùn)練,可以去定義自動(dòng)和精度訓(xùn)練等等。如下是distributed strategy類涵蓋的一些分布式加速策略API,幾乎囊括了所有能夠用到的分布式訓(xùn)練加速策略。

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            另外我們考慮到用戶的調(diào)試體驗(yàn),也在執(zhí)行方式上做了改進(jìn),如果用戶采用Fleet去寫(xiě)分布式訓(xùn)練的代碼,在單機(jī)和多機(jī)上都可以執(zhí)行訓(xùn)練。Fleet API識(shí)別出來(lái)用戶在跑單機(jī)訓(xùn)練,就會(huì)在底層屏蔽掉一些多機(jī)的邏輯,另一個(gè)就是用戶可以去使用fleetrun的啟動(dòng)接口執(zhí)行單機(jī)多卡的任務(wù)或多機(jī)多卡的任務(wù),需要強(qiáng)調(diào)的就是這兩種執(zhí)行方式都是同一份代碼,也就是用戶可以很容易的在多機(jī)多卡和單機(jī)單卡之間做切換和調(diào)試。

            飛槳新版本也開(kāi)放了分布式通信的底層API,面向高級(jí)用戶提供了可微分的分布式編程能力,開(kāi)放了比如broadcast、all_reduce、reduce、all_gather等操作的前向與反向操作,還會(huì)開(kāi)放更多的底層接口來(lái)滿足開(kāi)發(fā)者修改底層通信邏輯的需求。

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            與友商的性能對(duì)比

            GPU卡具有顯存限制,這使得模型大小及訓(xùn)練的Batch大小存在上限。我們?cè)O(shè)計(jì)了低成本擴(kuò)大Batch的方法,gradient_merge梯度累積,對(duì)于不含BatchNormalization的模型有較好擴(kuò)展性,性能幾乎無(wú)損。另外我們還提供了半精度通信等橫向擴(kuò)展的能力,假使我們?cè)谟?xùn)練的過(guò)程中使用的是一些比較老的GPU集群,比如p40不支持 FP16的計(jì)算,但是在通信的過(guò)程中是可以把 FP32精度量化為FP16精度后再進(jìn)行通信,這樣可以在訓(xùn)練精度幾乎無(wú)損的情況下降低網(wǎng)絡(luò)帶寬占用。通過(guò)實(shí)測(cè),P40下單機(jī)八卡訓(xùn)練VGG16模型,訓(xùn)練吞吐可以提升70%。

            在超大規(guī)模模型參數(shù)的GPU訓(xùn)練支持上,飛槳框架2.0的RC版本推出sharding策略,開(kāi)發(fā)者使用sharding策略即可訓(xùn)練參數(shù)超過(guò)百億、甚至千億級(jí)別的模型,例如openAI的GPT-3模型,百度的Plato模型。sharding策略的原理是利用模型分片存儲(chǔ),把超大規(guī)模模型參數(shù)的維護(hù)分布在各個(gè)GPU卡上,并通過(guò)集合通信操作All-Gather來(lái)實(shí)現(xiàn)模型參數(shù)的臨時(shí)獲取,在計(jì)算利用局部模型參數(shù)進(jìn)行計(jì)算完成后即釋放臨時(shí)維護(hù)的模型參數(shù)。

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            飛槳當(dāng)前的并行策略與選項(xiàng)開(kāi)關(guān)較多,面向初級(jí)用戶的使用仍然存在一定的門(mén)檻,在新版本中,面向用戶提供可以自動(dòng)并行的第一級(jí)(O1)功能,即并行策略組合功能,飛槳在用戶開(kāi)啟自動(dòng)并行選項(xiàng)時(shí)即可在底層自動(dòng)打開(kāi)盡可能幫助用戶加速的并行策略。在隨后的版本中,飛槳還會(huì)逐漸開(kāi)放更高級(jí)的自動(dòng)并行功能,例如在運(yùn)行時(shí)動(dòng)態(tài)調(diào)整并行策略等。

            在適配多硬件進(jìn)行分布式訓(xùn)練方面,飛槳正式推出異構(gòu)參數(shù)服務(wù)器訓(xùn)練架構(gòu),充分利用AI芯片的計(jì)算能力提升訓(xùn)練吞吐,并兼容新接入的硬件進(jìn)行并行訓(xùn)練,例如百度的XPU芯片。

          GTC大會(huì)飛槳專家演講實(shí)錄:簡(jiǎn)單易用的飛槳分布式訓(xùn)練功能升級(jí)

            飛槳框架新版本全面升級(jí)了面向開(kāi)發(fā)者的編程接口,在分布式訓(xùn)練方面也本著持續(xù)降低用戶使用門(mén)檻的方向進(jìn)行編程接口的設(shè)計(jì),同時(shí)也兼顧高級(jí)的開(kāi)發(fā)者進(jìn)行底層通信邏輯修改的需求開(kāi)放底層API。在并行訓(xùn)練的策略、功能升級(jí)方面,飛槳也持續(xù)提升了并行訓(xùn)練的橫向擴(kuò)展性和縱向擴(kuò)展性,提供目前最火熱GPT家族模型訓(xùn)練能力,支持千億模型參數(shù)的GPU訓(xùn)練,在對(duì)接硬件生態(tài)方面也推出了大規(guī)模異構(gòu)參數(shù)服務(wù)器訓(xùn)練架構(gòu),方面更多的硬件快速接入飛槳分布式訓(xùn)練能力。

            【關(guān)于飛槳】

            飛槳(PaddlePaddle)以百度多年的深度學(xué)習(xí)技術(shù)研究和業(yè)務(wù)應(yīng)用為基礎(chǔ),是中國(guó)首個(gè)開(kāi)源開(kāi)放、技術(shù)領(lǐng)先、功能完備的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),包括飛槳開(kāi)源平臺(tái)和飛槳企業(yè)版。飛槳開(kāi)源平臺(tái)包含核心框架、基礎(chǔ)模型庫(kù)、端到端開(kāi)發(fā)套件與工具組件,持續(xù)開(kāi)源核心能力,為產(chǎn)業(yè)、學(xué)術(shù)、科研創(chuàng)新提供基礎(chǔ)底座。飛槳企業(yè)版基于飛槳開(kāi)源平臺(tái),針對(duì)企業(yè)級(jí)需求增強(qiáng)了相應(yīng)特性,包含零門(mén)檻AI開(kāi)發(fā)平臺(tái)EasyDL和全功能AI開(kāi)發(fā)平臺(tái)BML。EasyDL主要面向中小企業(yè),提供零門(mén)檻、預(yù)置豐富網(wǎng)絡(luò)和模型、便捷高效的開(kāi)發(fā)平臺(tái);BML是為大型企業(yè)提供的功能全面、可靈活定制和被深度集成的開(kāi)發(fā)平臺(tái)。

          特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)