DeepSeek預(yù)示算力需求國產(chǎn)精品99久久久精品無碼國產(chǎn)精品51麻豆CM傳媒國產(chǎn)精品186在線觀看在線播放國產(chǎn)精品.XX視頻.XXTV國產(chǎn)精一品亞洲二區(qū)在線播放“打骨折”？業(yè)界：別只盯著訓(xùn)練 AI行業(yè)進(jìn)入推理時代

2025-01-05 06:47:37 分類：國產(chǎn)偷抇久久精品A片69探花閱讀(9)

DeepSeek預(yù)示算力需求“打骨折”？打骨折業(yè)界：別只盯著訓(xùn)練 AI行業(yè)進(jìn)入推理時代 2024年12月30日 09:14 來源：財聯(lián)社小中大東方財富APP

方便，快捷

手機(jī)查看財經(jīng)快訊

專業(yè)，預(yù)示業(yè)界豐富

一手掌握市場脈搏

手機(jī)上閱讀文章

提示：

微信掃一掃

分享到您的算力時代

朋友圈

摘要【DeepSeek預(yù)示算力需求“打骨折”？業(yè)界：別只盯著訓(xùn)練 AI行業(yè)進(jìn)入推理時代】日前，深度求索DeepSeek-V3橫空出世，需求訓(xùn)練行業(yè)在AI行業(yè)內(nèi)引發(fā)巨震，進(jìn)入關(guān)鍵原因之一就是推理國產(chǎn)精一品亞洲二區(qū)在線播放預(yù)訓(xùn)練成本之低——這個參數(shù)量高達(dá)671B的大模型，在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個月，打骨折且只花費(fèi)557.6萬美元。預(yù)示業(yè)界與此同時，算力時代DeepSeek-V3相比其他前沿大模型，需求訓(xùn)練行業(yè)性能卻足以比肩乃至更優(yōu)。進(jìn)入

　　日前，推理深度求索DeepSeek-V3橫空出世，打骨折在AI行業(yè)內(nèi)引發(fā)巨震，預(yù)示業(yè)界關(guān)鍵原因之一就是算力時代國產(chǎn)精品.XX視頻.XXTV預(yù)訓(xùn)練成本之低——這個參數(shù)量高達(dá)671B的大模型，在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個月，且只花費(fèi)557.6萬美元。與此同時，DeepSeek-V3相比其他前沿大模型，性能卻足以比肩乃至更優(yōu)。

　　在這背后，DeepSeek-V3采用了用于高效推理的多頭潛在注意力（MLA）和用于經(jīng)濟(jì)訓(xùn)練的DeepSeekMoE。研發(fā)團(tuán)隊證明，多Token預(yù)測目標(biāo)（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推測解碼。后訓(xùn)練方面，DeepSeek V3引入了一種創(chuàng)新方法，將推理能力從長思維鏈模型（DeepSeek R1）中，國產(chǎn)精品186在線觀看在線播放蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時，保持了DeepSeek V3的輸出風(fēng)格和長度控制。

　　有觀點認(rèn)為，DeepSeek-V3極低的訓(xùn)練成本或許預(yù)示著AI大模型對算力投入的需求將大幅下降，甚至有觀點將27日A股算力概念的下跌與之聯(lián)系在一起。但也有觀點認(rèn)為，DeepSeek表現(xiàn)固然優(yōu)秀，但其統(tǒng)計口徑只計算了預(yù)訓(xùn)練，數(shù)據(jù)的配比需要做大量的預(yù)實驗，合成數(shù)據(jù)的生成和清洗也需要消耗算力。此外，在訓(xùn)練上做降本增效不代表算力需求會下降，只代表大廠可以用性價比更高的國產(chǎn)精品51麻豆CM傳媒方式去做模型極限能力的探索。

　　“最重要的是，我們正式進(jìn)入了分布式推理時代?！?談及DeepSeek-V3時，Lepton AI創(chuàng)始人兼CEO賈揚(yáng)清針對推理方面指出，“一臺單GPU機(jī)器（80×8=640G）的顯存已經(jīng)無法容納所有參數(shù)。雖然更新大顯存機(jī)器確實可以裝下模型，但不論如何，都需要分布式推理來保證性能和未來擴(kuò)展?！?/p>

　　中信證券研報也指出，近日，DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注，其在保證了模型能力的前提下，訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的國產(chǎn)精品99久久久精品無碼發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠，助力AI應(yīng)用廣泛落地；同時訓(xùn)練效率大幅提升，亦將助力推理算力需求高增。

　　▌AI行業(yè)“下一件大事”？

　　“我們已經(jīng)達(dá)到了數(shù)據(jù)峰值……AI預(yù)訓(xùn)練時代無疑將終結(jié)?！?OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家Ilya Sutskever前不久曾如此斷言。

　　多位AI投資人、創(chuàng)始人和CEO們在接受采訪時都表示，AI的Scaling Law定律的收益正在逐步衰減。

　　包括a16z合伙人Anjney Midha、微軟CEO Satya Nadella在內(nèi)，AI行業(yè)CEO、研究人員和投資人們，已經(jīng)發(fā)出了新的判斷：我們正處于一個新的Scaling Law時代——“測試時間計算時代”，即“推理時代”。這項能力讓AI模型在回答問題之前，能有更多時間和算力來“思考”，“這特別有希望成為下一件大事” 。

　　▌AI應(yīng)用崛起呼喚推理算力

　　為什么推理如此關(guān)鍵？

　　除了“舊版Scaling Law”效應(yīng)衰減之外，還有一個原因就在于AI應(yīng)用——英偉達(dá)競爭對手、AI芯片制造商Cerebras曾如此解釋，“快速推理是解鎖下一代AI應(yīng)用的關(guān)鍵。從語音到視頻，有了快速推理之后，以前無法實現(xiàn)的響應(yīng)式智能應(yīng)用程序?qū)⒊蔀榭赡?。?

　　以近期風(fēng)頭大盛的豆包為例，不久前豆包大家族全面更新，豆包大模型應(yīng)用場景不斷拓展，民生證券指出，這使得對推理算力的需求不斷攀升，主要集中在硬件設(shè)備算力需求、數(shù)據(jù)中心規(guī)模擴(kuò)張需求、通信網(wǎng)絡(luò)需求三方面。

　　具體而言，豆包大模型將帶來多少推理端的算力需求增量？分析師根據(jù)目前豆包的月活、日活以及日均token調(diào)用量為基礎(chǔ)，做出保守、中性、樂觀3種假設(shè)，預(yù)計豆包大模型或?qū)?59、1139、1898億元的AI服務(wù)器資本開支需求。

　　隨著AI應(yīng)用顯著帶動算力建設(shè)，分析師指出，字節(jié)算力資本開支持續(xù)攀升。

　　另外，上周還有報道指出，小米正在著手搭建自己的GPU萬卡集群，將對AI大模型大力投入。小米大模型團(tuán)隊在成立時已有6500張GPU資源。

　　當(dāng)然，字節(jié)跳動與小米不是個例，海外科技巨頭也正在大手筆加大資本開支。據(jù)摩根士丹利預(yù)估，海外四大科技巨頭在2025年的資本開支可能高達(dá)3000億美元，其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。

　　雖說目前暫時無法明確其中有多少資金將用于AI算力建設(shè)，但從這些巨頭此前的種種表態(tài)與近年的資本方向可以想到，AI占比不會太低。

　　Bloomberg Intelligence最近的一篇報告顯示，企業(yè)客戶可能會在2025年進(jìn)行更大規(guī)模的AI投資，而AI支出增長將更側(cè)重于推理側(cè)，以實現(xiàn)投資變現(xiàn)或提升生產(chǎn)力。

　　隨著端側(cè)AI放量，豆包、ChatGPT等AI應(yīng)用快速發(fā)展，多家券商研報指出，算力需求會加速從預(yù)訓(xùn)練向推理側(cè)傾斜，推理有望接力訓(xùn)練，成為下一階段算力需求的主要驅(qū)動力。

　　a16z合伙人Anjney Midha表示，如果推理計算成為擴(kuò)展AI模型性能的下一個領(lǐng)域，那么對專門用于高速推理的AI芯片的需求可能會大幅增加。如果找到答案與訓(xùn)練模型一樣需要大量計算，那么AI領(lǐng)域“賣鏟人”將再次獲勝。

（文章來源：財聯(lián)社）

贊(697)

未經(jīng)允許不得轉(zhuǎn)載：>亞洲AV成人一區(qū)二區(qū)三區(qū)在線觀看 » DeepSeek預(yù)示算力需求國產(chǎn)精品99久久久精品無碼國產(chǎn)精品51麻豆CM傳媒國產(chǎn)精品186在線觀看在線播放國產(chǎn)精品.XX視頻.XXTV國產(chǎn)精一品亞洲二區(qū)在線播放“打骨折”？業(yè)界：別只盯著訓(xùn)練 AI行業(yè)進(jìn)入推理時代

亞洲AV成人一區(qū)二區(qū)三區(qū)在線觀看

相關(guān)推薦

站長推薦

最新發(fā)布

分城市

友情鏈接

回頂部