源:華爾街見(jiàn)聞</p><p> semianalysis分析師爆料,Claude 3.5超大杯被藏起來(lái),只用于內(nèi)部數(shù)據(jù)合成以及強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模。Claude 3.5 Sonnet就是如此訓(xùn)練而來(lái)。不發(fā)布的原因,是因?yàn)椤安粍澦恪薄?/p><p> 傳聞反轉(zhuǎn)了,Claude 3.5 Opus沒(méi)有訓(xùn)練失敗。</p><p> 只是Anthropic訓(xùn)練好了,暗中壓住不公開(kāi)。</p><p> semianalysis分析師爆料,Claude 3.5超大杯被藏起來(lái),只用于內(nèi)部數(shù)據(jù)合成以及強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模。</p><p> Claude 3.5 Sonnet就是如此訓(xùn)練而來(lái)。</p><p><p style=)

使用這種方法,推理成本沒(méi)有明顯提升,但是模型性能更好了。
這么好用的模型,為啥不發(fā)布?
不劃算。
semianalysis分析,相較于直接發(fā)布,Anthropic更傾向于用最好的模型來(lái)做內(nèi)部訓(xùn)練,發(fā)布Claude 3.5 Sonnet就夠了。
這多少讓人不敢相信。

但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架構(gòu)的人。
除此之外,文章還分析了最新發(fā)布的o1 Pro、神秘Orion的架構(gòu)以及這些先進(jìn)模型中蘊(yùn)藏的新規(guī)律。
比如它還指出,搜索是Scaling的另一維度,o1沒(méi)有利用這個(gè)維度,但是o1 Pro用了。
網(wǎng)友:它暗示了o1和o1 Pro之間的區(qū)別,這也是之前沒(méi)有被披露過(guò)的。

新舊范式交迭,大模型還在加速
總體來(lái)看,semianalysis的最新文章分析了當(dāng)前大模型開(kāi)發(fā)在算力、數(shù)據(jù)、算法上面臨的挑戰(zhàn)與現(xiàn)狀。
核心觀點(diǎn)簡(jiǎn)單粗暴總結(jié),就是新范式還在不斷涌現(xiàn),AI進(jìn)程沒(méi)有減速。
文章開(kāi)篇即點(diǎn)明,Scaling law依舊有效。
盡管有諸多聲音認(rèn)為,隨著新模型在基準(zhǔn)測(cè)試上的提升不夠明顯,現(xiàn)有訓(xùn)練數(shù)據(jù)幾乎用盡以及摩爾定律放緩,大模型的Scaling Law要失效了。
但是頂尖AI實(shí)驗(yàn)室、計(jì)算公司還在加速建設(shè)數(shù)據(jù)中心,并向底層硬件砸更多錢(qián)。
比如AWS斥巨資自研了Trainium2芯片,花費(fèi)65億美元為Anthropic準(zhǔn)備40萬(wàn)塊芯片。
Meta也計(jì)劃在2026年建成耗電功率200萬(wàn)千瓦的數(shù)據(jù)中心。
很明顯,最能深刻影響AI進(jìn)程的人們,依舊相信Scaling Law。
為什么呢?
因?yàn)樾路妒皆诓粩嘈纬桑⑶矣行?。這使得AI開(kāi)發(fā)還在繼續(xù)加速。
首先在底層計(jì)算硬件上,摩爾定律的確在放緩,但是英偉達(dá)正在引領(lǐng)新的計(jì)算定律。
8年時(shí)間,英偉達(dá)的AI芯片計(jì)算性能已經(jīng)提升了1000倍。
同時(shí),通過(guò)芯片內(nèi)部和芯片之間的并行計(jì)算,以及構(gòu)建更大規(guī)模的高帶寬網(wǎng)絡(luò)域可以使得芯片更好在網(wǎng)絡(luò)集群內(nèi)協(xié)同工作,特別是推理方面。

其次在數(shù)據(jù)方面也出現(xiàn)了新的范式。
已有公開(kāi)數(shù)據(jù)消耗殆盡后,合成數(shù)據(jù)提供了新的解決途徑。
比如用GPT-4合成數(shù)據(jù)訓(xùn)練其他模型是很多實(shí)驗(yàn)團(tuán)隊(duì)都在使用的技術(shù)方案。
而且模型越好,合成數(shù)據(jù)質(zhì)量就越高。
也就是在這里,Claude 3.5 Opus不發(fā)布的內(nèi)幕被曝光。
它承擔(dān)了為Claude 3.5 Sonnet合成訓(xùn)練數(shù)據(jù)、替代人類(lèi)反饋的工作。
事實(shí)證明,合成數(shù)據(jù)越多,模型就越好。更好的模型能提供更好的合成數(shù)據(jù),也能提供更好的偏好反饋,這能推動(dòng)人類(lèi)開(kāi)發(fā)出更好的模型。
具體來(lái)看,semianalysisi還舉了更多使用綜合數(shù)據(jù)的例子。
包括拒絕采樣、模式判斷、長(zhǎng)上下文數(shù)據(jù)集幾種情況。
比如Meta將Python代碼翻譯成PHP,并通過(guò)語(yǔ)法解析和執(zhí)行來(lái)確保數(shù)據(jù)質(zhì)量,將這些額外的數(shù)據(jù)輸入SFT數(shù)據(jù)集,解釋為何缺少公共PHP代碼。

比如Meta還使用Llama 3作為拒絕采樣器,判斷偽代碼,并給代碼進(jìn)行評(píng)級(jí)。一些時(shí)候,拒絕抽樣和模式判斷一起使用。這種方式成本更低,不過(guò)很難實(shí)現(xiàn)完全自動(dòng)化。
在所有拒絕抽樣方法中,“判官”模型越好,得到數(shù)據(jù)集的質(zhì)量就越高。
這種模式,Meta今年剛剛開(kāi)始用,而OpenAI、Anthropic已經(jīng)用了一兩年。
在長(zhǎng)上下文方面,人類(lèi)很難提供高質(zhì)量的注釋?zhuān)珹I處理成為一種更有效的方法。
然后在RLHF方面,專(zhuān)門(mén)收集大量的偏好數(shù)據(jù)難且貴。
對(duì)于Llama 3,DPO(直接偏好優(yōu)化)比PPO(最近策略?xún)?yōu)化)更有效且穩(wěn)定,使用的計(jì)算也少。但是使用DPO就意味著偏好數(shù)據(jù)集是非常關(guān)鍵的。
如OpenAI等大型公司想到的一種辦法是從用戶(hù)側(cè)收集,有時(shí)ChatGPT會(huì)給出2個(gè)回答并要求用戶(hù)選出更喜歡的一個(gè),因此免費(fèi)收集了很多反饋。
還有一種新的范式是讓AI替人類(lèi)進(jìn)行反饋——RLAIF。

它主要分為兩個(gè)階段。第一階段模型先根據(jù)人類(lèi)編寫(xiě)的標(biāo)準(zhǔn)對(duì)自己的輸出進(jìn)行修改,然后創(chuàng)建出一個(gè)修訂-提示對(duì)的數(shù)據(jù)集,使用這些數(shù)據(jù)集通過(guò)SFT進(jìn)行微調(diào)。
第二階段類(lèi)似于RLHF,但是這一步完全沒(méi)有人類(lèi)偏好數(shù)據(jù)。
這種方法最值得關(guān)注的一點(diǎn)是,它可以在許多不同領(lǐng)域擴(kuò)展。

最后,值得重點(diǎn)關(guān)注的一個(gè)新范式是通過(guò)搜索來(lái)擴(kuò)展推理計(jì)算。
文章中表明,搜索是擴(kuò)展的另一個(gè)維度。OpenAI o1沒(méi)有利用這個(gè)維度,但是o1 Pro用了。
o1在測(cè)試時(shí)階段不評(píng)估多條推理路徑,也不進(jìn)行任何搜索。
Self-Consistency / Majority Vote就是一種搜索方法。
這種方法中,只需在模型中多次運(yùn)行提示詞,產(chǎn)生多個(gè)相應(yīng),根據(jù)給定的樣本數(shù)量,從相應(yīng)中選出出現(xiàn)頻率最高的來(lái)作為正確答案。

除此之外,文章還進(jìn)一步分析了為什么說(shuō)OpenAI的Orion訓(xùn)練失敗也是不準(zhǔn)確的。
本文作者:量子位,來(lái)源:量子位,原文標(biāo)題:《反轉(zhuǎn)!Claude 3.5超大杯沒(méi)有訓(xùn)練失敗,最新爆料:內(nèi)部自留,用于合成數(shù)據(jù)和RL訓(xùn)練》
風(fēng)險(xiǎn)提示及免責(zé)條款
市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶(hù)應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。
" alt="反轉(zhuǎn)!Claude 3.5超大杯沒(méi)有訓(xùn)練失敗,最新爆料:內(nèi)部自留,用于合成數(shù)據(jù)和RL訓(xùn)練">