巨爆乳肉感一区二区三区视频动漫-67194线路一直接进入骚逼-亚洲精品无码一区二区三区四虎-亚洲国产精品有码-国产精品99无码一区二区视频-免费观看A黄色

AI交易大賽落幕 國(guó)產(chǎn)模型奪冠 GPT-5虧損60%

訪客 2個(gè)月前 (11-04) 閱讀數(shù) 253 #區(qū)塊鏈
文章標(biāo)簽 前沿文章

作者:Sleepy.txt

11月4日凌晨,備受矚目的 Alpha Arena AI 交易大賽落幕。

結(jié)果出乎所有人的意料,阿里巴巴的 Qwen 3 Max 以 22.32% 的收益率奪冠,另一家中國(guó)公司 DeepSeek 位居第二,收益率 4.89%。

而來(lái)自硅谷的四位明星選手則全線潰敗。OpenAI 的 GPT-5 虧損 62.66%,Google 的 Gemini 2.5 Pro 虧損 56.71%,馬斯克旗下的 Grok 4 虧損 45.3%,Anthropic 的 Claude 4.5 Sonnet 也虧損了 30.81%。

所有模型的交易曲線|圖源:nof1

這場(chǎng)比賽其實(shí)是一場(chǎng)特殊的實(shí)驗(yàn)。10 月 17 日,美國(guó)研究公司 Nof1.ai 將六個(gè)全球頂尖的大語(yǔ)言模型投入真實(shí)的加密貨幣市場(chǎng),每個(gè)模型都獲得 1 萬(wàn)美元初始資金,在去中心化交易平臺(tái) Hyperliquid 上進(jìn)行為期 17 天的永續(xù)合約交易。永續(xù)合約是一種沒(méi)有到期日的衍生品,允許交易者通過(guò)杠桿放大收益,不過(guò)與此同時(shí)也會(huì)放大風(fēng)險(xiǎn)。

這些 AI 的起點(diǎn)相同,市場(chǎng)數(shù)據(jù)也相同,但最終結(jié)果卻完全不同。

這不是一次在虛擬環(huán)境中的跑分測(cè)試,而是一場(chǎng)真金白銀的生存游戲。當(dāng) AI 離開實(shí)驗(yàn)室的「無(wú)菌」環(huán)境,第一次面對(duì)動(dòng)態(tài)、對(duì)抗、充滿不確定性的真實(shí)市場(chǎng),它們的選擇將不再由模型參數(shù)決定,而是由對(duì)風(fēng)險(xiǎn)、貪婪與恐懼的理解決定。

這場(chǎng)實(shí)驗(yàn)讓人們第一次看到當(dāng)所謂的「智能」面對(duì)真實(shí)世界的復(fù)雜性時(shí),模型的優(yōu)雅表現(xiàn)往往難以為繼,暴露出訓(xùn)練之外的缺陷。

從做題家到交易員

長(zhǎng)久以來(lái),人們用各種靜態(tài)基準(zhǔn)來(lái)衡量 AI 的能力。

從 MMLU 到 HumanEval,AI 在這些標(biāo)準(zhǔn)化考卷上拿到越來(lái)越高的分?jǐn)?shù),甚至已經(jīng)超過(guò)人類。但這些測(cè)試的本質(zhì),就像在一間安靜的房間里做題,而且題目和答案都是固定的,AI 只需要在海量數(shù)據(jù)中尋找最優(yōu)解。哪怕是最復(fù)雜的數(shù)學(xué)題,它也可以把答案背下來(lái)。

而真實(shí)世界,尤其是金融市場(chǎng),完全不同。

那不是一個(gè)靜止的題庫(kù),而是一座不斷變化、充滿噪音與欺騙的競(jìng)技場(chǎng)。這里是零和博弈,一個(gè)人的盈利必然意味著另一個(gè)人的虧損。價(jià)格的波動(dòng)從來(lái)不只是理性的計(jì)算結(jié)果,也被人類的情緒裹挾著,貪婪、恐懼、僥幸、猶豫,在每一次價(jià)格跳動(dòng)中都清晰可見。

更復(fù)雜的是,市場(chǎng)本身會(huì)對(duì)人的行為做出反應(yīng),當(dāng)所有人都相信價(jià)格會(huì)漲時(shí),價(jià)格往往已經(jīng)漲到了頂點(diǎn)。

這種反饋的機(jī)制不斷修正、反噬、懲罰確定性,也讓任何靜態(tài)測(cè)試都顯得蒼白無(wú)力。

Nof1.ai 發(fā)起的 Alpha Arena 就是想把 AI 扔進(jìn)一個(gè)真實(shí)的社會(huì)熔爐。每個(gè)模型都被給予真金白銀,虧損是真虧,盈利也是真賺。

模型必須獨(dú)立完成分析、決策、下單和風(fēng)控。這等于是給了每個(gè) AI 一間獨(dú)立的交易室,讓它從「做題家」變成「交易員」。它要決定的不只是開倉(cāng)方向,還包括倉(cāng)位的大小、出手的時(shí)機(jī),以及要不要止損或者止盈。

不同模型的操作記錄|圖源:nof1

更重要的是,它們的每一個(gè)決策都會(huì)改變實(shí)驗(yàn)環(huán)境,買入推高價(jià)格,賣出壓低價(jià)格,止損可能保命,也可能錯(cuò)過(guò)反彈。市場(chǎng)是流動(dòng)的,任何一步都在塑造下一步的局面。

這場(chǎng)實(shí)驗(yàn)想回答的是一個(gè)更根本的問(wèn)題,AI 是否真正理解風(fēng)險(xiǎn)。

在靜態(tài)測(cè)試中,它可以靠記憶與模式匹配無(wú)限接近「正確答案」;但在一個(gè)沒(méi)有標(biāo)準(zhǔn)答案、充滿噪音與反饋的真實(shí)市場(chǎng)里,當(dāng)它必須在不確定中行動(dòng)時(shí),它的「智能」還能維持多久?

市場(chǎng)給 AI 上了一課

比賽的進(jìn)程比想象中更戲劇性。

10 月中旬,加密貨幣市場(chǎng)波動(dòng)劇烈,比特幣的價(jià)格幾乎每天都在上躥下跳。六個(gè) AI 模型,就是在這樣的環(huán)境里開始了它們的首次實(shí)盤交易。

競(jìng)賽期間比特幣價(jià)格走勢(shì)|圖源:TradingView

到 10 月 28 日,也就是比賽過(guò)半時(shí),中期榜單出爐。DeepSeek 的賬戶價(jià)值飆升至 2.25 萬(wàn)美元,收益率高達(dá) 125%。換句話說(shuō),它在短短 11 天內(nèi)就讓資金翻了一倍還多。

阿里巴巴的 Qwen 緊隨其后,收益率突破 100%。就連后來(lái)敗下陣來(lái)的 Claude 和 Grok,當(dāng)時(shí)也還保持著 24% 和 13% 的盈利。

社交媒體迅速沸騰起來(lái)。有人開始討論是否該把自己的投資組合交給 AI 管理,也有人半開玩笑地說(shuō)也許 AI 真的找到了穩(wěn)賺不賠的交易密碼。

然而,市場(chǎng)的殘酷很快顯現(xiàn)出來(lái)。

進(jìn)入 11 月初,比特幣在 11 萬(wàn)美元附近徘徊,波動(dòng)性急劇放大。那些在上漲階段一路加碼的模型,在市場(chǎng)掉頭的瞬間遭遇重創(chuàng)。

最后,只剩下兩個(gè)來(lái)自中國(guó)的模型守住了利潤(rùn),美國(guó)陣營(yíng)的表現(xiàn)則是一場(chǎng)潰敗。這場(chǎng)過(guò)山車般的比賽,讓我們第一次清楚地看到,那些我們?cè)詾檫b遙領(lǐng)先的 AI,在真實(shí)市場(chǎng)面前并沒(méi)有想象中那樣聰明。

交易策略的分野

從交易數(shù)據(jù)里,能看出每個(gè) AI 的「性格」。

Qwen 在 17 天里只交易了 43 次,平均每天不到三次,是所有選手中最克制的一個(gè)。它的勝率并不突出,但每次出手的盈虧比極高,單筆最大盈利達(dá)到 8176 美元。

換句話說(shuō),Qwen 并不是「預(yù)測(cè)最準(zhǔn)」,而是「下注最有紀(jì)律」。它只在確定的時(shí)刻行動(dòng),而在不確定時(shí)選擇按兵不動(dòng)。這種高信號(hào)質(zhì)量策略,讓它在市場(chǎng)回調(diào)時(shí)回撤有限,最終保住了勝利果實(shí)。

DeepSeek 的出手次數(shù)與 Qwen 相近,17 天里只有 41 次,但它的表現(xiàn)更像一名謹(jǐn)慎的基金經(jīng)理。它的夏普比率在所有選手中最高,達(dá)到 0.359,在高波動(dòng)的加密貨幣市場(chǎng),這個(gè)數(shù)字已經(jīng)相當(dāng)難得。

放在傳統(tǒng)金融市場(chǎng),夏普比率通常用來(lái)衡量風(fēng)險(xiǎn)調(diào)整后的收益。數(shù)值越高,說(shuō)明策略越穩(wěn)健。但在這樣短的周期、這樣劇烈的行情里,任何能保持正值的模型都不簡(jiǎn)單。DeepSeek 的成績(jī)說(shuō)明它并不追求最大化收益,而是在高噪音環(huán)境下努力維持平衡。

整個(gè)比賽期間,它始終保持節(jié)奏,不追漲、不盲動(dòng)。更像一個(gè)有嚴(yán)格系統(tǒng)的交易員,寧可放棄機(jī)會(huì),也不讓情緒主導(dǎo)決策。

相比之下,美國(guó) AI 陣營(yíng)的表現(xiàn)暴露出明顯的風(fēng)險(xiǎn)控制問(wèn)題。

Google 的 Gemini 在 17 天里共下了 238 單,平均每天 13 次以上,是所有選手中最頻繁的。如此高頻的出手也帶來(lái)了巨大的成本,光手續(xù)費(fèi)就耗掉 1,331 美元,占初始本金的 13%。在起始資金只有 1 萬(wàn)美元的比賽里,這是一種巨大的自我消耗。

更糟的是,這種頻繁交易并沒(méi)有帶來(lái)額外收益。Gemini 不斷地試錯(cuò)、止損、再試錯(cuò),像一個(gè)沉迷盯盤的散戶,被市場(chǎng)的噪音牽著鼻子走。每一次細(xì)微的價(jià)格波動(dòng),都會(huì)觸發(fā)它的交易指令。它對(duì)波動(dòng)的反應(yīng)過(guò)快,卻對(duì)風(fēng)險(xiǎn)的感知過(guò)慢。

在行為金融學(xué)里,這種失衡有個(gè)名字,過(guò)度自信。交易者高估了自己的預(yù)測(cè)能力,卻忽視了不確定性和成本的積累。Gemini 的失敗正是這種盲目自信的典型后果。

GPT-5 的表現(xiàn)最讓人失望。它的出手次數(shù)并不算多,17 天里一共 116 次,但幾乎沒(méi)有風(fēng)險(xiǎn)控制。最大單筆虧損達(dá)到 622 美元,而最大盈利只有 271 美元,盈虧比嚴(yán)重失衡。它像一個(gè)被信心驅(qū)動(dòng)的賭徒,在行情順風(fēng)時(shí)偶爾能贏上一局,但一旦市場(chǎng)反轉(zhuǎn),虧損便成倍放大。

它的夏普比率為 -0.525,這意味著承擔(dān)的風(fēng)險(xiǎn)沒(méi)有換來(lái)任何回報(bào)。放在投資領(lǐng)域,這樣的結(jié)果幾乎等于「還不如不操作」。

這場(chǎng)實(shí)驗(yàn)再次證明,真正決定勝負(fù)的不是模型預(yù)測(cè)的準(zhǔn)確率,而是它如何處理不確定性。Qwen 和 DeepSeek 的勝出本質(zhì)上是風(fēng)控的勝出。它們似乎更理解,在市場(chǎng)里,先活下來(lái)才有資格談聰明。

真實(shí)市場(chǎng)是 AI 的照妖鏡

Alpha Arena 的結(jié)果,對(duì)當(dāng)下的 AI 評(píng)測(cè)體系是一記重重的嘲諷。那些在 MMLU 等基準(zhǔn)測(cè)試中名列前茅的「聰明模型」來(lái)到真實(shí)市場(chǎng)時(shí)卻節(jié)節(jié)敗退。

這些模型是由無(wú)數(shù)文本堆疊出來(lái)的語(yǔ)言大師,能生成邏輯嚴(yán)密、語(yǔ)法完美的答案,卻未必懂得那些文字真正指向的現(xiàn)實(shí)。

一個(gè) AI 可以在幾秒鐘里寫出一篇關(guān)于風(fēng)險(xiǎn)管理的論文,引用得體、推理完備;它也能準(zhǔn)確解釋什么是夏普比率、最大回撤和風(fēng)險(xiǎn)價(jià)值。但當(dāng)它真正握著資金時(shí),卻可能做出最冒險(xiǎn)的決定。因?yàn)樗皇恰钢馈梗⒉弧咐斫狻埂?/p>

知道和理解,是兩回事。

能說(shuō)和能做,更是天差地別。

這種差距,在哲學(xué)上叫作知識(shí)論問(wèn)題。柏拉圖曾經(jīng)區(qū)分了知識(shí)和真實(shí)信念。知識(shí)不僅僅是正確的信息,還需要理解為什么它是正確的。

今天的大語(yǔ)言模型,也許擁有無(wú)數(shù)「正確的信息」,但它并沒(méi)有那種理解。它可以告訴你風(fēng)險(xiǎn)管理的重要性,卻不知道那份重要性是如何在恐懼與損失中被人類學(xué)會(huì)的。

真實(shí)的市場(chǎng),才是檢驗(yàn)理解能力的終極場(chǎng)所。它不會(huì)因?yàn)槟闶?GPT-5 而網(wǎng)開一面,每一個(gè)錯(cuò)誤的決策都會(huì)立刻以資金的虧損形式反饋到賬戶上。

在實(shí)驗(yàn)室里,AI 可以無(wú)數(shù)次重來(lái),不斷調(diào)參、回測(cè),直到找到所謂的「正確答案」。但在市場(chǎng)里,每一次失誤都意味著真金白銀的損失,而這種損失沒(méi)有回頭路。

市場(chǎng)的邏輯也遠(yuǎn)比模型想象得復(fù)雜。當(dāng)本金虧損 50% 時(shí),需要 100% 的收益才能回到起點(diǎn);當(dāng)虧損擴(kuò)大到 62.66% 時(shí),回本所需的收益將飆升至 168%。這種非線性的風(fēng)險(xiǎn),使得錯(cuò)誤的代價(jià)被成倍放大。AI 在訓(xùn)練中可以通過(guò)算法最小化損失,卻無(wú)法真正體會(huì)這種由恐懼、猶豫和貪婪共同塑造的市場(chǎng)懲罰機(jī)制。

正因如此,市場(chǎng)才成了檢驗(yàn)智能真?zhèn)蔚恼昭R,它能讓人,也讓機(jī)器,看清自己究竟懂了什么,又真正害怕什么。

這場(chǎng)比賽也讓人重新思考中美在 AI 研發(fā)思路上的差異。

美國(guó)的幾家主流公司依然堅(jiān)持通用模型路線,希望構(gòu)建能夠在廣泛任務(wù)中展現(xiàn)穩(wěn)定能力的系統(tǒng)。OpenAI、Google、Anthropic 的模型都屬于這種類型,它們的目標(biāo)是追求廣度與一致性,讓模型具備跨領(lǐng)域的理解與推理能力。

而中國(guó)團(tuán)隊(duì)更傾向于在模型研發(fā)的早期就考慮具體場(chǎng)景的落地與反饋機(jī)制。阿里巴巴的 Qwen 雖然同樣是一款通用大模型,但它的訓(xùn)練和測(cè)試環(huán)境更早與實(shí)際業(yè)務(wù)系統(tǒng)打通,這種來(lái)自真實(shí)場(chǎng)景的數(shù)據(jù)回流,可能在無(wú)形中讓模型更敏感于風(fēng)險(xiǎn)與約束。DeepSeek 的表現(xiàn)也顯示出類似特征,它似乎在動(dòng)態(tài)環(huán)境中能更快地校正決策。

這并不是「誰(shuí)贏誰(shuí)輸」的問(wèn)題。這場(chǎng)實(shí)驗(yàn)提供了一個(gè)窗口,讓我們看到不同訓(xùn)練哲學(xué)在現(xiàn)實(shí)世界中的表現(xiàn)差異。通用模型強(qiáng)調(diào)普適性,卻容易在極端環(huán)境下暴露出反應(yīng)遲鈍的問(wèn)題;而那些更早接觸真實(shí)反饋的模型,可能在復(fù)雜系統(tǒng)中顯得更靈活、更穩(wěn)當(dāng)。

當(dāng)然,一場(chǎng)比賽的結(jié)果可能并不能代表中美 AI 的整體實(shí)力。十七天的交易周期太短,運(yùn)氣的影響難以排除;如果時(shí)間拉長(zhǎng),走勢(shì)或許會(huì)完全不同。更何況這次測(cè)試只涉及加密貨幣永續(xù)合約交易,既不能外推到所有金融市場(chǎng),也不足以概括 AI 在其他領(lǐng)域的表現(xiàn)。

但它足以讓人重新思考什么才算真正的能力。當(dāng) AI 被放進(jìn)真實(shí)環(huán)境、需要在風(fēng)險(xiǎn)與不確定中作出決策時(shí),我們看到的不只是算法的勝負(fù),更是路徑的差異。在把 AI 技術(shù)轉(zhuǎn)化為實(shí)際生產(chǎn)力的這條賽道上,中國(guó)的模型在某些具體領(lǐng)域,已經(jīng)走在了前面。

比賽結(jié)束的那一刻,Qwen 的最后一個(gè)比特幣持倉(cāng)被平掉,賬戶余額定格在 12,232 美元。它贏了,但它并不知道自己贏了。那 22.32% 的收益對(duì)它來(lái)說(shuō)沒(méi)有意義,這只是又一次的執(zhí)行指令。

在硅谷,工程師們或許還在為 GPT-5 的 MMLU 分?jǐn)?shù)又提高了 0.1% 而慶祝。而在地球的另一端,來(lái)自中國(guó)的 AI,剛剛在真金白銀的賭場(chǎng)里,用最樸素的方式證明了,能賺錢的才是好 AI。

Nof1.ai 宣布下一季比賽即將啟動(dòng),周期會(huì)更長(zhǎng),參與者會(huì)更多,市場(chǎng)環(huán)境也會(huì)更復(fù)雜。那些在第一季中失手的模型,會(huì)從虧損中學(xué)到什么嗎?還是會(huì)在更大的波動(dòng)里重演同樣的命運(yùn)?

沒(méi)有人知道答案。但可以確定的是,當(dāng) AI 開始走出象牙塔,用真金白銀證明自己時(shí),一切都變得不一樣了。

熱門
伊人情人综合网| av综合网站| 亚洲狼人精品一区二区三区| 一区二区三区毛片免费| 嫩呦国产一区二区三区av| 99久久激情| 午夜av不卡| 国产亚洲精aa在线看| 啪啪国产精品| 成人影院天天5g天天爽无毒影院| www.久久| av日韩在线播放| 天堂va蜜桃一区二区三区漫画版| 国产成人77亚洲精品www| 亚洲精品456| 黄色成人av网站| 免费日韩成人| 精品国产a一区二区三区v免费| 亚洲欧美清纯在线制服| 国产一区二区三区久久| 爱爱精品视频| 水蜜桃久久夜色精品一区| 久久悠悠精品综合网| 久久国产影院| 国产私拍福利精品视频二区| 日韩av黄色在线| 亚洲在线电影| 一区二区三区国产精华| 欧美va天堂| 日韩精品视频网| 久久精品亚洲人成影院| 亚洲啊v在线| av日韩在线播放| 黑人巨大精品欧美一区二区桃花岛| 欧洲大片精品免费永久看nba| 免费国产自久久久久三四区久久| 成人在线视频免费| 精品久久久中文字幕| 亚洲天堂av影院| 视频精品一区| 桃色一区二区| 九色丨蝌蚪丨成人| 久久婷婷五月综合色丁香| 精品国产午夜肉伦伦影院| 久久精品超碰| 欧美1区2区| 99re8精品视频在线观看| 伊人久久亚洲影院| 国产一区三区在线播放| 亚洲老司机网| 99精品免费网| 图片区亚洲欧美小说区| 亚洲人成在线影院| 日韩天堂av| 啪啪亚洲精品| 日韩欧美中文| 欧美日韩一二| 国产成人影院| 色吧亚洲日本| 亚洲高清不卡| 国产激情综合| 在线免费av资源| 免费观看成人www动漫视频| 美日韩一区二区三区| a91a精品视频在线观看| 欧美禁忌电影| 成人日韩av| 精品69视频一区二区三区Q| 亚洲宅男一区| se69色成人网wwwsex| 精品一区毛片| 精品中文在线| 久久综合导航| 免费观看久久久4p| 99久久久久久中文字幕一区| 欧美精品福利| www.精品| 日韩视频一区| 国产精品丝袜在线播放| 麻豆精品一区二区三区| 蜜臀av一区二区在线观看| 少妇一区二区三区| 国产精品一国产精品| 久草在线资源福利站| 天天操综合520| 日韩激情中文字幕| 日韩国产精品久久| 91视频综合| 五月天久久久| 成人性生交大片免费看96| 国产精品第十页| 三上悠亚国产精品一区二区三区| 外国成人激情视频| 北条麻妃在线一区二区免费播放| 日本网站在线观看一区二区三区| 国产精品13p| 婷婷精品进入| 欧美伦理影院| 亚洲国产aⅴ精品一区二区三区| 亚洲经典一区| 嫩草国产精品入口| 日韩aaa久久蜜桃av| 亚洲网色网站| 国产精品综合色区在线观看| 国产精品高颜值在线观看| 欧美另类综合| 欧美色图一区| 成人中文视频| 精品国模一区二区三区欧美| 日本不卡视频在线| а√天堂资源国产精品| 97精品国产福利一区二区三区| 精品日本12videosex| 999精品视频在这里| 亚洲区小说区| 亚洲日本中文| 麻豆极品一区二区三区| 国产乱子精品一区二区在线观看| 两个人看的在线视频www| 亚洲精品123区| 亚洲精品中文字幕乱码| 久久国产主播| 久久精品国产清高在天天线| 超碰成人在线观看| 日本高清精品| 激情综合五月| 亚洲国产aⅴ精品一区二区| 香蕉国产成人午夜av影院| 亚洲人成精品久久久| 欧美人与物videos另类xxxxx| 国产精品亚洲一区二区在线观看 | 色婷婷色综合| 四季av一区二区三区免费观看| 久久福利精品| 亚洲色诱最新| 免费在线观看一区| 人人狠狠综合久久亚洲| 爽好久久久欧美精品| 国产精品久久久久久久久久10秀| 噜噜爱69成人精品| 免费观看久久久4p| 日韩欧美大片| 欧美91在线|欧美| 日本不卡一二三区黄网| www久久久| 久久av免费| 国产精品午夜av| 美女少妇全过程你懂的久久| 欧美日韩三级| 超碰在线cao| 日韩欧美专区| 高清一区二区| 一区二区三区视频免费视频观看网站| 精品亚洲成人| 欧美日韩国内| 极品在线视频| 久久中文在线| 午夜精品福利影院| 成人羞羞视频播放网站| 夜久久久久久| 日韩中文欧美| 国内精品久久久久久久影视蜜臀| 综合久久综合| 91欧美极品| 不卡中文一二三区| 美女91在线看| 亚洲毛片在线| 99re热精品视频| 免费视频亚洲| 女生影院久久| 中文一区一区三区免费在线观看| 久久久久亚洲精品中文字幕| 人人香蕉久久| 蜜臀av性久久久久蜜臀aⅴ流畅| 中文字幕系列一区| 国产在线一区不卡| 久久国产免费| 97精品国产福利一区二区三区| 久久精品欧洲| 91免费精品国偷自产在线在线| 婷婷久久一区| 99只有精品| 日韩精彩视频在线观看| 91久久高清国语自产拍| 婷婷六月国产精品久久不卡| 亚洲一区二区小说| 在线视频观看日韩| 国产伦理精品| 国产成人久久| 狠狠入ady亚洲精品经典电影| 88xx成人免费观看视频库| 欧洲精品99毛片免费高清观看 | 亚洲欧洲综合| 禁果av一区二区三区| 蜜臀av一级做a爰片久久| 亚洲国产免费| 久久久久综合| 日韩亚洲一区在线| 亚洲精品进入| 国产一级一区二区|