大模型下半場：Agent時代為何更需要開源模型

訪客 8個月前 (04-30) 閱讀數 163 #區塊鏈

文章標簽前沿文章

來源：硅兔賽跑

世間建筑可以分為兩種，一種是集市，天天開放在那里，從無到有，從小到大；一種是教堂，幾代人嘔心瀝血，歷盡幾十年方能完工。Eric Raymond在《大教堂與集市》中如是寫道。

而Linux的故事，更像是用集市的方式，建造一座大教堂。如今，在生成式人工智能領域，越來越多的開源模型正在為這樣的“建造模式”貢獻新的案例。

阿里云，是開源模型的堅定追逐者。目前，通義千問Qwen衍生模型數量已突破10萬，超越美國Llama模型，通義成為全球第一AI開源模型。

4月29日凌晨，阿里發布新一代通義千問模型Qwen3（簡稱千問3），參數量僅為DeepSeek-R1的三分之一，為235B，成本大幅下降。

據悉，千問3是國內首個“混合推理模型”，“快思考”與“慢思考”集成進同一個模型，對簡單需求可低算力“秒回”答案，對復雜問題可多步驟“深度思考”，大大節省算力消耗。

2023年至今，阿里通義團隊已經開源了200多款模型，包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列，開源囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態，覆蓋從小到大全尺寸參數，滿足不同的終端需求。

千問3的總參數量為235B，激活僅需22B。千問3預訓練數據量達36T ，并在后訓練階段多輪強化學習，將非思考模式無縫整合到思考模型中。

千問3的部署成本還大幅下降，僅需4張H20即可部署千問3滿血版，顯存占用僅為性能相近模型的三分之一。

阿里的開源模型發布，對行業意味著什么？開源模型的能力如何？未來的大模型競爭將會走向何方？

01?開源大模型的能力正在后來居上

開源大模型的能力正在趕上閉源模型。

這是筆者在詢問了多位AI創業者、大廠大模型開發者及投資人后的共識。

盡管，他們也同意，如今還是閉源模型處于領先地位，但開源模型和閉源模型之間的差距正在逐步縮小，而這樣的速度，令業界始料未及。

“閉源模型先做到了90分，但如今，開源模型也能夠做到90分的水平。”一位大模型開發人員表示。Scaling Law總有瓶頸，這個瓶頸所體現的便是模型越大，能力提升、付出的成本則是成倍增加，因此給了開源模型追趕的時間。

是開源模型究竟開放了什么？其與開源軟件有什么區別？又與閉源模型的差異體現在哪里？

開源軟件通常是公開源代碼的全貌，允許開發者查看、修改，后續開發者可以很容易根據代碼復現相應的功能實現。但開源模型一般只開源參數，至于其中用了什么數據、如何微調、如何對齊，卻難以知曉。閉源模型則是直接提供一整套方案。可以理解為，開源模型是基于原有的材料，需要廚師自備工具、菜單、研究做法，但究竟能不能做出一道好菜，全靠廚師功力。閉源模型則是預制菜，加熱即用。

但開源模型的好處在于，能夠讓更多開發者參與到模型的開發中，幫助模型提升性能、完善生態，并且靈活性強。這能夠幫助模型公司省去很多人力成本和時間成本。對于使用開源模型的一方，也是一種節省成本的方式。

不過，開源模型的成本優勢在前期，舉個例子，據計算，閉源模型GPT-4每百萬個代幣輸入的成本約為10美元，每百萬個代幣輸出的成本約為30美元，而開源模型Llama-3-70-B每百萬個代幣輸入的成本約為 60 美分，每百萬個代幣輸出的成本約為 70 美分，這使其成本大約便宜 10 倍，而性能差異卻很小。但如果涉及到后續的部署，則需要極強的技術實力和投入。

不過，阿里此次發布的千問3，也正在逐步解決成本投入的問題，以阿里新發布的千問3為例，從部署成本看，千問3是滿血版R1的25%～35%，模型部署成本大降六/七成。旗艦版千問3模型的總參數235B激活22B，大致需要4張H20或同等性能的GPU。對比來看，滿血版DeepSeek-R1總參數671B激活37B，1臺8卡H20雖然可跑，但較吃緊（100w左右），一般推薦16卡H20，總價約200萬左右。

模型推理上看，千問3獨特的混合推理模型，開發者可自行設置“思考預算”，在滿足性能需求的同時實現更精細化的思考控制，自然也會節省整體推理成本。可以參考的是，同類型的Gemini-2.5-Flash在定價上的推理和非推理模式的價格相差約6倍，用戶使用非推理模式時相當于可節省600%的算力成本。

一位大廠從事大模型開發人員告訴硅兔君，開源模型更適合于有很強技術實力，但沒有足夠預算的團隊，例如學術機構。而閉源模型則適合人少錢多的公司。不過，隨著開源模型能力的提升，有41%的受訪企業計劃增加對開源模型的使用，而41%的企業認為如果開源模型和閉源模型性能相當，會轉向開源模型。在這項調查中，僅有18%的企業不打算增加對開源LLM的使用。

A16z創始人馬克·安德里森就表示，開源，讓大學重新回到競爭中，因為，如果研究者的擔心是，第一，大學沒有足夠的資金來參與AI領域的競爭并保持相關性；其次，所有大學加在一起也沒有足夠的資金來參與競爭，因為沒有人能夠跟上這些大型公司的籌資能力。而當開源模型越來越多且能力上來之后，就意味著大學可以使用開源模型進行研究。對沒有足夠資金的小公司而言，這個邏輯同樣成立。

?硅兔君制圖

02?大模型的東方啟示

DeepSeek的橫空出世，讓諸多人發現了中國公司開源模型的能力。

“Deep Seek代表的是輕量化、低成本的AI產品。”一位中美AI投資人表示，舉個例子，混合專家模型（MoE）的調整需要極高的工藝，過去的主流模型使用MoE的并不多，是因為難，但是“小孩不信邪”，卻把這件事做成了。

但開源模型最重要的是生態，也就是說到底有多少人用。畢竟，要切換不同的模型，對用戶而言是極高的成本。不過，當DeepSeek橫空出世之后，在硅谷一些用Meta的大模型的用戶也切換到了DeepSeek，“后來者一定要比先發者有足夠的優勢。”一位大模型研發人員表示，這樣才會吸引用戶放棄前期投入的成本，切換到新的開源模型上來。

硅兔君整理了目前全球知名模型的開源和閉源情況發現，除了亞馬遜，微軟、谷歌、Meta、OpenAI都有開源模型的布局，一些公司選擇純開源路線、一些選擇開源和閉源并行，在中國，阿里是在開源道路上走得最堅定的大廠。早在DeepSeek發布R1前，阿里就在開源模型上押注和布局。

全球知名模型開源情況

根據李飛飛的《斯坦福人工智能報告2025》，2024年中，阿里發布的著名AI大模型數量為6個，位于全球第三，谷歌和Open AI并列第一，為7個。而在報告中所提及的2024年重要大模型排名，阿里的AI貢獻度位列全球第三。

來源：《斯坦福人工智能報告2025》

而29日發布的千問3，作為通義千問系列最新一代大語言模型，提供了一系列稠密（Dense）和混合專家（MoE）模型。在推理、指令跟隨、智能體能力和多語言支持方面取得了突破性的進展，具有以下特性：

1) 獨特的混合推理：支持在思考模式（用于復雜邏輯推理、數學和編碼）和非思考模式（用于高效通用對話）之間無縫切換，確保在各種場景下的最佳性能。

2) 顯著增強的推理能力：在數學、代碼生成和常識邏輯推理方面超越了之前的 QwQ（在思考模式下）和Qwen2.5-Instruct 指令模型（在非思考模式下）。

3) 更好的人類偏好對齊：在創意寫作、角色扮演、多輪對話和指令跟隨方面表現出色，提供更自然、更吸引人和更具沉浸感的對話體驗。

4) 智能體能力突出：可以在思考和非思考模式下精確集成外部工具，在復雜的基于代理的任務中在開源模型中表現領先。

5) 強大的多語言能力：支持119 種語言和方言，具備強大的多語言指令跟隨和翻譯能力。

其中所提到的“混合推理”，相當于把頂尖的推理模型和非推理模型集成到同一個模型里去，需要極其精細、創新的設計及訓練。目前，熱門模型中只有千問3、Claude3.7以及Gemini 2.5 Flash可以做到。

具體而言，在“推理模式”下，模型會執行更多中間步驟，如分解問題、逐步推導、驗證答案等，給出更深思熟慮的答案；而在“非推理模式”下，模型會直接生成答案。同一個模型，可以完成“快思考”和“慢思考”，這類似于人類在回答簡單問題時，憑經驗或直覺快速作答，面對復雜難題時再深思熟慮，仔細思考給出答案。千問3還可API設置“思考預算”（即預期最大thinking tokens數量），進行不同程度的思考，讓模型在性能和成本間取得更好的平衡，以滿足開發者和機構的多樣需求。

Qwen3的性能情況

對中國而言，開源模型的做法也比閉源模型能夠吸引更多客戶，因為如果是閉源的模型，只能更多集中在國內市場，但開源則能夠讓更多國外公司也進行使用，舉個例子：Perplexity是一家美國公司，但用戶可以在Perplexity上使用DeepSeek R1，并完全托管在美國，使用美國的數據中心。

03 大模型的下半場

2023年3月，在舊金山的探索館一場開源AI盛會上，羊駝漫步在會場上，致敬了Meta的開源大語言模型“LLaMA”。

2023年至今，一年多時間里，生成式AI正在不斷發生變化。公眾的關注點已從基礎模型變為AI原生的應用。在YC W25的Demo Day中，80%的項目都是AI應用。

“開源模型將會促進更多Agent的落地。”多位業界人士向硅兔君表達了這個觀點。一方面是開源將會降低使用成本及門檻。

例如千問3 有很強的工具調用能力，在伯克利函數調用BFCL評測榜中，千問3創下70.76的新高，將大幅降低Agent調用工具的門檻。同時，可結合 Qwen-Agent 開源框架來充分實現Qwen3 的智能體能力。Qwen-Agent 是一個基于 Qwen 的指令跟蹤、工具使用、規劃和內存功能開發 LLM 應用程序的框架，框架內部封裝了工具調用模板和工具調用解析器，還附帶瀏覽器助手、代碼解釋器和自定義助手等示例應用程序，大大降低了編碼復雜性。千問3原生支持MCP協議，開發者要定義可用工具，可基于 MCP 配置文件，使用 Qwen-Agent 的集成工具或自行集成其他工具，快速開發一個帶有設定、知識庫RAG和工具使用能力的智能體。

不僅如此，阿里的千問3能夠支持不同尺寸模型，千問3對手機、智能眼鏡、智能駕駛、人形機器人等智能設備和場景的部署更為友好，所有企業都可免費下載和商用千問3系列模型，這也將大大加速AI大模型在終端上的應用落地。

另外，有從業者指出，閉源模型在To B端并沒有很好解決信任問題，很多大企業其實并不愿意將自己的業務接入第三方大模型的API，因為這背后是核心數據是否會成為第三方大模型訓練的一部分，這也是開源模型的機會。

有一個說法是，開源作為早期產品，在沒有經過beta測試之前的市場推廣策略，當不知道明天會是什么樣的時候，先開源出來，吸引開發者。當有人用起來的時候，就有了最佳實踐，緊接著就建立起了自己的生態。

不過，由于開源模型的商業鏈條較長，不如閉源模型來得快和清晰，因此業界人士表示，開源模型更多適合家里有錢有資源的“富二代”的游戲。以Meta來說，Meta做開源模型，更多是搭建生態，為Meta其他業務板塊提供支持。阿里做開源的邏輯，則更多是為其云服務。阿里有很強的云設施服務，可以在此基礎上訓練大模型，另外也可以將大模型部署在自己的云服務商，甚至可以根據用戶部署定制專屬大模型，用這樣的方式走通商業邏輯。

“我的模式是，讓大公司、小公司和開源相互競爭。這就是計算機行業發生的事情。”馬克·安德里森曾表示。而在大模型逐漸變成如水、電、煤一樣的標準化產品，開源可能更適合未來的方向。

上一篇：孫宇晨：火幣HTX全球化戰略成果顯著，未來將關注美國市場下一篇：彭博分析師：XRP、SOL等9支現貨加密資產ETF獲批概率均超75%

巨爆乳肉感一区二区三区视频动漫-67194线路一直接进入骚逼-亚洲精品无码一区二区三区四虎-亚洲国产精品有码-国产精品99无码一区二区视频-免费观看A黄色

大模型下半場：Agent時代為何更需要開源模型

01?開源大模型的能力正在后來居上

02?大模型的東方啟示

03 大模型的下半場