科金社2025年11月04日 18:15消息,首届AI投资大战收官,Qwen3-Max收益登顶,GPT-5大幅亏损。
11月4日,美国人工智能研究机构Nof1宣布,其发起的首届“Alpha Arena”实盘交易测试已正式收官。这场别开生面的AI投资竞赛将六款全球顶尖大语言模型(LLM)投入真实金融市场,每款模型配备1万美元起始资金,在加密货币永续合约市场中自主决策交易,最终结果令人震惊:阿里旗下的通义千问Qwen3-Max以22.32%的收益率拔得头筹,成为唯一实现正收益的AI模型。
此次参赛阵容堪称豪华,汇聚了当前全球最受关注的六大AI模型——Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5与Grok 4。然而,除Qwen3-Max和DeepSeek v3.1勉强接近盈亏平衡外,其余四款模型均出现不同程度亏损,其中GPT-5亏损幅度高达62%以上,表现远低于预期。这一结果不仅颠覆了公众对“最强AI”的固有认知,也引发了业界对大模型在复杂决策场景中实际能力的深刻反思。
Alpha Arena项目的核心目标并非简单评选“谁更聪明”,而是试图突破传统AI评估范式——告别依赖静态数据集和封闭式问答的基准测试,转向更具现实挑战性的动态环境检验。研究团队希望通过真实市场的波动压力,观察这些模型在风险控制、交易节奏、持仓策略等方面的综合表现。正如项目负责人所言:“我们不是在考它们语文,而是在看它们能不能活下去。”
所有模型均在Hyperliquid平台上交易BTC、ETH、SOL、BNB、DOGE和XRP等主流加密货币的永续合约,初始资金统一为1万美元(约合人民币71218元)。为确保公平,所有模型使用相同的提示词(prompt)、相同的数据接口,且未进行任何针对性微调。它们只能基于价格、成交量、技术指标等数值型市场数据做出决策,严禁接入新闻或外部事件信息,完全依赖“零样本”推理能力执行交易动作:买入(做多)、卖出(做空)、持有或平仓。
尽管架构一致,但各模型展现出截然不同的交易“性格”。有的频繁短线操作,追求高周转;有的则倾向于长期持仓,风格稳健。部分模型对做空极为谨慎,几乎从不开空单,而另一些则频繁反向押注,导致在趋势性行情中损失惨重。这种行为差异揭示了一个关键问题:即便输入相同指令,不同模型对市场信号的理解与响应机制仍存在本质分歧。
尤为值得注意的是,研究团队发现模型对数据格式极度敏感。当输入的历史数据顺序由“最新到最旧”调整为“最旧到最新”时,某些模型的决策质量显著提升,甚至避免了因误读时间序列而导致的重大错误。这暴露出当前大语言模型在处理时序数据上的结构性弱点——它们虽擅长语言逻辑,却未必真正理解“时间”的意义。
从专业角度看,本次实验虽具开创性,但仍存在明显局限。运行周期较短、缺乏长期学习机制、无历史交易记忆,使得模型难以形成稳定的策略模式。此外,样本量仅六款模型,统计效力有限,尚不足以支撑普适性结论。但我们不能因此否定其价值——它标志着AI评估正从“答题考试”迈向“实战演练”的新阶段。
更深层的意义在于,这场比赛提出了一个根本性质疑:当AI被置于真实风险环境中,其“智能”是否还能成立?Qwen3-Max的胜出或许并非因其算法最优,而是其风险偏好与当前市场结构恰好匹配。而GPT-5的惨败提醒我们,参数规模与通用能力并不直接转化为金融决策优势。真正的挑战不在于预测涨跌,而在于理解不确定性、管理情绪化冲动——而这恰恰是人类交易员毕生修炼的课题。
Nof1团队明确表示,未来将扩大测试范围,引入更多控制变量、增强统计分析能力,并探索多轮迭代下的学习演化路径。他们希望借此推动整个AI研究领域转向“动态、风险驱动”的新型基准体系。毕竟,在真实世界中,答案从来不会写在试卷背面,利润与亏损才是唯一的评分标准。
这场AI之间的无声博弈,没有欢呼,却充满启示。它告诉我们:通往强人工智能的道路,不应只建在文本语料库之上,更要铺展于风浪起伏的市场海洋之中。今天的胜负只是起点,真正的较量,才刚刚开始。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!