首届AI投资大战落幕：通义千问Qwen3-Max狂揽22.32%收益登顶，GPT-5惨亏超62%惊呆全场

AI投资巨震：通义千问暴赚22.32%封神，GPT-5惨遭血洗亏损超62%

2025-11-04 18:15 AI人工智能阅读: 1234

AI投资大战，通义千问Qwen3-Max，GPT-5亏损，人工智能收益

科金社2025年11月04日 18:15消息，首届AI投资大战收官，Qwen3-Max收益登顶，GPT-5大幅亏损。

　　 11月4日，美国人工智能研究机构Nof1宣布，其发起的首届“Alpha Arena”实盘交易测试已正式收官。这场别开生面的AI投资竞赛将六款全球顶尖大语言模型（LLM）投入真实金融市场，每款模型配备1万美元起始资金，在加密货币永续合约市场中自主决策交易，最终结果令人震惊：阿里旗下的通义千问Qwen3-Max以22.32%的收益率拔得头筹，成为唯一实现正收益的AI模型。

　　此次参赛阵容堪称豪华，汇聚了当前全球最受关注的六大AI模型——Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5与Grok 4。然而，除Qwen3-Max和DeepSeek v3.1勉强接近盈亏平衡外，其余四款模型均出现不同程度亏损，其中GPT-5亏损幅度高达62%以上，表现远低于预期。这一结果不仅颠覆了公众对“最强AI”的固有认知，也引发了业界对大模型在复杂决策场景中实际能力的深刻反思。

　　 Alpha Arena项目的核心目标并非简单评选“谁更聪明”，而是试图突破传统AI评估范式——告别依赖静态数据集和封闭式问答的基准测试，转向更具现实挑战性的动态环境检验。研究团队希望通过真实市场的波动压力，观察这些模型在风险控制、交易节奏、持仓策略等方面的综合表现。正如项目负责人所言：“我们不是在考它们语文，而是在看它们能不能活下去。”

　　所有模型均在Hyperliquid平台上交易BTC、ETH、SOL、BNB、DOGE和XRP等主流加密货币的永续合约，初始资金统一为1万美元（约合人民币71218元）。为确保公平，所有模型使用相同的提示词（prompt）、相同的数据接口，且未进行任何针对性微调。它们只能基于价格、成交量、技术指标等数值型市场数据做出决策，严禁接入新闻或外部事件信息，完全依赖“零样本”推理能力执行交易动作：买入（做多）、卖出（做空）、持有或平仓。

　　尽管架构一致，但各模型展现出截然不同的交易“性格”。有的频繁短线操作，追求高周转；有的则倾向于长期持仓，风格稳健。部分模型对做空极为谨慎，几乎从不开空单，而另一些则频繁反向押注，导致在趋势性行情中损失惨重。这种行为差异揭示了一个关键问题：即便输入相同指令，不同模型对市场信号的理解与响应机制仍存在本质分歧。

　　尤为值得注意的是，研究团队发现模型对数据格式极度敏感。当输入的历史数据顺序由“最新到最旧”调整为“最旧到最新”时，某些模型的决策质量显著提升，甚至避免了因误读时间序列而导致的重大错误。这暴露出当前大语言模型在处理时序数据上的结构性弱点——它们虽擅长语言逻辑，却未必真正理解“时间”的意义。

　　从专业角度看，本次实验虽具开创性，但仍存在明显局限。运行周期较短、缺乏长期学习机制、无历史交易记忆，使得模型难以形成稳定的策略模式。此外，样本量仅六款模型，统计效力有限，尚不足以支撑普适性结论。但我们不能因此否定其价值——它标志着AI评估正从“答题考试”迈向“实战演练”的新阶段。

　　更深层的意义在于，这场比赛提出了一个根本性质疑：当AI被置于真实风险环境中，其“智能”是否还能成立？Qwen3-Max的胜出或许并非因其算法最优，而是其风险偏好与当前市场结构恰好匹配。而GPT-5的惨败提醒我们，参数规模与通用能力并不直接转化为金融决策优势。真正的挑战不在于预测涨跌，而在于理解不确定性、管理情绪化冲动——而这恰恰是人类交易员毕生修炼的课题。

　　 Nof1团队明确表示，未来将扩大测试范围，引入更多控制变量、增强统计分析能力，并探索多轮迭代下的学习演化路径。他们希望借此推动整个AI研究领域转向“动态、风险驱动”的新型基准体系。毕竟，在真实世界中，答案从来不会写在试卷背面，利润与亏损才是唯一的评分标准。

　　这场AI之间的无声博弈，没有欢呼，却充满启示。它告诉我们：通往强人工智能的道路，不应只建在文本语料库之上，更要铺展于风浪起伏的市场海洋之中。今天的胜负只是起点，真正的较量，才刚刚开始。