科金社2025年08月09日 10:57消息,苹果创新MTP技术提升AI响应速度,模型输出速度最高提升5倍,不牺牲质量。
8月9日,科技媒体9to5Mac昨日(8月8日)发表文章称,苹果在其最新研究中提出了一种名为“多token预测”(MTP)的技术,在不降低输出质量的前提下,能够将大语言模型的响应速度提升2到3倍,某些特定场景下甚至最高可达到5倍。
据相关博文介绍,传统的大语言模型(LLM)在生成文本时通常采用自回归的方式,逐个生成token,为了确保文本的连贯性,每一步的输出都依赖于之前已生成的内容。
例如生成“The cat is black”时,模型需在输出“is”后,基于上下文和训练经验,从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制虽准确,但速度受限,尤其在移动设备上影响用户体验。
苹果在最新论文《YourLLMKnowstheFuture: Uncovering Its Multi-Token Prediction Potential》中指出,尽管模型在训练过程中仅被设计为预测下一个词,但其内部实际上具备对后续多个词的潜在判断能力。
研究团队据此提出“多 token 预测”(MTP)框架,支持模型一次生成多个词。例如输入“The cat is ”,模型可直接输出“very fluffy”,大幅提升生成效率。
该技术核心在于引入“掩码”(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一“推测-验证”机制在提速的同时,保留了传统方法的准确性,实现速度与质量的平衡。
实验基于开源模型Tulu3-8B进行,苹果在训练中最多预测8个后续token。结果显示,在问答和对话等通用任务中,响应速度平均提升2到3倍;在代码生成、数学推理等结构化场景中,提速最高可达5倍。
研究人员指出,此次性能的提升并未影响生成质量,其核心在于引入了“门控LoRA适配”技术,通过动态调整参数,在必要时才激活推测模块,从而实现了效率与质量的平衡。这一技术的应用,体现了在模型优化过程中对资源使用的精细化管理,也为后续的模型改进提供了新的思路。
这项研究为在设备端部署大模型提供了新的解决方案。与依赖云端计算的方式相比,MTP技术能够在iPhone、Mac等本地设备上实现更快速的响应,有效降低延迟和能耗。这种本地化处理不仅提升了用户体验,也对隐私保护和网络依赖度带来了积极影响。随着移动设备性能的不断提升,本地大模型的应用前景将更加广阔。
尽管目前仍处于研究阶段,但其能够兼容现有模型架构的特性,展现出较高的应用前景,未来有望被整合到Siri、AppleIntelligence等产品中,从而优化用户的交互体验。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!