Anthropic点名三家AI公司蒸馏其模型,MiniMax交互超1300万次,bert蒸馏模型
时间: 2026-02-24 20:53作者: 二哥炒鸡蛋大模型之家讯 近日,Anthropic披露,其在安全审计中发现针对旗下大模型Claude的多起“工业化规模蒸馏攻击”(industrial-scale distillation attacks)。相关行为被归因于三家人工智能实验室:DeepSeek、月之暗面(Kimi模型所属公司)以及MiniMax。
Anthropic表示,这三家机构通过系统性方式创建了超过2.4万个欺诈账户,并与Claude产生了超过1600万次交互,目的是提取模型能力,用于训练和优化各自的模型。相关攻击活动在访问规模、提示结构和任务重点上均明显偏离正常用户行为模式,呈现出明确的能力抽取特征,而非一般性使用。
据披露,三起蒸馏行动在操作手法上高度相似,均借助虚假账户与代理服务进行大规模访问,以规避平台检测。Anthropic称,其通过IP地址关联、请求元数据、基础设施特征等多项技术证据,对相关行为进行了高置信度归因,并在部分案例中获得了行业合作伙伴的交叉验证。这些行动主要针对Claude在“代理式推理(agentic reasoning)”、工具调用以及代码生成等差异化能力。
在针对DeepSeek的调查中,Anthropic确认相关操作规模超过15万次交互。攻击内容覆盖多任务推理能力、基于评分标准的评估任务(使Claude充当强化学习中的奖励模型),以及生成“审查安全”的敏感问题替代问法。Anthropic指出,DeepSeek相关账户在流量模式、支付方式和时间安排上高度同步,呈现出类似“负载均衡”的特征,以提升吞吐量并降低被发现风险。其中一种被识别的技术路径,是通过提示Claude“回溯并逐步写出其内部推理过程”,以此在大规模生成链式思考(chain-of-thought)训练数据。相关请求还涉及对政治敏感话题的安全改写,Anthropic称,通过请求元数据已将部分账户追溯至该实验室的具体研究人员。
针对Moonshot AI,Anthropic披露其相关交互规模超过340万次。该行动主要聚焦代理式推理、工具使用、编程与数据分析、计算机使用代理以及计算机视觉能力。调查显示,Moonshot动用了数百个欺诈账户,并通过多种访问路径混合使用不同类型账号,以降低整体行动的可识别性。Anthropic称,其通过请求元数据将这些行为与Moonshot部分高级员工的公开资料进行匹配,并在后期阶段观察到更具针对性的尝试,即提取并重建Claude的推理轨迹。
规模最大的蒸馏活动被归因于MiniMax,累计交互次数超过1300万次,重点集中在代理式编程能力以及工具调用与编排。Anthropic表示,其通过请求元数据和基础设施指标完成归因,并将相关时间节点与MiniMax公开的产品路线图进行比对。由于该行动在MiniMax相关模型正式发布前即被发现,Anthropic称这使其首次能够完整观察一次蒸馏攻击从数据生成到模型发布前的全过程。披露还显示,在Anthropic发布新模型期间,MiniMax在24小时内调整了策略,将近一半流量转向新系统,以获取最新能力特征。
Anthropic表示,相关发现已被用于加强平台的安全防护与滥用检测机制,但未披露进一步的处置细节。截至发稿,DeepSeek、月之暗面以及MiniMax尚未对此事发表回应。