
May -set Lin Yi,编辑关键点:1。诚实的团队发布了一项名为“ Model指纹”的研究,以证明Huawei Pangu Plant的大型模型Alibaba Qwen,但由于该过程太简单又粗糙,因此涉嫌作弊。 2。在华为诺亚的方舟实验室的正式回应之后,一位长篇文章“ pangu”的内部雇员“ pangu”宣布,华为pangu的大型模型涉嫌反击,训练和洗水印,这再次将窃的风暴推向了高潮。 3。在技术快速变化期间,如何建立更科学和透明的模型考试机制,如何在激烈的竞争中维持技术完整性,而霍尔在开放源泉和商业利益之间找到平衡都是该行业必须处理的问题。整个周末,“华为大型模特pla窃”的主题继续跃升为公众的愿景。该事件主角于6月30日正式开设了Pangu Pro Moe。原因是Hoxthyagi在Github发表的一项研究。通过基于论文的推理,它证明了pangu模型被阿里巴巴的Thyi Qianwen-2.5 14b模型窃。扩展全文
在这项研究中,Hextagi提出了一种方法来通过审查模型注意参数的标准偏差模式来识别“指纹模型”(LLM指纹),并基于IT,回顾了Huawei Pangu Pro Moe模型。
主要的研究搜索是标准关系,华为pangu Pro MOE和QWEN-2.5 14B模型之间的偏差模式高达0.927,表明它可能基于QWEN-2.5
此外,Honestagi还发现,Pangu Mockup在GitCode上发布的代码也不正常,QWEN 2024许可证也不正常。目的是指出,Pangu Big Model团队使用的“变形金刚”复制品属于Qwen,Alibaba Group和HuggingfacE团队。
一旦发布,这项研究就引起了许多争议。有人认为这已经证实了pangu Big的大型模型,该模型被Qwen窃了各种证据。但另一方面,有些人询问了“指纹”方法的专业精神,这导致了与项目问题的对抗。
那么,是否足以拖延这项研究,以及它是由大型Pangu复制的吗?在回顾了所有事件的全部故事之后,我只是从技术角度回顾了这项诚实研究中确实有很多弱点。现在,带您更多地了解它。
教哪些具体证据?
诚实建议的模型“指纹”是一种用于识别和识别模型的技术,旨在为模型提供独特的身份以解决模型的知识。诸如保护权,资源和相似性评估等问题。不同的模型具有不同的实现方法,并且应用程序方案。
对于大型语言模型,团队通过检查注意的参数(Q,K,V或投影矩阵)的标准偏差(σ)来形成“指纹”。获得每个变压器层的相关矩阵,以计算标准偏差,然后在整个层中标准化特征签名。此方法可用于识别线路线。它的特征包括:
·能力:可以在经过大量持续培训后保持。
·固有性:自然来自模型体系结构。
·简单:仅使用Torch.std()计算参数矩阵。
QKV偏置评估的结果如下图所示:
从结果中的判断,pangu和qwen2.5-14b与Q,K和V投影的模式相同。发生特征峰后积累的早期层。该设计是QWEN 1-2.5代的独特功能,也是最开放的资源(包括Qwen3))已被删除。
在检查了注意力层的归一化重量之后,进一步证实了它们之间的相似性。 pangu和qwen2.5-14b在每个级别上都具有恒定的性能趋势,显示了相似的启动方法和收敛过程,使它们与其他模型(例如行为的QWEN2-57B-A14B和QWEN3-30A3B)也显着不同。
此外,团队研究每一层的激活量。因此,从桩测试集(https://pile.eleuther.ai/)中随机选择了诚实的人,并计算激活每一层的标准,同时使用一个侧面的归一化方法。每个批次包含8个contecete -follow 1024的长度。最初的结果释放了,表明pangu和wenxin模型的模型的性能仍然相同,表明它们在计算方法中具有很大的相似性。
为了证明“指纹模型”是否是偶然的,诚实的人还比较了Qwen和Hunyuan A13B,发现这两种表演在不同的层面上有很大差异,这表明他们的建筑和知识完全不同。显然,Hexti提供了一个比较数据集,以证明其测试方法令人信服。
但是,正如新琼(Xinjun)前面提到的那样,许多人提出了有关诚实团队提出的“指纹模型”方法的技术问题。
有人认为这种方法非常简单且粗糙,可以选择樱桃的空间(选择性数据选择),而尚未使用PAUNT参数偏差来确定模型的相似性。在 - 深度研究的领域,更改模型结构更为重要,模型参数更多地取决于计算和数据的强度。华为具有足够的计算能力来防止大型模型,因此无需应用QWEN参数。
以及“指纹模型”中的许多缺陷,随着少量模型的披露,样本比较模型缺乏较大的基准测试。具有相同体积参数的MOE模型可以由于结构屏障而产生相似的曲线,并且不能仅基于相似的曲线确定pla窃。本文的主要假设缺乏文学文学的支持,等等。
此外,网民还提出了有关联合团队“模型指纹”的疑问。除本文以外,带有-set的原始科学研究结果没有其他。在一起留下电子邮件地址的五个人,或者他们将无法找到有关Google Scholar的任何信息。 May -set是韩国学生,但使用Outlook电子邮件地址并用英语讲话。他怀疑该套装的身份是假的。
更重要的是,仍然有许多关于提到的参考文献的错误引用,因此有些人认为整篇文章可能是AI形成的。
关于这场窃暴风雨,参与的“对手”的Pangu Pro Moe背后的团队也站起来并发表了声明以做出回应。它强调,它们是世界专家模型的第一个组合,其规格与为上述硬件平台,现代拟议的混合专家模型(MOGE)体系结构设计相同;某些基本组件的代码的实施决定了开放行业的开放技能,并且严格遵循开放资源许可证的要求,涉及其他开放资源模型的一些开放资源代码。
当我们比较两项技术报告时,尽管他们都使用Moe的体系结构来优化计算效率,但将大规模的预训练和多阶段微调结合起来,以提高功能,并专注于长上下文和多任务概括; Pangu Pro Moe专注于“硬件建筑协作设计”,而Qwen2专注于“模型通用和多语言功能”;前者致力于加载平衡和CL嵌入硬件改编,而后者则重点关注专家的设计和扩展规模模型。
总而言之,要点是,诚实的团队首先将QKVO参数的通常偏差结合在一起,这些参数将矢量特征放在算法中以计算大型模型之间的均匀性。该过程非常简单,并且在紧密而科学方面确实有偏见。其次,从开放资源标准的角度来看,华为还向公众做出了回应,它符合开放资源的实施,这是可以理解的。
目前,诚实团队还取消了初步研究(声称在改进后发布)。仅基于这项研究,可能尚未证实大型华为pangu模型复制了阿里巴巴Qwen,但这一风暴尚未结束。
激烈的讨论再次引起了一篇文章“ pangu的悲伤”
就在昨天,一篇题为“ pangu的悲伤:悲伤的文章华为的Noah Pangu Mockup的Ness和黑暗在Github中很受欢迎,每天赢得了2.5万星(长大)。
从标题中不难看出,这是华为内部员工的一封身份不明的报告信,揭示了Pangu大型模型背后的内部“伪造”故事。该事件的原因是,华为Pangu的大型模型已接触到阿里巴巴Qwen的计划,阿里巴巴Qwen的计划不再被限制在据说是Pangu团队的成员的雇员。他决定前进并揭示内部的真相,我担心我可能会因此而失业。
根据这名员工的说法,华为内实际上存在着很大的“炮击”行为。如此被称为炮击正在动摇另一个人的模型,稍微改变了包装,然后说它是自己开发的。例如,他们的135b模型实际上是由阿里巴巴Qianwen 110B修改的。他们太懒了,无法将名称更改为Code,它们仍然被称为“ Qwen”。最近引起争议的72B模型也使用Qianwen模型进行了训练。
根据员工的描述,工作环境更令人讨厌。那些真正熟练的人,经常不得不去苏州的商务旅行。他们已经离开家人了几个月,他们的工作很大。但是,努力的结果通常很容易被其他部门删除,并由其他部门标记。真正努力工作的人和被判断的人很容易。这种不公正使许多出色的技术人员选择离开。
当然,员工还承认,华为确实取得了一些真正的技术成就,例如从一开始就培训一些模型到自己的芯片。但是,这些真正的努力通常被欺诈行为所覆盖,这使得工程师做的事情是令人心动的。他说,他正准备辞职,再也不想在环境中再次工作。他还希望通过启示,华为将认识到这个问题。
与Hextagi的“模型指纹”相比,此时网民的评论并不孤单。一些网民认为,文章中的一些技术细节将进行详细描述,并具有一定程度的信誉。但是一些用户还指出,本文可能存在情感上的问题和一个方面的问题,而且有些见解缺乏足够的证据来支持它,例如“内部审查”之类的表达方式尚不清楚。
至于新闻稿,华为诺亚实验室没有对本文做出积极的回应。但是,围绕大型华为pangu模型的这一争议早已超出了一个事件的范围,并反映了AI行业爆炸性发展的深刻矛盾。
从技术的角度来看,“模型指纹”方法中的主要争议是当大型参数的大小超过1000亿时,弧之间的边界杀伤力变化和参数变化将变得越来越模糊。如何使用科学标准识别“原始”和“参考”?在构建计算障碍和数据障碍的时候,纯粹是“从头开始”的参与者,而开发已成为一个可能性较低的事件?在通常面临“模型迭代速度竞争”的AI公司的背景下,如何平衡业务目标和技术完整性还可以测试每个团队选择的价值。
关于大型华为模型的窃的争议本质上反映了发展AI行业的三个困难:缺乏技术考试标准,激烈的商业竞争以及建立工业完整性体系的需求。
不管最终的事实是什么,这一争议都会引起整个AI行业的唤醒电话。在技术快速变化期间,如何建立更科学的IFIC和透明的模型评估机制,如何在激烈的竞争中保持技术完整性,并如何在开源源源和商业利益之间找到平衡是该行业必须处理的问题。
更重要的是,这一事件提醒我们,不应将真正的现代技术内置到模糊的边界线中,它应该基于研发和清晰的技术途径的坚实强度。通过这种方式,中国的人工智能行业可以在全球竞争中赢得真正的尊重和声音。
参考链接:
1。Honyyyagigithub:https://github.com/honestyagi/llm- enterm- enderprint
2。“ pangu的悲伤”的原始文本:https://github.com/hw-whistleblower/true-true-true-treof-of-pangu
3。Zhihu相关讨论:https://www.zhihu.com/question/192515741541801408
4。PanguPro Moe技术报告:https://arxiv.org/abs/2505.21411回到Sohu,以查看更多信息