Z6尊龙官网入口斯坦福团队承认抄袭中国大模型！核心证据来自2300多年前

020-66889888

发布时间：2024-06-05 21:27:18

　　#斯坦福抄袭中国大模型##斯坦福团队道歉#，今天下午，两个词条分别冲上微博热搜第2和第5位，引发热议。

　　简单说，就是国外一个AI团队主导的开源大模型，被证实套壳抄袭了国内清华系明星创业公司面壁智能的开源模型。目前，团队已经公开道歉，并下架模型。

　　由于团队成员拥有斯坦福（其中两人是斯坦福本科生）、特斯拉、SpaceX、亚马逊等亮眼背景，Llama3-V第一时间被推到了聚光灯下，登上开发者社区Hugging Face（抱抱脸）首页，引发众多开发者关注。

　　很快，有用户开始在Hugging Face以及社交平台X上提出质疑：Llama3-V是否套壳MiniCPM-Llama3-V 2.5？后者为面壁智能推出的开源端侧多模态模型，5月21日刚刚发布。

　　事情迅速发酵。经过一些开发者的比较，两者在模型结构、代码、配置文件等方面完全相同，只是进行了一些重新格式化，并将部分变量重新命名。

　　面对质疑，斯坦福团队一开始选择“辩解”：只是使用MiniCPM-Llama3-V 2.5的tokenizer（分词器），并且宣称在后者发布前就已开始这项工作。

　　面壁智能首席科学家刘知远在知乎上表示：“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。”

　　而CEO李大海也在朋友圈发文：“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式，另一方面呼吁大家共建开放、合作、有信任的社区环境。”

　　目前，Llama3-V团队的其中两位成员Aksh Garg和Siddharth Sharma，也就是那两位斯坦福本科生，已在社交平台上向面壁智能团队道歉：“我们向作者道歉，并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任，并已撤下Llama3-V，再次致歉。”

　　在朋友圈发文中，李大海给出确认抄袭的一大理由是：经过测试，面壁智能团队发现Llama3-V不仅能识别“清华简”的战国古文字，而且在犯错的地方也和MiniCPM-Llama3-V 2.5如出一辙。

　　公开资料 Z6尊龙官网入口显示，清华简，是清华大学于2008年7月收藏的一批战国竹简，属于中国学术史上先秦文献的重大发现。此后，清华大学成立专门研究团队，先后在已故著名历史学家、考古学家、古文字学家李学勤及黄德宽教授的带领Z6尊龙官网入口下开展简文整理研究，以复原这批幸免于焚书坑儒与秦汉战火的重要历史“拼图”。

　　这些年里，研究者们在一间不足20平方米的小屋里，用一面42英寸显示屏读简，整理成果以一年一辑的速度出版公布，至今已出版13辑。诸子思想、历史文化、天文历法Z6尊龙官网入口、律法术数、医学方技……中国传统文献中的经史子集均有发现，竹简的内容逐渐清晰起来。

　　据李大海解释，此次识别清华简的训练数据，采集和标注均由清华NLP实验室和面壁智能团队完成。“耗时数月，从卷帙浩繁的清华简中一个字一个字扫描下来，并逐一进行数据标注，融合进模型中”，且数据尚未对外公开。

　　此外，Llama3-V、MiniCPM-Llama3-V 2.5两个模型在高斯扰动验证（一种用于验证模型相似性的方法）后，在正确和错误表现方面都高度相似。

　　巧的是核心团队，上周日清华大学在官方微信公众号上转载了新华社《瞭望》新闻周刊刊发的特稿《破译千年竹简求索文明密码》，回忆这2500位先秦“客人”来到清华的故事。

　　文中提到，清华简整理研究工作的难点之一，就是“认字”。“清华简是战国时期楚国人所写，其中有些字没有流传下来，有的字形是首次出现，即便将一些字辨识出来，其字义的理解也需要下大功夫去研究，因为这些竹简文献只有极少数可与传世文献对照参证。因此，‘考字释词’耗费巨大精力，把字词探究清楚了，做到文通字顺，才能真正了解文献记载了什么内容，进而判断其价值。”

上一篇 : Z6尊龙官网入口宏川智慧获1家机构调研：在公司并购发展的过程当中公司也会通过股权激励计划的实施对新并购库区主要管理人员进行激励充分调动专业管理人才及核心骨干的积极性和创造性有效提升核心团队凝聚力（附调

下一篇 : 管理的核心是管人管人的核心就是这7条太精Z6尊龙官网入口辟

z6尊龙·凯时(中国区)联系我们

手机：13988889999

公司地址：海南省海口市玉沙路58号

电话：020-66889888

传真：020-66889777

企业邮箱：admin@hai-dan.com

在线留言

姓名

电话

留言

提交

客服电话

020-66889888