使用社交账号登陆

当前位置: 主页 > 前沿 > 信息 • 能源

中国数据竞赛作弊产业链引发Kaggle危机

时间: 2020年08月31日 | 作者: 林擒 郑然 | 来源: 数据实战派
数据科学的价值已有目共睹,或许是时候考虑新的问题了。



“热烈庆祝学员奖牌52块,喜获银牌38块。”


一张这样的中文喜报近日出现在全球最大数据竞赛平台 Kaggle 中。然而,引发Kaggle 用户对这张海报的激烈讨论的却绝非什么光彩的喜事——这张图疑似曝光了中国数据竞赛作弊产业链的一角。


Kaggle 用户 Gilles Vandewiele 在题为Evidence regarding private sharing[1]的帖子中发出了这张截图,并指出自己已经和一个匿名信源取得联系,了解到某些中国“辅导机构”正在出售Kaggle奖牌,他决定将这些信息公之于众。


帖子首先附上的一个淘宝商家链接和截图作为例子。截图显示某淘宝商家出售的一个商品就写着“Kaggle 竞赛辅导世界前1%保银牌留学工作一对一实战比赛背景提升”,定价为1000元。点开这个链接,更详细的价格区间则是1000元~4000元,并且已有7条评论记录,商家还在商品介绍部分提供了来自闲鱼平台的交易评论图,目的可能在于希望通过截图的“好评”吸引新的买家。


图片来自Kaggle社区讨论


而开头处那张“喜报”疑似是另一个培训机构截图,“kaggle google 问答标签比赛,2位昂钛客学员获得金牌晋级Master,38人获银牌,14人获铜牌”——这样的宣传语让楼主 Gilles Vandewiele 感叹“What a success rate!”


他对买卖双方交易的过程做了大致梳理:


1. 学生买家在网站上找到卖家;


2.与客服咨询并询问价格和所含服务;


3.不同的奖牌有不同的价格,例如,如果想要银牌,则需要支付更多;


4.卖家的课程并没有为任何人提供任何有意义的内容,而是作为真实业务的掩饰;


5.买家仍会被分配到一位老师,但他在回答疑问时表现堪忧;


6.在kernel only 型竞赛中,卖家将为买家提供模型。在csv型竞赛中,卖家为买家提供subs(例如SIIM);

7.比赛结束后,除了作弊外,买家什么都学不到。


而且,他还发现了个别 master 级别的账号名会带有培训机构的英文名字,如下图中的“angtk.ai”(昂钛客),他同时附上几张疑似 angtk 组织“打比赛”的微信群截图。


*天眼查显示:“昂钛客AI是一个人工智能型社群,进行了多期机器学习和深度学习培训,为知名企业输送大量人才,打造了适合在校生、程序员、企业老板的导师制、实战、答疑三位一体的网络教学模式。”





ID标有“angtk”的可疑账号,图片来自kaggle社区讨论


这位楼主呼吁,需要确认所有与可疑作弊团伙相关的账号(楼主认为一种追查的方法是基于 Kaggle 元数据集创建图形分析)。他甚至怀疑之前自己就遇到过一个可疑用户,他曾和这个用户组队,但组队之后该用户几乎没有任何消息。


截止发稿前,这个帖子在 Kaggle 已有超过200跟帖,并且热度可能还会继续上升。


其中有用户跟帖好奇中国的数据科学职业招聘现状。“我一直以为这个平台的目的是提高自己的编码技能,并在艰难的竞争中尽力而为,显然不是,我永远也无法想象这种产业是可行的”,一位用户回复道。同时还有用户表示无法理解为什么会有人花钱买奖牌,无法理解从中能获得什么好处,并在后续跟帖中和包括楼主在内的其他用户交换了看法。


此外,有用户给出了新的证据和知乎的相关连接,但有跟帖表示知乎的连接已经被删除,怀疑“They are trying to cover all the tracks”;还有用户表示这次曝光的只是冰山一角;当然也有用户要求 Kaggle 组织调查。


事实上,随着 Kaggle 在行业内的影响力越来越大,在简历中附上 Kaggle 成绩对谋求数据科学工作有帮助已经成为趋势。Kaggle 在 Data Science 领域有着极高的认可度,如果想在相关领域求职,一份漂亮的Kaggle履历可能会让你立即获得面试邀请。


就在今年初,一位来自奥地利的19岁少年 Benjamin Minixhofer 在 Kaggle 揭发一场比赛冠军的方案完全是作弊,并给出了详尽的证据和分析[2]。这场由谷歌资助的比赛事发前已经结束了9个月,赛题由马来西亚宠物福利平台 PetFinder.my 提供,要求选手预测被遗弃宠物多长时间可以被领养,冠军奖金为1万美元,Benjamin Minixhofer 原本是比赛的第六名。


主办方之后确认了冠军团队 Bestpetting 作弊并取消队伍比赛名次并联系Kaggle 说明了情况。Kaggle 随后封禁了队长 Pavel Pleskov 账号永久禁止其通过平台参与比赛。这件丑闻引发了轩然大波,Pavel Pleskov 不但拥有Kaggle 的Grandmaster(宗师)头衔,并且在事发前高居Kaggle 比赛总积分榜的第三位。在拿到比赛的冠军后半年,Pavel Pleskov 跳槽到了硅谷明星创业公司 H2O.ai 担任数据科学家。事后 Pavel Pleskov 承认了自己的作弊行为,也在入职四个月后丢掉了饭碗。但有人指出 Pavel Pleskov 是累犯,过往的作弊行为并没有被 Kaggle 追查。


随着口碑的积累,Kaggle 平台所举办的比赛含金量越来越高,类似 Pavel Pleskov 的作弊事件也随之出现,但这次曝光的,针对比赛的培训机构出现,意味着背后规模化、有着商业运作机制的“组队作弊”,这对 Kaggle 而言所面对的挑战提升了不止一个等级,毕竟这样的作弊方式可能根本无法像奥地利少年那样通过分析比赛方案而被发现。


表面上看,这类事件似乎只是损害了Kaggle奖牌的名誉和价值,但若长期存在,或动摇Kaggle 商业价值的根本所在。


众所周知,作为目前世界上最大的数据科学家社区(2017年就已超100万注册用户),Kaggle  在数据问题和数据解决方案架起了一座桥梁,Kaggle 对于参赛的数据科学家是免费的,它在组织这些竞赛时会向企业收取费用。毕竟,对于那些希望利用大数据分析改进业务的企业来说, Kaggle 正好帮助他们解决了“人才和想法”这两大难 题。


Kaggle 在整个AI生态圈中最大的商业价值,不是简单地在于它提供可一个大数据分析的众包平台,更在于它所打造的全新劳动力市场和评价体系。这也是为什么谷歌会在2017年斥资收购Kaggle 的主要原因。


因此,如果说有哪些危机是 Kaggle 作为一家商业公司最需要警惕的,那就是扰乱这个市场秩序、损害这一套评价体系的行为。


规模化、有着商业运作机制的“组队作弊”无疑会是这样的一类危机。而且这种行为的出现基于人的利益驱动和道德瑕疵,很难去指望每一个注册的账号一定自觉性,解决的思路只能依赖平台层面的解决方案。不止Kaggle,这也是大量平台型公司都会遇到的一类问题。


因此也有人建议,Kaggle 应该仔细考虑如何系统性地来应对这种风险,例如配备专门的比赛秩序管理团队,一方面保证稳定、公平的竞争,还要负责监视解决方案,删除不合规的解决方案,积极检查违规者并将其列入黑名单等,与此同时,Kaggle应该设置更严格的用户验证系统来验证账号。


Kaggle 的创始人Anthony Goldbloom 曾在一次媒体访问中被问道,公司作为一家创企面临的最大挑战是什么?他回答是:“如何教育客户,让他们敏锐地意识到转型的数据科学的价值。”


现在,数据科学的价值已有目共睹,或许是时候考虑新的问题了。


题图:pixabay


References

[1] https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/175156?from=groupmessagehttps%3A%2F%2Fwww.kaggle.com%2Fc%2Fsiim-isic-melanoma-classification%2Fdiscussion%2F175156%3Ffrom%3Dgroupmessage

[2] How Bestpetting cheated: https://www.kaggle.com/bminixhofer/how-bestpetting-cheated