89% 学生用 ChatGPT做作业,华人小哥搞了款AI打假工具

文章来源:AI先锋官

图片来源:由无界 AI生成

随着各类大模型的普及,AI成了不少学生的作弊神器。据报道,有高达89%的美国学生承认使用ChatGPT来完成作业,48%的学生使用它完成测验,53%的学生用它来写论文,22%的人使用它生成论文大纲。

为了防止AI滥用,有位华人小哥就整出了一款AI打假神器——GPTZero,专门鉴别文字到底是出自AI还是人类。

这位华人小哥名为 Edward Tian,是普林斯顿大学大四学生。大学期间他主修计算机科学,辅修新闻学。随着ChatGPT爆火,他越发觉得,“当文字不是人类写的时,人类应该有权知道”。因此,他趁寒假熬夜敲代码开发了GPTZero。

GPTZero一发布就广受老师们的欢迎,一周内有超3万人试用。随后,GPTZero更新版本,可以识别“人类 + AI ”的混合文本,并且可批量导入文件,其访问量更是在一月内达到了40万次。

这位小哥由此也成了学生公敌,甚至有人称他为“打小报告”的“狗腿子”。

据官网称,“GPTZero是人工智能检测的黄金标准,经过训练可以检测ChatGPT、GPT4、Bard、LLaMa等人工智能模型”。


具体用法:


第一步:登录GPTZero官网,不用注册,不用魔法,还免!费!

https://gptzero.me/

第二步:在对话框内复制粘贴250-5000个字符的文字内容(超过5000个字符需要付费),并点击“Check Origin”查询检测结果;或者点击“Upload file”,上传文件进行检测,支持的格式有pdf、doc、docx、txt。

值得注意的是,免费版GPTZero只支持不超过5000个字符的文字内容,如果想要进行剽窃扫描、批量处理更多文件等,则需要付费。

第三步:GPTZero分析文本并提供检测分数,检测分数越高,表明AI生成文本的可能性越大。同时高亮显示的句子是GPTZero认为可能是AI生成的句子。

OK,接下来我们就来评测一下它到底好不好使。


评测GPTZero:效果杠杠滴!


Round1:成功识别GPT-4和Bard生成的内容

小编先用GPT-4生成一大段文字,然后将其喂给GPTZero:

GPTZero认为这篇文章有99%的概率是由AI编写的。同时,它还把可能是AI写的句子高亮显示了。根据GPTZero的检测,全文8句话全部是AI生成的。

这一局,GPTZero检测成功!

为防止误差,小编又用Bard测了一下。

“苹果一周遭两次评级下调,2024年头三个交易日市值已蒸发1651亿美元”这一新闻引发关注,小编先让Bard生成了一篇新闻稿件,然后复制粘贴到GPTZero中。

GPTZero认为有91%的概率是由AI编写,并把全篇标黄,以说明这15句话均可能是AI生成。

GPTZero又回答正确。

英文识别这么厉害,那中文呢?

小编用文心一言生成了一篇内容,将其复制到GPTZero上:

这次,GPTZero“翻车”了。这段文字明明是AI自己写的,但GPTZero认为7句话中有4句话可能由AI生成,是由人类和AI合写的。

由此看来,GPTZero在英文识别上更胜一筹。

Round2:识别人类编写的内容,偶尔翻车

小编从《华盛顿邮报》中找了一则头条新闻《Trump is promising to reduce inflation. His plans may reignite it》,并从中节选了前2段:

GPTZero检测完后给出了结论:这篇文章是人写的,AI编写的概率是0,回答正确。

小编又在BBC官网上找了一篇新闻报道:《US budget: Spending deal reached as shutdown deadline looms》。

当小编将全文都粘贴进GPTZero后,GPTZero表示,本文是出自人类之手,24句话均是人类编写。这回答没毛病。

但当小编把这篇新闻稿件最后5段粘贴进去进行检测,结果却成了人类和AI合写的,并且5句话有3句是AI生成的。这就胡说八道了。


GPTZero背后有什么魔法?


GPTZero宣称对 AI 文本的准确率为 85%,对人类文本的准确率高达 99%。它是如何做到的呢?这就依赖两大指标:“困惑性”(Perplexity)和“突发性”(Burstiness)。

“困惑性”是指文本中语句的随机程度。相较于复杂的人类表达,接受过大量文本训练的 AI 已经形成了文本生成范式。当 GPTZero 接收到了它不熟悉的文本,就会产生“困惑”。

以数百字的文本长度来说,GPTZero 会分别计算出“文字总困惑度”、“所有句子的平均困惑度”和“每个句子的困惑度”,计算出一个综合分数。当这个分数大于 85 时,那这段文本就很有可能是人类写的。

另一个关键指标是突发性,即某个句子、词在文本中突然出现的现象,这是一个衡量文本全文句子长度和结构变化的参数。

人类往往会有比较动态的写作风格,由此产生的文本结构相对参差。而AI 会更倾向于使用更加一致的结构生成文本。同时,大模型也会使用相同的规则来预测下一次单词,由此导致低突发性。

不过,GPTZero也会“犯错”。

例如,有网友将美国宪法丢给GPTZero,GPTZero竟表示,美国宪法是AI生成的。

也有不少学生遭了殃,自己辛辛苦苦码的论文,却被GPTZero鉴定为AI生成,真是跳进黄河也洗不清。

GPTZero开发者Tian 也承认GPTZero并不是百分之百准确,可能会产生误报或漏报,毕竟困惑度和突发性这两项指标也难以捕捉人类或AI写作的复杂性和风格。


其他同类应用


实际上,除了GPTZero外,市面上还有其他类似的AI检测工具。

1.AI Text Classifier

OpenAI曾亲自下场搞了一款文本检测应用——AI Text Classifier。不过,由于该工具对于短文本(1000 个字符以内)非常不可靠,即使更长的文本有时也会被错误标记,所以自 2023 年 7 月 20 日起,它就因准确率较低而停用。

2.AI Content Detector

链接:

https://writer.com/ai-content-detector/

与前述检测工具类似,用户提供文本则可进行内容分析,此外,它还支持URL对整个网页进行扫描,但一次最多可以支持1500个单词,可以用作免费检测器。

3.Copyleaks AI Content Detector

链接:

https://copyleaks.com/

Copyleaks可以区分AI生成的内容和人类编写的内容,准确性检测超过99%,支持多种语言。用户可以用它来检查不同类型的内容,如文章、帖子、学术论文和评论,用以确保内容的原创性。

4.Winston

链接:

https://gowinston.ai/

Winston AI 是一款AI 内容检测工具,可帮助检查ChatGPT、GPT-4、Bard、Bing Chat、Claude 和更多大型语言模型生成的AI内容,官方称准确率高达99.6%,并且2000个字符以内免费,适用于写手、教育从业者和网络出版商。

5.Content at Scale

链接:

https://contentatscale.ai/ai-content-detector/

Content at Scale 于 2022 年 9 月推出,是全球增长最快的 SEO 营销人员人工智能写作平台。它能够检测来自ChatGPT、GPT-4和Bard的内容。

GPTZero链接:https://gptzero.me/