人类史上最大的一场阳谋
某天,我突然好奇一点:2017年,谷歌发布的那篇论文直接改变了未来的LLM架构,不过这些大厂直接使用全人类的数据训练AI,但不经过全人类同意,这是否是一场人类历史上最大的一场阳谋?
虽然我们人类打字或说的话,写的代码,写的著作,如果没有去注册或者声明,可能没有法律效力,但是这也意味着不应该随意拿去使用,所有人都看到了这次数据被拿去训练这个事实,但是没有人能够阻止它。
在2022年ChatGPT横空出世时,我就发现,实际上我们的互联网很有可能早就不那么“干净”和“纯粹”了,假设我们人类在LLM诞生之前,我们都在向一个非常大的奶桶里注入那些纯粹的牛奶,而LLM诞生后,它可以产生大量的“牛奶味饮品”或“乳制品饮料”,最后导致整个这个奶桶里的牛奶都不再纯粹,变得越来越稀。
将来的人们喝这桶牛奶的时候,会发现它再也不是纯粹的牛奶,而是掺杂了乳制品饮料的牛奶,因为所有的牛奶里都掺杂了那些所谓的“乳制品饮料”。
而且我觉得最可怕的一点就是:AI甚至也在喝这桶牛奶,一段人类产生的数据,被AI训练,再被AI产生,产生的过程掺杂了很多不确定性的东西以及“幻觉”内容,最后这些数据被发布在互联网上,然后被AI新的一轮学习,这部分产生幻觉的知识就完成了一次循环,永久的进入了互联网与AI的数据集里,这就像微塑料,随着洋流流动,最后遍布全球各地,成为人类所在的世界的一部分,再也无法被清除。
也就是说,2022年以及之后很短的一段时间里(大概在AI下一次训练之前),我们是最后一批能够喝到真正的纯牛奶的那一批人,随后当AI越来越像人,直到我们可能辨别了识别“纯奶”的能力。
以及我之前深入思考了一些其他内容,人类很有可能在设计AI之初就想过互联网会被反噬,但没有想过会这么彻底。假设2022年就开始全面禁止AI生成内容的传播,我觉得效果很可能会好一些,但这是一个治标不治本的方法,只能延缓互联网被污染的速度。
我认为传统互联网已经完全被污染,这桶牛奶早已被永久稀释。未来或许会诞生出类似“数字方舟”的数据隔离区,这里有着带有签名的人类创作的严谨的知识,它不包含任何AI生成的错误内容,并且人类将会花费很长的时间去维护,这是个成本非常高的任务,可能比当前AI训练集数据清洗还要难,还要费时间。
根据我的亲身经验,有很多动画UP主的作品,绝大多数是手绘或者使用C4D等工具制作,但很多人因为制作水平等原因,导致很多人直接就问UP主视频是不是AI生成的,而不是夸奖UP制作的能力,或者仔细分析UP是怎么做的。包括我写的个人博客,有亲友就说我那个Markdown表格是不是就是AI写的,因为只有AI才会列表格。
如果真的是这样的话,我觉得我可以有远见地收集那些各种各样的资料,尤其是纸质书籍时代扫描成PDF的副本,这些数据源自世界各地,只要我死后大概几百年左右,那些书籍和资料的作者或许早已死去,在那时,书籍的全部内容都已进入公共版权领域,那时候或许我的子孙携带的我生前的资料,就是那时候最宝贵的一份财富,在几百年后的人们,可以研究21世纪的人们的生产生活方式。
根据《中华人民共和国著作权法》第二十三条规定:
自然人的作品,其发表权、本法第十条第一款第五项至第十七项规定的权利的保护期为作者终生及其死亡后五十年,截止于作者死亡后第五十年的12月31日;如果是合作作品,截止于最后死亡的作者死亡后第五十年的12月31日。
法人或者非法人组织的作品、著作权(署名权除外)由法人或者非法人组织享有的职务作品,其发表权的保护期为五十年,截止于作品创作完成后第五十年的12月31日;本法第十条第一款第五项至第十七项规定的权利的保护期为五十年,截止于作品首次发表后第五十年的12月31日,但作品自创作完成后五十年内未发表的,本法不再保护。
视听作品,其发表权的保护期为五十年,截止于作品创作完成后第五十年的12月31日;本法第十条第一款第五项至第十七项规定的权利的保护期为五十年,截止于作品首次发表后第五十年的12月31日,但作品自创作完成后五十年内未发表的,本法不再保护。
这也就是说,不管我现在多大,只要在我死后几百年,我保存的任何书籍,很有可能就不再受到法律保护了,这也意味着可以被人类拿去研究。
关于另一个让我担忧的问题:我每天在使用AI进行思维的扩充,某种意义上,如果人类也是AI,那么这就相当于一种变相的“蒸馏”,而我觉得那些最有价值的东西,很可能不是我现在写的文章,因为这里有些可能有我受到AI影响创作的内容,我觉得聊天记录作为人类最纯净,最没有任何修饰的创作内容,是人类创作的第一手资料,它的价值更高,尤其是很多时候我喜欢在自己的个人群里分享那些有意思的或者不切实际的想法,不管怎样,他们是真正由人类创造的。
在这里,我先为将来的发掘我这个博客的人感到感谢,你们可能遇到了历史上最有远见的人,再过10年,甚至100年,300年,我不知道人工智能发展成什么样。
在2026年,AI模型已经出现退化现象了(所谓的垃圾进,垃圾出),希望将来的模型会被人工纠正吧。
关于另外一些个人的想法:
人类是利益驱动的,我觉得不该把我的数据给任何一个机构,不然很有可能会被别人高价收购或者利用去随意售卖。我觉得有必要给我的子孙,让他们为我继承数字遗产,甚至我已经想好了:以后我的子孙帮我扫墓,只需要定期按照遗嘱给我更换服务器硬盘,全量备份,给主机通电一段时间除湿和检测磁盘性能,检查UPS电源电池性能,检查灭火器压力容量等等。从亲情与血脉角度来分析,我觉得我的子孙不会背叛我。
但是,我其实又不希望有自己的孩子,这主要出于我个人因素考虑。
其实早在我前两年,我就有在想:如果我没有自己的子孙,那么我的数据该怎么办?我对那些数据产生了情感,我自己的高中时期成绩单,大学时期的各种PDF文档,一些画师的委托文件,一些自己创作的博客,以及我之前还有一些创作的视频和故事集,还有那些现在看来是盗版的PDF书籍资料(但在那个时候或许就没有正版盗版一说了,一方面是我提到的版权到期,一方面就是数据的价值远远大于版权本身),这些都是我的个人数据,一旦我死后没有人知道,或许就永远消失在这个宇宙中了。
或许,可以考虑将数据刻在石头上,这样或许可以永恒存在,直至哪天被新世纪的人类发现。
《流浪地球2》里图丫丫作为数字生命,理想虽然很好,但实际出于伦理等角度可能不太能实现,但万一呢?
创作于2026-4-3