预训练“机器人”潜藏侵权风险和监管隐忧
以ChatGPT为代表的预训练模型“机器人”,在预训练过程中需要“投喂”海量数据,才能使得模型能够成功理解人类语言并模拟出愈加真实的类人表达方式。
据OpenAI的相关论文透露,ChatGPT的训练集使用了总计约320TB的文字信息,涵盖超4000亿词和约31亿个网页,其中包括来自新闻、博客、社交媒体的内容。
但这种未经授权获取文本数据的预训练方式已引发争议和不满。推特(Twitter)现任首席执行官埃隆·马斯克就于近日宣布,叫停ChatGPT访问Twitter数据库来获取培训数据,声称“需要更多瞭解OpenAI的治理结构和未来收入计划”。
无独有偶,近日,拥有国际性体育资源的盖蒂图片社对同为人工智能企业的Stability AI提起诉讼,指责其未经许可从其数据库中复制了1200多万张图片,用于建立竞争性业务,并侵犯了该公司的版权和商标保护权。
张勇东表示,类似ChatGPT这样的预训练模型,其训练数据往往来源于书籍、网站等,而其用于训练的语料未经授权,存在版权风险。且这种训练过程往往不对外公开,训练数据也不对外公布,因此版权拥有者并不知情。待模型完成后,生成的内容往往是原始训练数据的某种组合,对外服务过程中就会存在侵犯原始版权的问题。
|