探索SCENE
一位联邦地方法官已下令OpenAI向《纽约时报》和其他原告移交约2,000万条去标识化的ChatGPT聊天记录,进一步加剧了这家AI开发公司在版权和数据治理争议方面的风险敞口。
该命令于周三在纽约发布,驳回了OpenAI阻止用户聊天记录生产的请求,并指示公司在保护框架下移交这些日志。
这一结果可能会影响OpenAI、Anthropic和Perplexity等科技公司获取训练数据、授权内容以及为其系统输出建立防护措施的方式。
尽管法院“认识到OpenAI用户的隐私考量是真诚的”,但这些考量“只是比例分析中的一个因素,在存在明确关联性且负担最小的情况下,不能占主导地位”,美国地方法官Ona T. Wang写道。
Decrypt已联系双方征求意见。
该命令源于《纽约时报》正在进行的诉讼,指控OpenAI的模型在未经许可的情况下被训练于受版权保护的新闻内容。该诉讼最早于2023年12月提出。
去年1月,OpenAI对《纽约时报》的指控提出异议并提起反诉,称该报“并未讲述全部事实”。
法院随后认定,涉案的2,000万条聊天记录样本“与案件需求相称”,用于评估ChatGPT输出是否复制了《纽约时报》的材料。
过去一年,争议不断升级,原告要求广泛获取输出数据,而OpenAI则警告称大规模披露这些材料会带来隐私和运营上的负担。
今年6月,OpenAI遭遇另一次挫折,法院命令公司为诉讼保留大量ChatGPT用户数据,包括用户可能已删除的聊天记录。
数月后,10月,争议再度浮现,法院关注OpenAI于10月20日提交的(ECF 679)文件,质疑生产2,000万条日志样本,并要求双方就分歧原因提交说明。
当时,法官要求各方解释争议与早前有关删除日志的担忧之间的关系,以及OpenAI是否放弃了此前承诺移交的内容。
上月底,OpenAI正式提出异议,请求地区法官推翻地方法官的证据开示命令。
据OpenAI代表向Decrypt分享的法庭文件显示,公司认为该裁决“明显错误”且“不相称”,因为这将迫使公司披露数百万条私人用户对话。
此次争议是对AI实验室更广泛攻势的一部分,作家、新闻机构、音乐出版商和代码库寻求检验现有版权法在模型摄取和再现受保护材料时的适用范围。
美国和欧洲各地的法院目前正在处理类似的诉讼。