山东大学 - 《山东大学报》
人人都是虚拟世界的创造者
作者:于智源
OpenAI将Sora定义为现实世界的模拟器,对AI的期待甚是宏大,但从效果层面还需进一步观察,比如其对社会运行规律的理解、对物理现象的仿真,再到对风俗人伦的认知。底层大模型对这些规律、现象、关系的理解依赖大量训练数据,以满足通用场景和特定场景的生成需求,确保生成内容在时间和空间上的连续性。并且文本描述与视频片段的映射关系也会影响内容生成的质量。
因此,以Sora为代表的AIGC文生视频模型对数据的要求将远超以ChatGPT为代表的大语言模型。除现有开源和专用数据集之外,各类中长视频和短视频平台用户发布的内容都有可能成为文生视频模型的潜在训练数据和生成素材,例如社交平台用户即时分享、媒体机构专业生产的内容等。可以说,在不久的将来人人都是虚拟世界的创造者。
不可否认的是,素材来源的多元化能够进一步提升文生视频模型的生产能力,帮助该类模型逐渐成长为新型内容生产工具。同时,考虑到文生视频扩散模型的学习能力和应用场景,相比重混(Remix)创作中的素材使用更具隐蔽性,因而针对训练数据和视频生成素材的数据合规和版权归属的讨论也应提上重要日程。以社交平台为例,个人和机构用户发布内容时应提供AI模型数据使用倾向、数据共享边界、信息披露意愿等选项。在享受大模型这类新应用带来的便利性的同时,保护用户隐私与数据安全,引导合法、合规、合理且负责任的AIGC产品使用,维护用户权益。
(作者系山东大学新闻传播学院副教授)