韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。
第三作者 David Fan现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。