当前聚焦:你大脑中的画面,现在可以高清还原了
近几年,图像生成领域取得了巨大的进步,尤其是文本到图像生成方面取得了重大突破:只要我们用文本描述自己的想法,AI 就能生成新奇又逼真的图像。
但其实我们可以更进一步 —— 将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。
(相关资料图)
这种「思维到图像」的生成方式有着广阔的应用前景。例如,它能极大提高艺术创作的效率,并帮助人们捕捉稍纵即逝的灵感;它也有可能将人们夜晚的梦境进行可视化;它甚至可能用于心理治疗,帮助自闭症儿童和语言障碍患者。
最近,来自清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。
图片
论文地址:https://arxiv.org/pdf/2306.16934.pdf
项目地址:https://github.com/bbaaii/DreamDiffusion
方法概述近期一些相关研究(例如 MinD-Vis)尝试基于 fMRI(功能性磁共振成像信号)来重建视觉信息。他们已经证明了利用脑活动重建高质量结果的可行性。然而,这些方法与理想中使用脑信号进行快捷、高效的创作还差得太远,这主要有两点原因:
首先,fMRI 设备不便携,并且需要专业人员操作,因此捕捉 fMRI 信号很困难;
其次,fMRI 数据采集的成本较高,这在实际的艺术创作中会很大程度地阻碍该方法的使用。
相比之下,EEG 是一种无创、低成本的脑电活动记录方法,并且现在市面上已经有获得 EEG 信号的便携商用产品。
但实现「思维到图像」的生成还面临两个主要挑战:
1)EEG 信号通过非侵入式的方法来捕捉,因此它本质上是有噪声的。此外,EEG 数据有限,个体差异不容忽视。那么,如何从如此多的约束条件下的脑电信号中获得有效且稳健的语义表征呢?
2)由于使用了 CLIP 并在大量文本 - 图像对上进行训练,Stable Diffusion 中的文本和图像空间对齐良好。然而,EEG 信号具有其自身的特点,其空间与文本和图像大不相同。如何在有限且带有噪声的 EEG - 图像对上对齐 EEG、文本和图像空间?
为了解决第一个挑战,该研究提出,使用大量的 EEG 数据来训练 EEG 表征,而不是仅用罕见的 EEG 图像对。该研究采用掩码信号建模的方法,根据上下文线索预测缺失的 token。
不同于将输入视为二维图像并屏蔽空间信息的 MAE 和 MinD-Vis,该研究考虑了 EEG 信号的时间特性,并深入挖掘人类大脑时序变化背后的语义。该研究随机屏蔽了一部分 token,然后在时间域内重建这些被屏蔽的 token。通过这种方式,预训练的编码器能够对不同个体和不同脑活动的 EEG 数据进行深入理解。
对于第二个挑战,先前的解决方法通常直接对 Stable Diffusion 模型进行微调,使用少量噪声数据对进行训练。然而,仅通过最终的图像重构损失对 SD 进行端到端微调,很难学习到脑信号(例如 EEG 和 fMRI)与文本空间之间的准确对齐。因此,研究团队提出采用额外的 CLIP 监督,帮助实现 EEG、文本和图像空间的对齐。
具体而言,SD 本身使用 CLIP 的文本编码器来生成文本嵌入,这与之前阶段的掩码预训练 EEG 嵌入非常不同。利用 CLIP 的图像编码器提取丰富的图像嵌入,这些嵌入与 CLIP 的文本嵌入很好地对齐。然后,这些 CLIP 图像嵌入被用于进一步优化 EEG 嵌入表征。因此,经过改进的 EEG 特征嵌入可以与 CLIP 的图像和文本嵌入很好地对齐,并更适合于 SD 图像生成,从而提高生成图像的质量。
基于以上两个精心设计的方案,该研究提出了新方法 DreamDiffusion。DreamDiffusion 能够从脑电图(EEG)信号中生成高质量且逼真的图像。
图片
具体来说,DreamDiffusion 主要由三个部分组成:
1)掩码信号预训练,以实现有效和稳健的 EEG 编码器;
2)使用预训练的 Stable Diffusion 和有限的 EEG 图像对进行微调;
3)使用 CLIP 编码器,对齐 EEG、文本和图像空间。
首先,研究人员利用带有大量噪声的 EEG 数据,采用掩码信号建模,训练 EEG 编码器,提取上下文知识。然后,得到的 EEG 编码器通过交叉注意力机制被用来为 Stable Diffusion 提供条件特征。
图片
为了增强 EEG 特征与 Stable Diffusion 的兼容性,研究人员进一步通过在微调过程中减少 EEG 嵌入与 CLIP 图像嵌入之间的距离,进一步对齐了 EEG、文本和图像的嵌入空间。
实验与分析与 Brain2Image 对比
研究人员将本文方法与 Brain2Image 进行比较。Brain2Image 采用传统的生成模型,即变分自编码器(VAE)和生成对抗网络(GAN),用于实现从 EEG 到图像的转换。然而,Brain2Image 仅提供了少数类别的结果,并没有提供参考实现。
鉴于此,该研究对 Brain2Image 论文中展示的几个类别(即飞机、南瓜灯和熊猫)进行了定性比较。为确保比较公平,研究人员采用了与 Brain2Image 论文中所述相同的评估策略,并在下图 5 中展示了不同方法生成的结果。
下图第一行展示了 Brain2Image 生成的结果,最后一行是研究人员提出的方法 DreamDiffusion 生成的。可以看到 DreamDiffusion 生成的图像质量明显高于 Brain2Image 生成的图像,这也验证了本文方法的有效性。
图片
消融实验
预训练的作用:为了证明大规模 EEG 数据预训练的有效性,该研究使用未经训练的编码器来训练多个模型进行验证。其中一个模型与完整模型相同,而另一个模型只有两层的 EEG 编码层,以避免数据过拟合。在训练过程中,这两个模型分别进行了有 / 无 CLIP 监督的训练,结果如表 1 中 Model 列的 1 到 4 所示。可以看到,没有经过预训练的模型准确性有所降低。
mask ratio:本文还研究了用 EEG 数据确定 MSM 预训练的最佳掩码比。如表 1 中的 Model 列的 5 到 7 所示,过高或过低的掩码比会对模型性能都会产生不利影响。当掩码比为 0.75 达到最高的整体准确率。这一发现至关重要,因为这表明,与通常使用低掩码比的自然语言处理不同,在对 EEG 进行 MSM 时,高掩码比是一个较好的选择。
CLIP 对齐:该方法的关键之一是通过 CLIP 编码器将 EEG 表征与图像对齐。该研究进行实验验证了这种方法的有效性,结果如表 1 所示。可以观察到,当没有使用 CLIP 监督时,模型的性能明显下降。实际上,如图 6 右下角所示,即使在没有预训练的情况下,使用 CLIP 对齐 EEG 特征仍然可以得到合理的结果,这凸显了 CLIP 监督在该方法中的重要性。
图片
标签:
- 当前聚焦:你大脑中的画面,现在可以高清还原了
- 天天看热讯:钢铁企业成本核算的基本特征是什么?钢铁企业现行成本核算模式是什么?
- 视点!农业银行多少岁就可以办卡?未成年农信卡可不可以绑微信?
- 看点:一周喝几次酒就算酗酒 一周喝一次酒算有酒瘾吗?
- 【世界聚看点】兴业银行账单日当天消费算哪个月的?信用卡账单日当天消费怎么算?
- 销售增长率和可持续增长率差值是多少?销售增长率属于什么维度? 今日最新
- Word中如何输入列表题?Word表格怎么添加标题? 世界热推荐
- win7升级win10文件会丢失吗?win7和win10怎么共享文件?
- 个人征信逾期记录有哪些消除方法?征信记录几年消除,哪些记录不会消除?
- 世界热推荐:股票生命线是指什么线?为什么说60日均线是股价的生命线?
- 夫妻想共同存款消费办什么银行卡?共管卡办理有什么要求?
- 风水学说的起源是什么?风水不好会影响学业吗? 全球观察
- 看点:滚动式灯箱制作流程有哪些?滚动式灯箱有哪些性能?
- 央企缘何热衷拆分新能源上市 天天观热点
- 海博思创核心业务毛利率大跌13个百分点 最大客户为参股子公司关联收入占超30%
- 崩坏星穹铁道镜流什么时候上线?镜流技能是什么定位?
- 狗狗不想养了也没人领养怎么办?高铁可以托运狗狗吗?
- 价格形式分为几种?价格形式的影响因素有哪些?
- 什么是风水学说?风水跟孩子学习成绩有关吗? 全球速讯
- 胖东来8页报告,打了餐饮“下跪式道歉”一耳光-天天热闻
- 世界快讯:灰洞是什么?灰洞的理论缺陷是什么?
- 手机纳米镀膜多久自动掉?纳米膜和钢化膜的区别在哪里?
- 五一去哪旅游最合适带孩子去?游乐园适合带孩子玩吗?|世界新资讯
- 最新快讯!商业银行的主要性质有哪些?商业银行主要负责哪些业务?
- 淘洗磁选机是干什么用的?淘洗磁选机的原理是什么?
- 环球动态:过桥资金还不上怎么办?过桥垫资100万手续费多少?
- 商业银行的经营原则有哪些?商业银行并行风险有哪些?
- 新手如何购买债券基金?购买债券基金都有什么风险? 每日热门
- 圣骑士学大马还用做任务吗?魔兽里传送符文怎么获得?
- 当前关注:中药材大规模涨价是怎么回事?中药材涨价影响股价吗?
- 当前聚焦:你大脑中的画面,现在可以高清还
- 天天看热讯:钢铁企业成本核算的基本特征是
- 视点!农业银行多少岁就可以办卡?未成年农
- 看点:一周喝几次酒就算酗酒 一周喝一次酒
- 【世界聚看点】兴业银行账单日当天消费算哪
- 销售增长率和可持续增长率差值是多少?销售
- Word中如何输入列表题?Word表格怎么添加标
- win7升级win10文件会丢失吗?win7和win10怎
- 个人征信逾期记录有哪些消除方法?征信记录
- 世界热推荐:股票生命线是指什么线?为什么
- 夫妻想共同存款消费办什么银行卡?共管卡办
- 风水学说的起源是什么?风水不好会影响学业
- 看点:滚动式灯箱制作流程有哪些?滚动式灯
- 央企缘何热衷拆分新能源上市 天天观热点
- 海博思创核心业务毛利率大跌13个百分点 最
- 崩坏星穹铁道镜流什么时候上线?镜流技能是
- 狗狗不想养了也没人领养怎么办?高铁可以托
- 价格形式分为几种?价格形式的影响因素有哪
- 什么是风水学说?风水跟孩子学习成绩有关吗
- 胖东来8页报告,打了餐饮“下跪式道歉”一
- 世界快讯:灰洞是什么?灰洞的理论缺陷是什
- 手机纳米镀膜多久自动掉?纳米膜和钢化膜的
- 五一去哪旅游最合适带孩子去?游乐园适合带
- 最新快讯!商业银行的主要性质有哪些?商业
- 淘洗磁选机是干什么用的?淘洗磁选机的原理
- 环球动态:过桥资金还不上怎么办?过桥垫资1
- 商业银行的经营原则有哪些?商业银行并行风
- 新手如何购买债券基金?购买债券基金都有什
- 圣骑士学大马还用做任务吗?魔兽里传送符文
- 当前关注:中药材大规模涨价是怎么回事?中