只存在于脑中的幻象,这个AI模型“画”出来了

原文来源:追问nextquestion

图片来源:由无界 AI生成

当看见两组线条光栅紧挨在一起,彼此稍有错位时,我们脑海中似乎会出现一条实际上并不存在的线。这条线仿佛在两组实际线条间弯曲延伸(图1C)。

图1:交错光栅幻觉变体。A:Vasarely (1970);B:Vasarely' Zebres (1939);C:经典的交错光栅幻觉。图源:Vasarely

如此简单的排列就能创造出令人惊讶的视觉效果,这被我们称为交错光栅幻觉(The abutting grating illusion)。更有趣的是,当这些线条的数量增多时,我们对幻觉的感知也会变得更加强烈。

还有两种霓虹色扩散幻觉也颇有意思:

埃伦斯坦幻觉和瓦林幻觉。在埃伦斯坦幻觉中,一组辐射状的线条向外延伸。线条朝外的方向是深色的,而朝中心聚集的部分是浅色的。如果将目光聚焦在线条中心,内部的浅色部分看起来像是向周围的暗色区域扩散,形成了一个半透明的圆形。

图2:埃伦斯坦幻觉,停在特定点的直线格子图案在中心显得比背景更亮,形成圆形错觉。图源:Wikipedia

瓦林幻觉则由分别处于四个角落的圆形构成,其中每个圆形的一部分颜色较浅,其他均为黑色。当我们凝视这些圆形时,浅色部分似乎会向中心扩散,最终形成一个半透明的方形。

图3:瓦林幻觉,中心部分亮度更亮或者更暗,都会向中心扩散,最终形成一个半透明的方形。图源:Perception

虚拟轮廓感知的算法机制

科学家们提出了多种理论,试图对以上这些幻觉中所触发的对虚拟轮廓感知的算法机制作出解释。

一些派别认为,是色彩的侧向抑制*使对比度增强,令人们感知到了虚拟线条。例如,当一个神经元被亮度激发时,它会抑制周围较暗区域的神经元,这使得亮的地方看上去更亮,而暗的地方看上去更暗。脑可能会将对比度的增强误解为一个明显的轮廓和线条[1]。另一种理论认为,这有可能是大脑的高级功能,如借由知识和记忆所完成的脑补。当我们的大脑将看到的图像与过往表征进行比较时,可能会觉得缺少了某些元素,于是自动“补全”这些缺失部分,形成了对虚拟轮廓的感知[2]。还有许多理论,诸如神经震荡可以结合零碎的特征以形成对不存在特征的感知[3];皮层放大因子会对中央视野进行细致处理,因此夸大了某些刺激物的特征之类[4]……

*侧向抑制(Lateral inhibition):一种保守的并列信号传导机制,在大多数生物的发育过程中,侧向抑制会在最初近乎同质的组织中推动斑点和条纹边界等多种精细图案的形成(参考文献9)

而对虚拟轮廓感知的神经生理机制而言,尽管科学家们已经进行了大量的研究,但仍然存在许多争议。其中的一个竞争模型认为,这种神经生理机制发生在低级视觉皮层(V1/V2),然后自下而上地影响更高级的皮层;另一种观点则认为,这一过程首先定位于更高级的皮层,主要是侧枕皮层(LOC),然后自上而下地影响V1/V2[5]。

对于霓虹色扩散幻觉来说,一些研究认为V3和V4对于形状相关的颜色填充现象有相当大的影响[6]; 同时,有一些研究认为由边缘诱导的填充或均匀表面色度产生的颜色外观相关的皮层活动与背侧(V3A和V3B/KO)和腹侧视觉流(V3v、hV4和LO)的互补活动模式相关[7](图4)。

图4:视觉皮层中各个功能区域和路径。图源:参考文献7。

尽管这些理论提供了对幻觉算法及生理机制的部分解释,但我们仍然不清楚这些视觉幻觉到底是怎么在内心中被表征出来的,这似乎也无法验证。

当看到幻觉的时候,我们是真的“看到”了它们吗?

我们真的能确定自己是在用“幻觉”的方式表征那些带来幻觉的刺激物吗?

重建幻觉图像

近期,在Science Advances上发表的一篇论文用以上提到的两种视觉幻觉类型进行了测试,成功重建了与幻觉体验一致的线条和颜色图像,证明了该模型在物质化主观体验方面的有效性[8]。

    ▷图1:论文封面。图源:参考文献8

实验中,研究者让7位被试观看三种及以上视觉幻觉图像及其对应的控制图像和正控制图像。对于每种幻觉,控制图片都有所改动。例如交错光栅幻觉的控制图像,大幅减少了栅栏密度;埃伦斯坦幻觉的控制图像,原本引起幻觉的向外延伸的线条尾端颜色变浅,而正控制图片则是将线条的辐射中心改为浅色圆形;瓦林幻觉的控制图像,去除了幻觉刺激物的黑色部分(原本的视觉诱导),而正控制图像则将中心部分改为较浅颜色的方形(具体见图5)。

这些图像以0.625赫兹的频率闪现,每次持续8秒,共重复20次。在整个实验过程中,研究者使用功能性磁共振成像(fMRI)技术记录了被试在观看这些图像时的大脑活动。

图5:图A左列为引发幻觉的刺激物,图A右列为与引发幻觉的刺激物相对应的控制刺激物。图A第一行为交错光栅幻觉,图A第二行为埃伦斯坦幻觉,图A第三行为瓦林幻觉。图B为使用自然图片训练DNN的过程。图C为DNN解码fMRI数据中显示的大脑活动为刺激物特征以及生成器根据DNN解码结果生成图片的过程。图源:Science

接着,研究者将fMRI收集的大脑数据输入进一个经过训练的深度神经网络(DNN)进行解码。这个DNN是由Open AI董事Alex Krizhevsky设计的AlexNet的变体,即BAIR/BVLC CaffeNet模型。这是一个采用前向传播算法的卷积神经网络,已预先训练用于分类ImageNet图片数据库中的1000种物体。

结果表明,从幻觉刺激物的心理表征中重构出来的图像,都表现出了幻觉性质。与之相反,直接从刺激物性质本身重构出来的图像,却没有表现出幻觉性质。这也就说明了从心理表征重构出来的幻觉性质,并非由DNN的性质和处理方式建构出来的,而是心理表征本身的性质(见图6)。

图6:最左列为刺激物图片。图左二列为DNN根据最左列刺激物图片数据本身重构的图片。图3-6列为从被试1对图最左刺激物图片产生的大脑活动中重构出的心理表征。图7-10列为从被2对图最左刺激物图片产生的大脑活动中重构出的心理表征。图1-3行都是关于交错光栅错觉的图片。第一行关于两列光栅栏沿着90度排列的交错光栅幻觉,第二行关于两列光栅栏沿着45度排列的交错光栅幻觉,第三行关于交错光栅幻觉的控制。图4-7行都是关于埃伦斯坦幻觉的图片。第四和六行关于埃伦斯坦幻觉,四有8根弦,六有4根线。第五和七行关于埃伦斯坦幻觉的控制,五有8根线,七有4根线。图8-9行都是关于瓦林幻觉的图片。第八行为瓦林幻觉,第九行为控制。图源:Science

这项研究的独特之处在于:这一批图像是根据fMRI记录下来的所有视觉皮层的数据解码后生成的结果;此外,这批重构的心理表征普遍显示出了幻觉性质比刺激物本身性质更强的特征。

就交错光栅幻觉而言,幻觉刺激物中那条虚幻的线,看上去比任何刺激物本身涵盖的线条要明显得多,而从控制刺激物中重构出来的心理表征,则没有表示出这一点;就霓虹色扩散幻觉而言,在爱伦斯坦幻觉中,颜色扩散的部分相较于控制要大得多;在瓦林幻觉中,虽然控制刺激物仍然显示出了扩散形状的轮廓,不过颜色扩散的部分还是相较于控制要大得多。而且控制刺激物本身设计的目的也只是为了抑制颜色扩散而不是抑制形状轮廓,所以在瓦林幻觉这里,心理表征中幻觉性质强于刺激物性质,这一特性依然成立。

量化重构的幻觉

幻觉的强度不仅在重构的图像中得到了体现,还可以通过一系列方法进行量化。这篇论文就对交错光栅幻觉和霓虹色扩散幻觉刺激物产生的心理表征中的幻觉强度进行了详细的量化分析。

研究者此次使用拉东变换(Radon Transform)分析了交错光栅幻觉的幻觉性质,也就是光栅之间虚拟线条的强度。拉东变换作为一种被广泛应用于解析射线扫描数据的方法,可以通过从各个方向对物体进行投射所得到的积分值(如密度,质量等),在只能知道侧面描述的情况下,从数学层面重构出原本物体的形状。

研究将拉东变换应用到图像解析中,通过对从各个方向对图像进行投射所得到的“像素值”加总,得出重构图中线条分布的主要方向。实验表明,就fMRI所有关于视觉皮层的数据而言,重构图像中的主要方向显示出了双峰分布,在这种分布中,约61.1%的主要方向更接近于幻觉的主要方向,而非视觉诱导的方向。

从图中可以明显看出,重构图像中主要方向的双峰分布内竖向的绝对值要比横向绝对值的更高且分布更聚集。随着幻觉刺激物中光栅(线条)数量的减少,心理表征对刺激物的重构图像中主要方向的双峰分布内,竖向绝对值相对于横向绝对值开始下降,并且在控制刺激物中,明显横向绝对值高于竖向绝对值。这个结果支持了认为光栅(线条)数量的减少会减轻幻觉程度的理论。

同时,截取幻觉重构图像中不同的区域进行分析,会发现幻觉集中区域的主要方向与重构图像的主要方向接近;而非幻觉区域(视觉诱导主要集中的区域)的主要方向则与重构图像的主要方向不相近。这证明重构图像中幻觉所处在的区域如同感知到的一般在两组光栅之间(见图7B、C、D、E)。

图7:图A展示了拉东变换的过程。图B显示重构图片61.1%的主要方向相对于诱导的主要方向更接近幻觉的主要方向。图C显示刺激物得分主要方向明显更加接近于诱导的主要方向。图D显示线条数量越少,图片的主要方向越接近于诱导的主要方向。图E显示幻觉集中区域的主要方向同样接近重构图像的主要方向 图F显示视觉皮层不同区域提取出的数据重构出的心理表征,V1-V3更加拥有幻觉性质。图源:Science

研究者也通过线性回归分析了埃伦斯坦幻觉和瓦林幻觉中的幻觉性质,也就是颜色从刺激物给出的线条出发向外弥散(形成半透明平面)的程度。他们分别为幻觉心理表征、控制心理表征和正控制心理表征的重构图像,以及刺激物图像和预期的主观幻觉图像建构了基于每个图像中像素的RGB值所计算出的“红度图”。

接着,研究者试图用刺激物和预期的主观幻觉的红度图拟合心理表征的红度图。预期的主观幻觉和刺激物各拥有一个系数(β1和β2)用以拟合,而这些系数代表了它们在重构心理表征中各自所占有的比重。也就是说,重构心理表征红的部分越多,系数β1就越大。因为只有在感知时更红的主观幻觉占更多的比重,才能令心理表征看上去更红(见图8C,D,G,F)。

线性回归的结果表明,基于fMRI所有关于视觉皮层的数据,两种引发霓虹色弥散幻觉的刺激物的主观幻觉系数都大于控制刺激物,并且小于正控制刺激物。然而,瓦林幻觉的主观幻觉系数虽然大于控制,却显著小于爱伦斯坦幻觉的主观幻觉系数(见图8E,F,I,J)。

图8:图A展示了埃伦斯坦幻觉,其控制和正控制在不同视觉皮层区域的表征。图B展示了瓦林幻觉,其控制和正控制在不同视觉皮层区域的表征。图C显示对比埃伦斯坦幻觉和其控制的红度图线性回归的计算方式。图D显示对比瓦林幻觉和其控制的红度图线性回归的计算方式。图E显示埃伦斯坦幻觉幻觉性质相对于控制幻觉性质在各个视觉皮层区域的比重。图F显示瓦林幻觉幻觉性质相对于控制幻觉性质在各个视觉皮层区域的比重。图G显示对比埃伦斯坦幻觉和其正控制的红度图线性回归的计算方式。图H显示对比瓦林幻觉和其正控制的红度图线性回归的计算方式。图I显示埃伦斯坦幻觉幻觉性质相对于正控制幻觉性质在各个视觉皮层区域的比重。图J显示瓦林幻觉幻觉性质相对于正控制幻觉性质在各个视觉皮层区域的比重。图源:Science

幻觉对应的视觉区域

研究者不仅重构了整个视觉皮层对于幻觉的心理表征,还重构出了皮层中各个具体的视觉区域对幻觉的心理表征。

文中涉及的这些视觉区域,按视觉通路中下游到上游(初级到高级功能)的顺序排列,包括初级视觉皮层(V1),次级视觉皮层(V2),三级视觉皮层(V3),四级视觉皮层(V4),侧枕叶复合体(LOC),梭状回脸部区域(FFA),和海马旁区域(PPA)。

图4:视觉皮层中各个功能区域和路径图。图源:参考文献7。

研究者在提取了视觉皮层中不同区域的fMRI数据解码并分别重构心理表征之后,发现对于交错光栅幻觉而言,单从图片上来看,幻觉性质主要在V1到V3中有所体现,V4及以上区域展现的幻觉性质和刺激物性质都不甚清晰。在量化各个区域重构图片的主要方向之后,研究者发现幻觉性质于图片全域在V2到V4间达到顶峰,于幻觉集中域在V1到V3间达到顶峰。这些结果表明,线条的表征主要集中在早期视觉区域(图7F)。

在处理霓虹色扩散幻觉时,视觉皮层采用了不同的策略。研究表明,埃伦斯坦幻觉的幻觉性质,在各个视觉皮层的区域中都有显著体现,与正控制刺激物的霓虹色性质出现在每个视觉皮层区域的表征相符;而瓦林幻觉的幻觉性质只在V4及以上的视觉皮层的区域中有显著体现,然而正控制刺激物的表征中霓虹色性质在V2和V3中也有显著体现。结合之前瓦林幻觉主观幻觉系数小于埃伦斯坦幻觉主观幻觉的结果,这说明即使是同一种幻觉性质,不一样的诱导设置也会引起视觉皮层不一样的信息处理方式。

当我们产生视觉幻觉的时候,到底是自上而下地从高级区域开始向下影响初级视觉皮层建构起了幻觉,还是初级视觉皮层自下而上地影响高级区域造成的呢?这篇论文虽只是从另一个角度呈现了之前那些理论中所预测的表征,而不是试图建构大脑活动和幻觉性质之间的因果关系,但是其生动形象地呈现方式还是为我们提供了些许主观经验的表征在脑中具体如何活跃的线索。

显而易见的是,我们不能简单地用一个脑区来重构整个幻觉体验;而且诱导的线索等都会对同一种幻觉体验的发生机制产生影响。看来要理解幻觉复杂的发生机制,还需要一个更加完整的理论框架。

下次再看到那些让你眼花缭乱的幻觉图像时,也许你会想起这些模型构建的幻觉,想到大脑里可能正在上演的这场精彩的“高级区域 vs.初级区域”的较量,随后会心一笑,感叹认知的奇妙。

参考文献:

[1]. Elliott, S. L., & Shevell, S. K. (2013). "Perceived segmentation of center from surround by only illusory contours causes chromatic lateral inhibition." This study suggests that illusory contours can invoke center–surround spatial antagonism to alter color appearance, indicating a cortical neural locus for lateral inhibition

[2]. Pak A, Ryu E, Li C, Chubykin AA. Top-Down Feedback Controls the Cortical Representation of Illusory Contours in Mouse Primary Visual Cortex. J Neurosci. 2020 Jan 15;40(3):648-660. doi: 10.1523/JNEUROSCI.1998-19.2019. Epub 2019 Dec 2. PMID: 31792152; PMCID: PMC6961994.

[3]. Murray MM, Herrmann CS. Illusory contours: a window onto the neurophysiology of constructing perception. Trends Cogn Sci. 2013 Sep;17(9):471-81. doi: 10.1016/j.tics.2013.07.004. Epub 2013 Aug 6. PMID: 23928336.

[4]. Gove, A., Grossberg, S., & Mingolla, E. (1995). Brightness perception, illusory contours, and corticogeniculate feedback. Visual Neuroscience, 12(6), 1027-1052. doi:10.1017/S0952523800006702

[5]. J. F. Knebel, M. M. Murray, Towards a resolution of conflicting models of illusory contour processing in humans. Neuroimage 59, 2808–2817 (2012).

[6].  S. W. Hong, F. Tong, Neural representation of form-contingent color filling-in in the early visual cortex. J. Vis. 17, 10 (2017).

[7]. P. Gerardin, C. Abbatecola, F. Devinck, H. Kennedy, M. Dojat, K. Knoblauch, Neural circuits for long-range color filling-in. Neuroimage 181, 30–43 (2018).

[8]. Fan L. Cheng et al.,Reconstructing visual illusory experiences from human brain activity.Sci. Adv.9,eadj3906(2023).DOI:10.1126/sciadv.adj3906

[9]. Cohen, M. et al. (2010) ‘Dynamic filopodia transmit intermittent delta-notch signaling to drive pattern refinement during lateral inhibition’, Developmental Cell, 19(1), pp. 78–89. doi:10.1016/j.devcel.2010.06.006.