人格表征个体行为模式的内在特征,可预测个体在特定情境下的行为、想法和情绪[]。到目前为止,心理学家已经提出许多人格测量理论[-],其中,五因素模型是人格研究中最主要和常用的模型[]。五因素模型也被称为大五人格特质,主要由五个维度组成:外向性、宜人性、尽责性、神经质、开放性[]。已有研究表明,大五人格在恋爱关系[]、学业成绩[]、事业发展[]等方面都有影响,因此人格的精准评估很重要。
现有的人格评估方法主要依靠自我测评量表[]。这种方法需要受试者根据自己的实际情况对一系列描述具体行为特征的陈述句进行回答。常用的量表包括NEO-Personality-Inventory Revised(NEO-PI-R)[]、NEO Five Factor Inventory(NEO-FFI)[]等。由于自评量表具有简便易行、成本较低且易于解释等优点,一直以来都是最受欢迎的人格评估方法。然而,由于社会期许性的存在[],自评方式容易受主观因素的影响,导致主观偏差[]。因此,有研究者采用其他类型数据对人格进行客观评估,包括社交软件使用数据[]、视觉数据(面部表情图片等)[]、眼动数据[]、脑电数据[]等。
虽然现有研究已经尝试使用多种类型数据进行人格客观评估,但社交软件使用数据和行为数据等数据存在心理机制解释性较弱等问题[]。以脑电为代表的神经生理信号具有客观性强、实际可行性好等优点,且有大量研究证实人格特质存在生物基础[-],因此利用神经信号进行人格评估得到越来越多关注[]。其中,脑电便携性好、运行成本低,适合应用于实际的人格评估[]。
目前基于脑电进行人格评估的研究多采用分类方法[-],分类维度相对粗糙,实际意义有限。尽管有少部分研究采用回归方法对人格分数进行预测[,,],但主要采用事件相关电位(event related potential,ERP)[]和功率谱密度(power spectral density,PSD)[,]特征进行人格回归预测,所反映的大脑变化情况局限于单个区域,但人的认知过程依赖于大脑区域间的相互作用[]。有研究表明人格与大脑功能网络间存在显著相关性[],而且基于脑电功能连接特征的人格分类研究也取得较好的结果(大五人格中有四个维度的二分类准确率大于80%)[]。因此,本研究使用相干(coherence,COH)功能连接特征进行人格回归预测。COH特征用于衡量两个信号在特定频段或频率点的线性关系[],已被应用在基于脑电的人格分类[]、身份识别[]等领域。本文使用电极间COH功能连接特征,尝试从新的角度对人格进行探究。
目前基于脑电信号的跨被试人格回归研究一般采用弹性网稀疏正则化回归模型,研究者在n − 1个被试的数据上进行特征选择和回归模型训练,回归模型在剩余的1个被试数据上得出人格预测分数[,]。上述研究采用的机器学习方法一般假设训练数据和测试数据是独立同分布的,但是由于脑电信号的个体差异性,被试间的数据分布可能不满足独立同分布条件[]。因此,训练出的机器学习模型可能很难适用于跨被试脑电信号分析[],影响跨被试人格评估的准确性。针对这一问题,本文使用迁移学习中的领域自适应方法减小脑电信号个体差异带来的负面影响。领域自适应方法通过在特征、实例、模型三个层面上对训练集和测试集样本进行适配,减小训练集和测试集样本的分布差异,从而提升机器学习模型的预测性能。该方法已被应用在基于脑电信号的跨被试情绪识别[]、认知负荷评估[]等领域,取得较好的结果。因此,本文使用基于特征的领域自适应方法,通过减小训练集和测试集样本的分布差异,使得回归模型能够实现更准确的跨被试人格评估。
本研究提出一种结合脑电功能连接特征和领域自适应的大五人格评估方法,利用脑区间交互信息并减小脑电个体差异性带来的数据分布差异,从而提升人格评估结果。实验采集45名参与者在情绪刺激下的脑电数据,基于电极间COH功能连接特征,使用基于特征的领域自适应方法,同时考虑训练集(源域)和测试集(目标域)的边缘分布差异和条件分布差异,并调整适配过程中两种分布差异的重要性,根据类别比例对不同的数据类别加权处理。此外,为了说明所提出的领域自适应方法和COH功能连接特征对人格评估结果的影响,本实验还提取了ERP和PSD两种脑电特征,并对比了之前研究使用的弹性网稀疏正则化回归模型[,]。
在本实验中,来自南京航空航天大学的45名大学生(17名女性和28名男性,平均年龄24.52岁,年龄分布于20~30岁)参加了这项研究。所有参与者均听力正常,视力正常或矫正正常,没有任何脑部或精神疾病,除一名参与者为左利手,其余44名参与者均为右利手。实验前一天晚上要求参与者保持充足的睡眠时间。所有参与者均签署一份书面知情同意书。
已有研究较多使用情绪刺激下的脑电开展人格评估[,-],因此本文也采用这种刺激。本文采用150张情绪图片作为刺激材料,其中正向情绪图片50张,负向情绪图片50张,中性情绪图片50张,所有图片均选自中国情绪图片系统[]。考虑到效价和唤醒度,选择高效价、高唤醒的前50张图片作为正向情绪图片,低效价、高唤醒的前50张图片作为负向情绪图片,中性图片唤醒度均为中。使用中国版的大五人格量表[]评估被试人格特质,该量表是一个5级的李克特量表(0,1,2,3,4),共有240个项目,外向性、宜人性、尽责性、神经质、开放性各有48项,各维度的内部一致性为0.77~0.92[]。
为了更贴近真实场景,实验在没有任何电屏蔽的常规实验室环境中进行,情感图片在15 inch液晶屏幕上呈现,被试坐在离显示器屏幕约60 cm的舒适椅子上。在实验开始之前,要求被试尽量认真准确地填写大五人格问卷,并告知被试实验具体流程和细节。
本研究的实验范式参考文献[]设计,具体流程如所示。在实验过程中,150张情绪图片随机呈现,实验分为三组,每两组之间有1 min的休息时间,每组包括50次实验,每个实验包括2 s的空白界面使被试静息休息,2 s的十字图片用来集中被试注意力,4 s的情绪图片显示用于诱发被试的情绪状态。在正式实验开始前,被试观看3张新的情绪图片以熟悉实验过程。在正式实验中,要求被试尽可能保持静止,并在情绪图片出现时尽量保持不眨眼观看图片,以防止人工伪迹对脑电的影响。
本研究使用64通道便携式无线脑电图系统(NeuSen. W64,博睿康,中国)进行数据采集,采样率为1 000 Hz。根据国际标准10-20系统,记录59个电极的脑电数据:AF3/4、AF7/8、Fp1/2、Fz、F1/2、F3/4、F5/6、F7/8、FC1/2、FC3/4、FC5/6、FCz、Cz、C1/2、C3/4、C5/6、FT7/8、T7/8、TP7/8、CP1/2、CP3/4、CP5/6、FPz、Pz、P3/4、P5/6、P7/8、PO3/4、PO5/6、PO7/8、POz、Oz、O1/2,并以CPz为参考电极,AFz为接地电极。在实验过程中,所有电极的阻抗都保持在5 kΩ以下。
本研究使用EEGLAB[]工具箱对脑电进行预处理。首先,在通道定位后,原始脑电数据经过1~45 Hz的带通滤波,进行全脑平均重参考,并降采样到250 Hz。其次,进行脑电数据分段(从刺激前1 000 ms到刺激后4 000 ms),去除刺激前的基线。然后,使用独立成分分析(independent component analysis,ICA)将脑电信号分解为独立成分,使用ADJUST[]和ICLabel[]插件去除眼动、肌肉运动等伪迹的影响。最后,去除峰峰电压变化超过±100 µv的脑电信号段,以避免可能的伪影污染。由于噪声污染严重,将3名被试的数据排除在外,剩下的42名被试数据用于后续分析。
实验整体流程如所示(以COH特征为例)。在经过数据采集和预处理后,该模型首先计算不同电极间的相干性,以电极间的COH功能连接作为特征。考虑到被试间可能存在分布差异,本研究采用基于特征的领域自适应方法进行特征转换,以减小被试间差异性。最后将转换后的特征输入到支持向量回归(support vector regression,SVR)模型,分别构建大五人格五个维度下的回归模型,实现基于脑电信号的大五人格分数预测。
本文使用电极间COH特征作为脑电功能连接特征,对于每个脑电数据段,基于汉宁窗计算59个电极间在五个频段(δ:1~4 Hz;θ:4~8 Hz;α:8~13 Hz;β:13~30 Hz;γ:30~45 Hz)的COH特征(只使用刺激发生后4 s的脑电数据)。COH特征的计算方法如式(1)所示:
其中, 是脑电信号x和y的互谱, 和 分别是脑电信号x和y的功率谱,f是离散频率。 衡量两信号x和y之间的相干性,取值范围为[0, 1]。对于每个被试的每个样本,计算得到59个电极在5个频段上的COH特征后,将所有特征拼接成一个特征向量,最终得到8 555维的功能连接特征[(59(电极数)×(59 − 1)/2)× 5(频段数)= 8 555]。
对于ERP特征,本研究只使用刺激发生后1 s的时域采样点作为ERP特征,对于每个被试的每个样本,可以得到14 750维的ERP特征[59(电极数)× 1 s × 250 Hz(采样率)= 14 750]。对于PSD特征,本研究使用Welch法计算五个频段(与COH特征相同)的平均PSD特征,对于每个被试的每个样本,可以得到295维的PSD特征[59(电极数)× 5(频段数)= 295]。
基于特征的领域自适应方法旨在找到一个特征映射函数β,通过映射减小源域和目标域数据的分布差异。假设 和 分别代表源域样本和目标域样本, 和 分别代表源域样本标签和目标域样本标签,领域自适应方法通过映射函数β尽可能减少源域和目标域数据边缘分布和条件分布的差异,即令: 和 。
本文采用主成分分析(principal component analysis,PCA)对源域和目标域的特征进行降维重构,在新的空间中最小化特征分布差异,从而获得新的特征表示。PCA是一种数据的线性降维方式,它可以将数据映射到一个新的空间,通过在新的空间里最大化样本协方差对数据进行降维重构。具体地说,记 是所有样本的矩阵; 是中心矩阵;m为样本维度;n为总样本数;1是 的全1矩阵。协方差矩阵可用 计算。PCA学习的目标是找到正交变换矩阵 ,最大化样本协方差,即:
tr()表示矩阵的迹。最优问题可通过对 进行分解得到,其中 是q个最大特征值。 是变换矩阵,源域和目标域降维后的特征矩阵可以由 得到。
本文使用最大均值差异(maximum mean discrepancy,MMD)[]作为源域和目标域的距离度量,并减小边缘概率分布 和 ,以及条件概率分布 和 所组成的联合概率分布[]的差异。考虑到边缘分布自适应和条件分布自适应可能不是同等重要[],所以采用平衡因子 μ 动态调整两个分布的重要性,源域和目标域的MMD计算如式(3)所示:
其中,ns为源域样本数,nt为目标域样本数,c表示样本类别,、 和 、 分别表示源域和目标域中属于类别c的样本集合和样本数。式(3)的第一项表示源域和目标域的边缘概率分布差异,第二项表示源域和目标域的条件概率分布差异。
当源域和目标域的边缘分布相对接近时,迁移学习的性能高度依赖条件分布[]。但平衡分布自适应在计算条件分布时,利用 近似 ,隐含假设此类在源域和目标域中的概率是相似的[],但在现实中通常不是这样。于是本文在计算条件概率分布时,对源域和目标域的类别根据比例加权,即:
其中, 和 为权值,由于该方法会减小边缘分布差异,所以假定 和 是相同的。则条件分布MMD距离可以计算为:
综上,源域和目标域的加权平衡分布自适应MMD距离为:
其中M0是 MMD 矩阵:
其中c∈(1,2,⋯,C)表示样本类别,Wc为加权 MMD 矩阵:
通过进一步利用矩阵技巧和正则化,最优化目标可以表示为:
取拉格朗日乘子为 ,则上式的拉格朗日函数为:
令 ,得到广义特征值分解:
最后可以通过求解上式的k个最小特征向量获得最优变换矩阵A。
在通过加权平衡分布自适应方法减小降维后源域和目标域数据分布差异,得到新的特征矩阵后,本文采用SVR构建回归模型。对42个被试采用留一被试交叉验证,每次将41个被试的脑电数据作为训练集(源域),将剩下的1个被试的脑电数据作为测试集(目标域)。将经过特征降维和转换后的训练集特征矩阵输入到SVR训练,在测试集上得到每个被试五个人格维度上的预测分数。由于加权平衡分布自适应方法一般用来处理分类问题,在计算条件分布时需要用到标签信息,但人格自评分数是一个连续值,不适合直接作为标签,因此,将情绪图片的情绪标签(正、负、中)作为数据的标签信息用于计算条件分布。
在本文方法中,需要设置平衡因子μ、正则化参数λ、子空间维数k三个参数,为了找到最优值,对三个参数进行遍历,其中μ{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},k{10,20,30,40,50,60,70,80,90,100},μ{0.01,0.1,1,10,100}。实验通过保持其中两个参数不变,改变第三个参数的值来寻找最优参数。
42名被试在大五人格五个维度分数的平均值和标准差为(采用均值±标准差,平均值的分布范围为0~4):神经质2.05 ± 0.51,外向性2.15 ± 0.35,开放性2.30 ± 0.25,宜人性2.48 ± 0.33,尽责性2.38 ± 0.37。五个人格维度的自评分数经Shapiro-Wilk正态分布检验验证,均满足正态分布。
本文使用两个指标衡量人格预测模型的性能:平均误差和相关性。平均误差为五个维度人格自评和人格预测结果的平均绝对值误差,相关性为五个维度人格自评和人格预测结果的皮尔森相关系数,范围为[−1, 1]。在人格评估模型的实际应用中,需要更关注平均误差的大小,平均误差越小,人格预测模型的性能越好。
为了说明所提出的领域自适应方法和COH功能连接特征对人格评估结果的影响,本文对比了之前研究所使用的ERP、PSD特征和弹性网稀疏正则化回归模型[,]。对于三种特征(COH、ERP、PSD)采取两种处理方式,一种是参照文献[]的方法,对每个被试每种特征下的所有样本进行样本平均,使得每个被试在每种特征下只有一个样本。另一种不进行样本平均,使用每个被试每种特征下的所有样本。由于之前文献使用的方法需要设置相关性P值的阈值进行特征筛选[,],为了找到最优P值,对P值进行遍历,P{0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1}。大五人格预测结果如所示(相关性取预测误差最小时的皮尔森相关系数)。由可知,对于ERP特征,样本平均+弹性网稀疏正则化回归方法中得到最小的大五人格平均预测误差;对于PSD特征和COH特征,本文方法在两种特征中均得到最小的大五人格平均预测误差。此外,在所有特征 + 方法的组合结果中,COH特征+本文方法的组合得到最小的大五人格平均预测误差。
为了说明三种脑电特征在被试间是否存在分布差异,以及领域自适应方法对三种特征分布差异的改变,本研究使用t-随机邻近嵌入(t-distributed stochastic neighbor embedding,t-SNE)方法[]降维可视化被试样本分布。t-SNE是一种数据降维和可视化方法之一,它将数据点之间的相似度转化为条件概率,然后最小化原始空间和嵌入空间的联合概率分布的KL散度,将高维空间中的数据映射到低维空间中,不仅可以减少信息冗余,还可以保持局部样本聚类的空间分布。本文使用t-SNE的目的是在二维空间中更好地观察三种特征的样本分布,从而说明本文方法的可行性。三种特征在不同情况下的样本分布如所示,其中第一列图中,每一种颜色的点分别代表一个被试的样本;第二列和第三列图中,训练集(源域)包含41个被试的样本,测试集(目标域)包含剩下的1个被试的样本。在中,PSD特征和COH特征的样本原始分布具有明显的被试数据分簇现象,在相关研究中被称为“个体聚集”,并被认为是脑电个体差异的表征[]。因此对于跨被试人格评估,结合被试样本分布图和误差结果可知,当测试集被试样本同样集中于一簇时不利于人格评估,而分散分布于训练集样本中能得到更低的误差,这与文献[]结论相似。
本研究提出一种利用脑电COH功能连接特征和领域自适应技术的人格评估方法。该方法利用脑区间交互信息,通过领域自适应技术减小脑电数据被试间的分布差异,提高回归模型的预测性能,并与以往人格评估研究中所使用的脑电特征和回归模型进行对比。
由可知,在样本平均 + 弹性网稀疏正则化回归方法的结果中,ERP特征得到三种特征中最小的大五人格平均预测误差,也是基于ERP特征所有结果中的最好结果。在样本平均 + 弹性网稀疏正则化方法中,ERP 和PSD特征比COH特征取得更低的误差,尤其是在神经质、尽责性上具有相关性,这与文献[,]的结果具有相同的趋势。在该方法中,对每种特征在三种情绪刺激下的所有样本分别经过平均和拼接后再进行模型训练和测试。对于ERP特征,ERP的平均响应方法被广泛使用[],在样本叠加平均之后可以去除背景噪声[],所以有较好结果。但是由于被试数量较少,ERP特征未能在五个人格维度上都具有相关性(文献[,]报道在五个人格维度上都具有相关性),模型性能受限。对于PSD特征,已有研究表明在静息态和情绪刺激状态下,样本平均后的PSD特征与人格之间具有相关性[-]。COH特征表现较差的原因可能是经过样本平均之后,丢失较多的单试次脑电信息,而基于单试次功能连接特征进行人格分类的研究已取得较好的结果[]。
由可知,在所有样本+弹性网稀疏正则化回归方法的结果中,COH特征得到三种特征中最小的大五人格平均预测误差。分别对比三种特征在样本平均和所有样本两种情况下的结果可知,ERP和PSD特征在所有样本情况下的平均预测误差比样本平均情况下有较大增加,而COH特征在所有样本情况下的平均预测误差比样本平均情况下则略有减小。究其原因,对于ERP特征,单次ERP不显著,叠加平均之后才会有明显的现象。对于PSD特征,如所示,虽然所有被试样本的原始分布整体比较集中,但是对于每个被试而言,其大部分样本各自聚集成一簇,与中PSD特征使用领域自适应后的样本分布相比,测试集样本的原始分布“个体聚集”较为明显,由此推断出测试集样本分布越分散,得到的预测结果越好,而测试集样本分布越集中,可能越不利于人格预测。而且在PSD特征的所有被试样本原始分布中,仍有一些被试样本偏离总体分布。对于COH特征,所有样本的情况下具有更多的脑电数据样本,但是,如所示,COH特征在被试之间、训练集和测试集之间具有明显的分布差异,存在显著的个体聚集现象,受限于分布差异的影响,样本数量增加所带来的提升效果有限。
由可知,相比于所有样本+弹性网稀疏正则化回归方法,三种特征在本文方法都可以得到更小的大五人格平均预测误差。此外,PSD特征和COH特征在本文方法中分别得到三种方法中最好的结果。结果说明在全样本情况下,本文提出的方法适用于不同类型的特征,可以提升不同特征下人格评估结果的准确性。具体地说,对于ERP特征,如所示,虽然被试间原始样本分布不存在明显个体聚集现象,本文方法可以对每个人格维度的训练集和测试集样本分布进行调整,在部分人格维度上(神经质和宜人性)对结果有提升。但是受限于单次ERP不显著的影响,ERP在本文方法中的结果比样本平均+弹性网稀疏正则化回归方法的结果差。对于PSD特征,单试次PSD特征已经被广泛应用于人格评估中[-]。此外,如所示,领域自适应方法可以改变测试集样本分布,减小分布差异,并使其分散分布于训练集样本中,提升回归模型的预测性能,得到了PSD特征在三种方法中的最好结果。对于COH特征,如所示,使用领域自适应方法后,减小了训练集和测试集的分布差异,从而提升了跨被试人格评估的结果。相比于单样本不显著的ERP特征和维数有限的PSD特征,COH特征不需要样本叠加平均且特征维数较大(8 555维),而且COH特征可以表示大脑区域之间的相互作用。因此在使用领域自适应方法减小分布差异后,COH特征可以得到更好的人格评估结果。
本文针对脑电个体差异所导致的被试间数据分布差异,利用领域自适应方法减小这一差异,与之前相关文献使用的方法相比,本文提出的基于COH特征的领域自适应方法取得所有对比结果中最低的大五人格平均绝对值误差(0.278 5)。但是,本研究也存在一些不足之处。第一,本研究使用的被试数量相对较少,会导致数据的标签分布不均匀,可能产生数据和标签的非线性关系,影响模型预测结果(特别是线性回归模型),使得某些人格维度上的相关性较弱或没有相关性。第二,本文使用头皮脑电建立功能连接,对人格的神经机制探究相对受限。有研究认为,功能连接分析应该在大脑的源空间进行,而不是在头皮上,并且要有足够数量的传感器[]。第三,领域自适应方法虽然减少了被试间数据分布差异,但在模型训练中使用了源域所有被试的所有样本,与目标域数据相比极为丰富。但可能不是所有被试的样本对于知识迁移和共享都是有益的,一些样本可能会对结果产生负迁移影响。因此,在未来进一步的工作中,可以采用源域选择[]等方式减少源域中无关样本的负面影响。
此外,还有一些研究方向也许可以帮助建立更快速和准确的人格评估系统。第一,五个人格维度之间往往不是完全孤立的,存在一定相关性[-],例如宜人性较高的个体,其开放性也偏高。因此,利用不同人格维度间的关联性有望提高人格评估结果。已有研究使用多任务学习方法利用人格维度间的关联性,基于手机使用数据对大五人格进行评估[]。第二,现有基于脑电的人格评估研究多采用情绪刺激下的脑电数据(主要是情绪视频刺激),采集数据所需时间相对较长(25~90 min)。只有一项研究采用情绪词语作为刺激材料[],脑电数据采集时间仅需5 min左右。较短的数据采集时间有利于人格评估系统的实际应用,因此小样本学习[]等方法,可以在减少刺激数量、缩短数据采集时间的同时保持人格评估系统的稳定性。
本文提出一种基于情绪刺激下脑电功能连接特征,利用领域自适应技术,进行跨被试人格评估的方法。该方法可以利用脑区间的交互信息并减小脑电个体差异导致的被试间数据分布差异,从而提升回归模型的预测性能。与以往相关文献相比,本文提出的方法得到了更优的跨被试人格评估结果。由于该方法通过不易伪造的客观生理数据对被试进行人格评估,不涉及被试的主观感受,因此可以应用到实际场景中,减少社会期许性的不良影响,为人格评估提供一种新的测量方法和手段。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:许子明主要负责数据分析、论文编写以及算法程序设计;周月莹和温旭云主要负责实验数据采集和论文修订;牛一帆和李子遇主要负责实验流程设计、数据预处理;徐西嘉、邬霞和张道强主要负责提供实验指导、数据分析指导、论文审阅修订。
伦理声明:本研究通过了南京医科大学附属南京脑科医院伦理委员会的审批(批文编号:2017-KY017)。