2. 美国印第安纳大学 运动学系,印第安纳州 伯明顿 47405;
3. 美国佐治亚大学 国际体育管理研究中心,佐治亚州 雅典 30602;
4. 上海体育学院 经济管理学院,上海 200438
2. Department of Kinesiology, Indiana University, Bloomington 47405, Indiana, USA;
3. International Sports Management Research Center, University of Georgia, Athens 30602, Georgia, USA;
4. School of Economy & Management, Shanghai University of Sport, Shanghai 200438, China
在相依变量分析中, 研究者需要对因变量/效标变量(DV)和自变量/预测变量(IV)进行区分, 而本文介绍的互依变量分析并不区分DV和IV[1]。互依变量分析的主要目的是探索一组变量间的潜在结构, 而不是利用一个或多个IV对DV进行解释和预测。通常体育管理研究中的互依变量分析包括2种主要类型:Q分析和R分析[1-2]。Q分析旨在根据观测对象某些特征的相似性形成结构或分组, 如聚类分析; R分析则根据一组变量的变量间相关系数生成结构或分组, 如探索性因子分析(exploratory factor analysis, EFA)和验证性因子分析(confirmatory factor analysis, CFA)。
1 聚类分析聚类分析被广泛应用于消费者市场细分研究, 对消费者按照背景、心理、行为和(或)生活方式的同质性特征进行分组, 算法保证每个聚类具有很高的内部同质性和外部异质性(不同聚类间) [3]。在聚类分析中, 同质性和异质性通常是以距离进行评价, 这有别于传统的因子分析, 因子分析的评价标准是模式的相似性和变异性(即相关性水平)。在选择生成聚类的数量上, 如果越多的聚类生成, 聚类内部的同质性就会越大, 聚类间的异质性也相应增大, 然而这也会导致更复杂的模型。因此, 研究者需要依据课题的具体情况平衡聚类的同质性和模型的复杂度。聚类的最佳数量需要根据统计结果的稳健性、概念原理以及研究的实用价值进行综合判断。
总体而言, 聚类技术和过程包含2种通用的数学算法:分层聚类算法[4]和划分(分离)聚类算法[5]。对于分层聚类算法, 算法运行之前研究人员并不知道有多少聚类会从收集到的数据中产生, 因此有时识别聚类的数量也是研究的目的之一。为了实现这一目标, 研究者必须具备很强的概念和理论水平, 而不仅仅依赖大样本数据算法分析的结果。具体的算法是, 首先测量观测对象在某些变量上的相似性, 最常见的相似性测量是每一对观测对象之间的欧氏距离, 即2个数据点之间的直线距离的测量[3], 越小的欧氏距离代表越高的相似性。生成聚类时需要每次合并最近距离的2个观测对象或对象聚类, 并重复进行以形成不同的分层, 直至完成最后2个聚类的合并。分层过程可以利用一些主流的统计软件, 如SPSS、SAS等自动完成, 形成具体的分层结果和聚类方案。同时, 数据分析所产生的树状图可更直接地显示每个聚类及相关距离。在水平型(垂直型)树状图中, 纵(横)轴代表了具体的观测对象, 横(纵)轴代表聚集系数。
对于划分聚类算法, 研究人员在数据分析前已确定了生成聚类的数量。K-means聚类是这一类算法的代表, 具体的算法是, 研究人员首先根据相关文献和研究背景确定生成聚类的数量K, 然后以每个聚类中所有观测对象的均值作为质心进行聚类运算(初始时, 可任选K个观测对象作为质心)。在每一轮聚类运算中, 计算出每个观测对象对K个质心的欧氏距离系数, 并根据最小距离重新对观测对象进行划分, 不断重复这一过程直至聚类模型收敛为止。K-means聚类算法快速简单, 更适合于处理大样本的数据集。为了克服K-means聚类的缺点(如聚类数量K必须提前给定), 研究人员需要依据相关理论确定K的取值。并且, 当同时存在多个解决方案时, 建议基于解决方案多次运行K-means聚类算法以得到一个最优的聚类模型。
实证举例:在文献[6]中对体育彩票消费的研究中, 研究者试图依据体育彩票消费者的消费模式和人口统计信息对其进行类型划分[6]。此项研究的基本问题是从数据中发现彩民的类型是否真实存在并获得彩民的聚类, 而不是确定变量的结构, 因此聚类分析被认为是最合适的研究方法。通过开展面对面的封闭式访谈, 4 980名合格的受试者参加了该调查。他们在过去的12个月中至少购买过体育彩票1次。受试者被要求回答24项与体育博彩消费行为相关的问题, 所有问题采用李克特5级量表编制, 问卷同时测量受试者在体育彩票上的花费水平, 并对每个受试者的人口统计信息进行收集。研究中对体育彩民的类型划分基于现有的测量模型, 参照文献[7]中对“问题型博彩行为量表”的研究, 研究人员在聚类分析之前对可能产生的聚类数量已有了大致的判断[7]。具体而言, 有3个潜在的聚类解决方案:3-聚类、4-聚类以及5-聚类。因此, 应用K-means聚类算法实际的分析过程是执行SAS软件中的PROC FASCLUS程序。统计结果显示, 5-聚类的解决方案是最合适的类型划分模型。5-聚类解决方案的结果如表 1所示。
| 表 1 聚类分析-5聚类方案的组内和组间变异 Table 1 Cluster analysis-between and within group variability of a five-cluster solution |
如前所述, 一个较小的欧氏距离代表更高的相似性。在表 1中, 每个观测对象与其聚类质心之间的欧氏距离(即组内变异)小于聚类质心之间的欧氏距离(即聚类间变异性), 代表了所提取的5个聚类的统计学差别。非常重要的是, 研究人员也同时从理论上评估K-means聚类形成的5-聚类方案的合理性。在证实了5-聚类模型的理论合理性之后, 研究人员基于每个聚类的人口统计信息和彩票消费特征进行命名。这5个聚类分别命名为普通彩民、升级彩民、危险彩民、强迫症彩民和赌瘾彩民。作为聚类分析的结果, 建立一个体育彩民的类型划分, 为相关的营利和非营利组织制定干预计划提供诊断参考。
2 探索性因子分析(EFA)EFA是体育管理研究中使用最多的一种多元统计方法。EFA的主要目的:① 确定一组变量背后潜在的因子结构和数量; ② 通过将高度相关的变量集聚在一起精简数据。其对一组变量中相关性较强的变量进行归纳, 生成一个简约并具有代表性的变量结构。这种变量结构可以用来代表理论中的抽象的概念(latent construct), 即该概念无法被直接测量, 而只能间接地对相关的可观测变量进行评估。使用这种方法一般要求变量是连续变量, 在一些特殊的估计中, EFA也可以处理类别变量[8]。EFA的分析步骤如下:
(1) 评估样本大小。虽然对于样本的大小没有严格的规定, 经验规则是样本容量与变量数量的比例最低达到5:1, 达到10:1以上是比较理想的[1]。
(2) 检验概念假设和统计假设的适当性。概念假设是指反映变量间潜在结构的理论原理, 而统计假设是指变量间是否统计相关, 相关性评估的标准有2个:① 巴特莱特球形检验(BTS)是一种检验各个变量之间相关性程度的方法。它利用变量的相关系数矩阵判断变量是否适合用于做因子分析。统计上显著的BTS意味着变量的相关系数矩阵不是相同的, 揭示了这些变量之间存在相关性。② Kaiser-Meyer-Olkin(KMO)检验是一种反映变量间整体相关程度的统计指数, 旨在检查样本容量是否适合进行因子分析。一般而言, KMO的度量标准是:0.9以上表示非常适合; 0.8表示适合; 0.7表示一般; 0.6表示不太适合; 0.5以下表示极不适合[1]。
(3) 选择因子提取方法。考虑到因子分析是建立在所有变量之间的相关系数矩阵上, 研究人员需要计算出一个变量的方差中与其他变量共享的部分(即公共方差, 可以通过公因子方差衡量)、不能被共享的部分(即独特方差)以及测量误差造成的部分(即误差方差)。对于高度相关的变量, 变量之间的公共方差(或公因子方差)相应较高, 同时独特方差相应较低。在EFA中, 研究者感兴趣的是变量之间的公共方差, 并试图根据公共方差确定这些变量代表的潜在维度。此外, 还存在另一种因子分析方法称为主成分分析法(PCA), 其目的是用少数几个主成分从数据中抽取最大的总方差。虽然2种因子分析方法有类似的操作程序, 但具体采用哪种分析方法应根据研究的目的进行合理选择。如果已知变量的独特方差和误差方差相对总方差很小, 采用PCA; 相反, 如果公共方差、独特方差和误差方差均未知, 采用EFA则比较合适[1]。
(4) 提取因子数量的标准。预先确定的因子数量应与研究目标和概念合理性相适应。采取3种通用的统计标准确定保留的因子数量:① Kaiser规则, 保留特征值等于或大于1.0的因子; ② 所保留的因子至少能解释所有变量60%的方差[1]; ③ 碎石图提供了因子数目和特征值的大小(图 1)。
|
图 1 探索性因子分析碎石图 Figure 1 Screen plot in exploratory factor analysis |
(5) 因子旋转。将因子的参考轴旋转到某一位置, 以减少含义不清的初始因子, 并生成一个结构更简单、更易解释和理论上更有意义的因子解决方案。正交旋转和斜交旋转这2种旋转方法被广泛应用于体育管理研究中。对于正交旋转, 旋转过程中轴必须保持90°正交, 这种类型的主要方法包括:最大方差法(Varimax), 它简化了因子矩阵的列; 四次方最大值法(Quartimax), 它简化了因子矩阵的行; 相等最大值法(Equimax), 它同时简化了因子矩阵的行和列。对于斜交旋转, 旋转轴可以处于小于90°的理想位置。一些常见的斜交旋转方法包括直接斜交法(Oblimin)、Geomin法和最优转轴法(Promax)。Promax旋转同时结合了最大方差法(正交)和斜交旋转的技术[9]。在选择合适的旋转方法上, 研究人员需要综合考虑具体的理论框架、数据特点和相关文献的研究结果[10]。
(6) 决定保留的题项(变量)。有3种规则适用于这一过程:因子载荷的统计显著性、交叉或双因子载荷以及因子包含的最优题项数。对于因子载荷, 样本容量很大时可以相应地降低对因子载荷的要求。为保证因子载荷的显著性, 不同的因子载荷水平下样本大小的最低要求如下:① 0.30最低样本容量350;② 0.35最低样本容量250;③ 0.40最低样本容量200;④ 0.45最低样本容量150;⑤ 0.50最低样本容量120。对于交叉因子载荷, 不保留具有交叉因子载荷的题项。在此交叉因子载荷是指一个题项同时在2个或以上的因子上具有中度到高度的载荷。对于因子包含的最优题项数, 每个因子中至少保留3个题项是合适的[1]。从EFA中得到的因子应作为CFA的前导研究, 并作进一步分析, CFA是一种理论驱动的因子处理方法[11]。
实证举例:文献[12]中检验了球迷对专业团队运动核心质量的感知(即比赛水平), 它被概念化为对体育赛事核心特征的市场需求[12]。为了准确地理解球迷对专业团队运动的市场感知需求, 研究者开发了评估专业团队运动核心特征的市场需求量表(Scale of Market Demand, SMD)。① 通过广泛的文献回顾、田野调查以及针对专业队营销经理的访谈, 确定市场需求的指标体系。SMD包含的所有题项综合考虑了专业团队运动独特的产品和服务特性。由此, SMD的初始版本中共有46个题项, 包含主队、客队、运动特征、观赛成本、比赛促销、方便安排等子维度。② 所有题项采用李克特5级量表编制, 通常在心理测量中李克特5级量表被视为连续变量。通过在不同的体育赛事现场调查和社区拦截填写问卷等方式收集数据, 回收453份有效问卷用于数据分析, 它们被随机分成两半, 其中一半进行探索性因子分析。样本量略微超过5:1的比例(即样本量与测量指标的比例)。
使用选定的数据集, 利用EFA从SMD的题项中获得一个简单的结构[13], EFA采用最优转轴法Promax进行α因子提取[14]。EFA分析的主要目的是识别市场需求概念的潜在结构, 实现从样本变量到通俗变量(被命名)的概念一般化, 同时也可以把大量的题项减少至一个小得多的、易处理的因子集合。利用以下4个标准确定因子和其包含的题项:① 因子特征值等于或大于1.0[15]; ② 题项因子载荷等于或大于0.4, 且不存在双重载荷[16]; ③ 一个因子至少包含3个题项[1]; ④ 因子和题项的保留必须有理论依据。此外, 碎石图也被用于帮助决定提取因子的数量[17]。
分析结果如下:样本充足率指标KMO的取值为0.845, 大于阈值0.70, 表明公共方差的水平良好, 该样本量适合进行因子分析[15]。巴特莱特球形检验BTS为4 521.27 (P < 0.001), 变量的方差和协方差矩阵是一个单位矩阵的假设被拒绝, 因此因子分析被认为是适当的。通过EFA, 从31个题项中提取了6个因子, 能解释变量57.69%的方差。从生成的碎石图看, 也支持6因子模型的结果。根据预先设定的标准, 题项的因子载荷小于0.4的9个题项被淘汰(它们是高水平表现、主队的明星球员、支持主队、高水平的技能、天气条件、势均力敌、客队的对抗、比赛激烈程度和座位的优势)。
另外, 6个题项被移除, 因为只有1个或2个题项被加载到相应的因子(它们是主队破纪录的表现、团队竞技、最好的球员在场上、球馆的位置、热爱专业团队运动、专业团队运动的流行程度)。最后, 包括31个题项的6个因子被命名为:客队(9题项)、主队(6题项)、比赛促销(5题项)、观赛成本(4题项)、运动特征(4题项)、方便安排(3题项)。解析后的因子结构总体符合本文研究中SMD量表的概念模型。EFA保留的题项将用于后续的CFA, 将在下一节中介绍。通过Promax旋转后得到的系数矩阵如表 2所示。
2017, Vol. 41



0)