【摘要】提出了在线学习投入评估模型以及评估模型的具体度量指标,通过聚类Kmeans算法对国家开放大学样本数据进行聚类分析,结果表明在线学习投入与学习绩效的关系可以分为四种类型。在线学习投入与绩效关系的分类,有利于了解学习者学习投入特征,为开展个性化学习提供支持服务,为学习者提高学习质量提供数据支持和参考依据。 【關键词】在线学习投入;Kmeans算法;远程教育;学习绩效 【中图分类号】G434【文献标识码】A【文章编号】10018794(2018)06002405 【收稿日期】20171031 【基金项目】全国教育科学十三五规划2016年度教育部重点课题基于大数据分析技术的开放大学教育决策支持系统研究与构建,课题批准号为DCA160258 【作者简介】龚艺(1979),女,贵州织金人,硕士,工程师,研究方向为大数据分析。一、前言 远程教育是发展多样化、终身化和开放式继续教育的重要形式,为促进教育公平发挥了重要的作用。现代远程教育将信息技术与教育相结合,为学习者提供不受时间、空间限制的学习条件,在线学习成为了现代远程教育的重要手段。随着在线学习的不断发展,在线学习投入作为评估在线学习质量的重要指标之一,成为在线学习研究的热点和趋势。〔1〕 1930年,教育心理学家泰勒(Tyler)第一次使用学生投入概念,将其界定为用于任务的时间,描述学生花费多少时间用于他们的学业,以及对学业产生的影响。〔2〕国内外众多研究表明,学生学习投入对学习绩效产生正向影响。〔3〕在线学习中,学习者的学习投入对学习质量具有显著的影响。〔4〕在远程教育中,学习者在线投入与学习绩效的关系是否是正向影响?远程教育中学习者在线学习投入是否存在不同的类型,是否存在在线学习投入与学习绩效非正向的关系?是否存在评估学习者的学习投入特征,根据其特征及时给予个性化学习支持服务的可能?基于以上疑问,本文将重点探索远程教育中在线学习投入与学习绩效的关系,并对在线学习投入与学习绩效的关系类型进行分类,为在线学习投入类型评估奠定基础。 二、在线学习投入评估的关键因素 学习投入是学习者在学习中表现出的对学习的一种持续的、充满积极情感的状态,它以活力、奉献和专注力为主要特征。〔5〕如何科学全面地评估学习投入,特别是远程教育在线学习投入,目前国内外有一些相对较为成熟的学习投入评价方法,如美国印第安纳大学在科茨(Coates)学习投入五维框架的理论基础上,提出了全国大学生学习投入调查(theNationalSurveyofStudentEngagement,简称NSSE),该调查问卷主要以学术型挑战、主动合作学习、师生互动、丰富教育经验以及校园环境支持五个维度共42个基准问题为依据编制项目,〔6〕NSSE成为北美及许多国家高校学生学习投入调查问卷的主要参考。弗雷德里克斯(Fredricks)提出了学习投入是行为、情感和认知三个维度的有意义结合,孙和卢埃达(Sunamp;Rueda)在Fredricks投入量表的基础上,根据远程学习的特征编制了远程学习投入量表(StuedentEngagementinDistanceEducation,简称SEDE),其中包括行为投入、认知投入和情感投入三个部分共15道题。迪克森(Dixson)编制了在线投入量表(OnlineStudentEngagementSurvey,简称OSES),其量表包括技能、情感、参与和绩效四个维度。李爽等对学习行为投入进行了大量研究,并将其归为参与、坚持、专注、交互、学术挑战、自我监控六类。〔7〕 大量学习投入量表的研究为本文提供了重要的参考,然而大部分的学习投入评测量表中主要针对非远程教育学校学生,测量指标多来自问卷调查、教师反馈等方面。在远程教育实践中发现,问卷调查获得远程学习者支持度不高,获取学生的在线学习行为数据则更为实际有效,因此,本文拟通过收集在线学习的学习行为数据,并通过对学习行为数据的分析,从参与、专注、交互三个维度制定远程教育在线学习投入量表,构建远程教育在线学习投入模型如表1所示。 模型中的参与指学习者投入在线学习的时间和精力,访问在线学习平台中的视频、文本等的数量,等等。专注是指学习者在学习过程中投入的深度,主要包括每次学习的保持时间、错题的重复学习次数、作业的完成次数、完成质量等。交互则是学习者在线学习过程中与教师及其他学习者交流的情况,从交流互动的频率、质量可以判断学习者的学习热情,反应学习者在线学习的投入情况。 在实际的数据采集中,需要选取真实体现上述三个维度的学习投入度量指标值,本文采用了出勤周数、出勤天数以及资源浏览行为次数作为学习者参与情况的度量值,出勤周数的选择比出勤天数更准确地描述了学习者的学习时间跨度范围,因此出勤周数和出勤天数的结合可以更加完整地体现学习者的时间投入程度。专注的度量中选择作业完成个数体现学习者对学习的深入程度,作业模块的使用频次一定程度上表明了学习者完成作业的坚持度和专注度。交互在远程教育的学习中主要体现了学习者与教师在论坛中的交互过程,因此,选择了学习者发帖的数量,发主帖的数量,体现了学习者通过论坛与教师及其他学习者发生互动交流的情况。 三、研究设计与分析 (一)样本数据 本文实践案例选取国家开放大学在线学习平台作为研究对象,国家开放大学是以现代信息技术为支撑实施远程开放教育的高等学校。本文选取的研究数据来源于国家开放大学2017年春8822名学员在线学习课程的学习行为数据。 (二)研究思路与方法 根据上述对在线学习投入评估的研究,以本文中定义的在线学习投入模型度量为标准进行数据采集,以作为衡量在线学习投入的数据基础。学习绩效是学习者运用新获得的知识与技能的能力,它不仅仅指基本知识与基本技能的习得,而且还包括灵活运用它们的能力。〔8〕学习绩效是衡量学习者学习成果的指标,也是教学质量评估最主要的项目之一。〔9〕虽然学习成绩不是学习绩效的全部内涵,但是学习成绩作为学生学习过程的他评部分,一种量化结果,具有客观性、综合性的特点。〔10〕本文采用学习者的终结性考试成绩作为学习绩效的度量数据。 基于上述在线学习投入度量数据和学习绩效度量数据,利用数据挖掘的方法,对数据进行分析,探索在线学习投入与学习绩效之间的关系,尝试理清学习者在线学习投入类型。 数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。〔11〕常见的数据挖掘数据分析方法主要有分类、回归分析、聚类、关联规则、偏差分析等。其中聚類分析的目的是把大量数据点的集合分成若干类,使得每个类的数据之间最大程度地相似,不同类中的数据最大程度地不同。〔12〕聚类分析处理的数据对象的类是未知的。〔13〕本文的目的是探索在线学习投入与学习绩效是否呈正向影响的关系,通过对数据挖掘并以各类方法研究、实践和比较,认为聚类分析的算法特点适用于本文研究,最终选择聚类分析方法探索在线学习投入与学习绩效之间关系,并选择了Kmeans算法作为主要聚类算法。 本文采用的实验工具为R语言,R语言是一种基于统计、运算和绘图的数据处理方式,能够较为理想地进行大数据处理工作。〔14〕R语言通过加载fpc包实现Kmeans算法等聚类分析功能。 (三)数据分析过程与结果分析 运用Kmeans聚类算法对在线学习投入与学习绩效数据进行聚类分析,并对聚类的结果数据进行相关性分析。具体过程和结果分析描述如下: 1数据转换 根据本文中选择的在线学习投入模型,采集的数据主要包括出勤周数、出勤天数、资源浏览行为总次数、作业模块使用频次、作业完成个数、论坛发帖总数、论坛发主帖数以及学习者终结性考试成绩。 其中,n表示样本总数,假设样本i被聚到c类,nc表示c类中的样本数,Cc表示c类样本集合,p表示非c类的各个类,np表示非c类的各个类的样本数,Cp表示非c类的各个类的样本集合,公式(4)中j表示同属于c类的其他样本,公式(5)中j表示样本中非c类的其他样本,d(i,j)表示样本i与j之间的距离。a(i)表示样本i和同属于c类的其他所有样本之间的平均距离,用于量化类内部的凝聚度,b(i)表示样本i和非c类的各个类中所有样本的平均距离的最小值,用于量化类之间分离度。si表示样本i的个体轮廓系数,S表示轮廓系数计算样本中所有点个体轮廓系数的平均值。〔16〕 本文中将K值设置为2到8,测试K值为多少时取得最高的轮廓系数。由于Kmeans算法有一定随机性,因此每个K值重复30次,取30次平均轮廓系数作为评价标准,得到如下图所示轮廓系数与K值的关系图: 如图1,当K取4时,取得最大的轮廓系数,因此在本样本数据的聚类分析中,将聚类的簇个数指定为4。 3聚类结果 通过轮廓系数的分析,采用Kmeans聚类算法,聚类值选择4,经过多次反复测试,取误差平方和SSE值局部最小,聚类实验结果如图2所示。具体的分类数据情况如表2。 4聚类结果相关性分析 通过对14类数据进行相关性分析,分析结果如表3所示,各聚类中学习成绩和学习投入各因素数据转换值总和的相关性显著水平在0。02以内,其中1类和3类,相关系数为正值,学习成绩与学习投入呈正相关关系,2类和4类中,相关系数为负值,学习成绩与学习投入成负相关关系。 实验将学习者在线学习行为数据与学习者终结性考试成绩相结合,利用Kmeans算法进行聚类分析,根据上述聚类结果,学习者的在线学习投入与学习绩效之间并非完全成正向关系,通过对每类中学习者出勤时间、资源浏览数量、作业完成量、论坛活跃程度等结合其终结性考试成绩分析,将1至4类分别描述为低投入低绩效者、低投入高绩效者、高投入高绩效者、高投入低绩效者,其数量占比如图3所示。 在线学习投入与学习绩效成正向关系的类型为低投入低绩效型和高投入高绩效型,占总量的60。7,在线投入与学习绩效不构成正向关系的类型为低投入高绩效型和高投入低绩效型,占总量的39。3。 四、讨论与建议 本文对远程教育学习者在线学习投入与学习绩效的聚类分析中,发现只有大约60的学习者在线学习投入与学习绩效成正向关系。有约40的学习者在线投入并未与学习绩效成正向影响。 对于低投入高绩效型而言,学习者在线投入较低而终结性考试成绩却较高,其原因可能有两种:第一种情况是学习者可能并不习惯于在线学习的方式,学习途径主要采取纸质书籍、面授课堂、线下与教师沟通等非在线学习的方式,学习者的学习投入并不完全体现在本文所采集的在线学习行为数据中;第二种情况可能是由于学习者只重视终结性考试成绩,平时并未认真投入到在线学习中。对于高投入低绩效型,学习者在线投入较高而终结性考试成绩却很低,其原因可能是由于学习者对于在线投入的学习只是为了完成远程学院要求的在线学习点击量,然而并未真实投入时间学习,也有可能是学习者学习基础差,学习方法不当等原因,学习投入较多也未能实现较高的学习绩效。对于这两类在线投入与学习绩效非正向关系的类型,应及时获取这两类学习者相关信息,采取面谈、问卷调查等方式更深入地了解学习者的具体情况,采取有针对性的个性化学习支持服务。对于低投入低绩效型,学习者可能对学习缺乏激情和动力,学校应采取相应的措施提升学习者的参与度和热情。对于高投入高绩效型,学习者的学习状态良好,学校应该给予奖励和支持。 对远程教育中在线学习投入与学习绩效类型的分类,分辨出在线学习者的学习投入不同类型,深入了解出学习者的学习状态,为个性化学习支持服务的开展提供数据支持和参考依据,为管理者和教师提供学习者学习状态概貌,为学习者在学习过程中提供量身定做的学习支持服务奠定基础。 本文仍然存在许多局限,主要包括本文学习绩效的评价数据仅来源于终结性考试成绩,对于全面体现学习者的学习绩效尚不完善。学习者在线学习投入评估数据采集尚不全面,例如学习者每次登录持续时长、浏览课程资源的完整度、论坛发帖内容与课程关联性、作业错题尝试次数等等,由于与在线学习平台软件开发密切相关,作者权限和能力有限尚无法采集。应把更多的数据挖掘分析技术应用到研究中来。在今后的研究中,将进一步扩展学习绩效数据和在线学习投入数据的采集,更深地挖掘分析远程教育中学习者在线学习投入类型,为实时了解学习者状态,及时采取有效措施进行干预和帮助,开展个性化学习支持服务提供数据依据。 【参考文献】 〔1〕尹睿,徐欢云。在线学习投入结构模型构建:基于结构方程模型的实证分析〔J〕。开放教育研究,2017(4):101111。 〔2〕杨院。以学习投入为中介:学生学习信念影响学习收获的机制探究:以985高校本科生为例的分析〔J〕。高教探索,2016(3):7578。 〔3〕ErnestT。Pascarella,TriciaA。Seifert,CharlesBlaich。HowEffectiveAretheNSSEBenchmarksinPredictingImportantEducationalOutcomes?〔J〕。ChangetheMagazineofHigherLearning,2010,42(1):1622。 〔4〕张思等。网络学习空间中学习者学习投入的研究:网络学习行为大数据分析〔J〕。中国电化教育,2017(4):2430。 〔5〕高洁,李明军,等。主动性人格与网络学习投入的关系:自我决定动机理论的视角〔J〕。电化教育研究,2015(8):1822。 〔6〕李爽,等。远程学生学习投入评价量表编制与应用〔J〕。开放教育研究,2015,21(6):6270。 〔7〕李爽,王增贤,等。在线学习行为投入分析框架与测量指标研究〔J〕。开放教育研究,2017,22(2):8088。 〔8〕衷克定,梁玉娟。网络学习社区结构特征及其学习绩效关系研究〔J〕。开放教育研究,2006,12(6):6973。 〔9〕郑勤华,曹莉,等。远程学习者学习绩效影响因素研究〔J〕。开放教育研究,2013(6):8894。 〔10〕王季,余心根,等。远程教育学生学校归属感对学习绩效的影响实证研究〔J〕。现代教育技術,2013,23(3):8186。 〔11〕王光宏,蒋平。数据挖掘综述〔J〕。同济大学学报,2004,32(2):246252。 〔12〕贺玲,吴玲达,等。数据挖掘中的聚类算法综述〔J〕。计算机应用研究,2007(1):1012。 〔13〕邹志文,朱金伟。数据挖掘算法研究与综述〔J〕。计算机工程与设计,2005,26(9):23042307。 〔14〕宋均,等。基于云计算的海量数据处理平台设计与实现〔J〕。电讯技术,2012,52(4):566570。 〔15〕〔16〕张靖,段富。优化初始聚类中心的改进Kmeans算法〔J〕。计算机工程与设计,2013,34(5):16911699。 【Abstract】Thispaperputsforwardanonlinelearningengagementevaluationmodelandspecificmetricsoftheevaluationmodel。FromtheclusteranalysisofsampledataofNationalOpenUniversitybyclusteringKmeansalgorithm,theresultsshowthattherelationshipofonlinelearningengagementandacademicperformancecouldbedividedintofourtypes。Theclassificationoftherelationshipbetweenonlinelearningengagementandacademicperformanceishelpfultounderstandthelearnersonlinelearningengagementcharacteristics。Itprovidessupportservicesfordevelopingpersonalizedlearninganddatasupportreferencetoimprovelearnerslearningquality。 【Keywords】onlinelearningengagement;Kmeansalgorithm;distanceeducation;academicperformance