什么是教育数据挖掘?(Educational Data Mining, EDM)EDM是数据挖掘(Data Mining, DM):「从资料中提取出隐含的过去未知的有价值的潜在信息」、「一门从大量资料或者资料库中提取出有用信息的科学」在教育领域的分支,正常的数据挖掘过程包含以下五种:数据采集、数据预处理、挖掘方法、结果呈现、建议与对策等形成一个闭环。但教育领域的数据多为非结构化数据,如视频、语音、文本,且采集不易,系统间还可能有数据孤岛的问题,于是国家从2002年开始建设教育信息化的基础设施,并在2018年提出2.0来推动信息技术与教育的深度融合。为什么需要教育数据挖掘?随着基础设施的迭代,数据的采集与计算不再受限,除了让教师工作自动化达到减负外,当中核心的机器学习可以弥补我们的主观意识偏差(或称经验主义的盲点),而这也是AI+教育让人振奋的地方:我们有机会实现因材施教,并遏止“教鱼爬树”的现象不断发生,从而实现精准教研,进而让教学产生无限的可能性。数据的作用在于关心学生的内在,与发现新的可能透过课堂教学数据的反馈我们必须认知到:教的好坏、学的好坏都是表象,只有合适才是正解。在AI变革的时代,尽管教师可能不懂技术,但都应试着理解机器的作用,为学生找出最合适的教学模式,这也是政府推动信息/数据素养相关政策的用意,以下是常见的五种教育数据挖掘技术:1.预测(Prediction):在端倪出现时,及时干预。当学生的日常指标变化,如专注度、疲劳度、情绪等,找出可能的风险,例如学生有可能近视的情况下及时预警。2.聚类(Clustering):用相似的特点找出与众不同的学生群体。当我们用统一的教学,必然会有不适应的群体出现,要能找出不适应的原因,例如特定某些同学在学方程式时专注力特别的差。3.关联(Relationship Mining):跳脱框架,找出未现的逻辑,变数之间的关联。例如:学生在听特定知识点时,专注度、情绪有显著变化,我们能进而找出学生的兴趣。4.多模态(Discovery with models):混合探索不同数据模型的关联。例如结合主观、客观、衍生、生理等数据,我们能与学习风格、习惯等进行关联,找出适合学生的学习模式或教学方法。5.蒸馏(Distillation of Data for Human Judgement):加入教育专家对数据的认知(打标签,Labeling)压缩与去除无效的数据集合。其中每种的技术又会再细分成不同的算法,比如聚类有K均值(K-means)、DBSCAN、DPEAK、Mediods、Canopy等算法,在实际应用中更会围绕教学不断重叠与重构。课堂视频、语音、文本等数据挖掘应用比如,我们现在要透过文本来挖掘老师的授课内容,我们会使用拾音器收集语音转写成文本(数据收集),接着进行关键词提取(数据处理)、与知识图谱关联(挖掘),最后产生出词云(呈现)。透过这个过程,我们可以知道老师的讲授的知识点,再搭配视频中的专注度跟情绪变化,我们就可以进行多模态来找到学生的兴趣以及发展天赋,并因此实现精准教学;反之,透过授课知识的关联分析,我们能得知教师的讲授思路,加上学生的透明数据反馈,可以得出学生对该课堂教学方法的适应性,让教研可以更微观与精准。参考资料
- 孙众,有意义的大数据与教学优化改革,2018
- 何普亮,大数据时代的教育数据挖掘:方法、工具与应用,2019
- Abdulmohsen Algarni, Data Mining in Education, 2016
- Ryan S.J.d. Baker, Data Mining for Education, 2010