知识先后序关系是人们在学习、组织、应用和产生知识的过程中广泛存在的知识间的认知依赖关系。本杰明·布卢姆(Benjamin Bloom)在 1968 年提出,学生必须在基础知识上达到一定程度的掌握(例如,基础知识的 90%),然后才能继续学习后续的知识概念。从此, 知识概念之间的先后序关系成为学校和大学设计课程的基石。
在传统的大学课程中,一般由老师或者助教以概念先后序关系组织知识结构,从而改进课程规划,指导学生学习,提高教育质量。然而,在大规模在线开放课程(Massive Open Online Courses)的时代,面对成千上万不同学习背景的学生和海量来自不同大学和机构的课程,传统的通过人工构建概念先后序关系网络的方法变得越来越不可行。因此,探索从大型课程空间中自动挖掘知识概念之间先后序关系的方法,从而使不同背景的 MOOC 学习者可以更好地设计个性化学习的学习方案,显得尤为重要。
然而,这个问题有着不小的挑战:(1) 目前还没有在 MOOC 情境下进行概念先后序关系学习的相关工作;(2) 已有的先后序关系学习方法大多使用了维基百科相关特征,因此必须假设概念具有相应的维基页面,而 MOOC 中许多课程概念在维基百科中并没有词条对应, 因此需要设计更加通用的特征;(3) MOOC 中课程结构的复杂性使得其他相关方法中使用的简单结构特征难以奏效,需要设计新的结构特征来学习 MOOC 广泛存在的跨课程、跨学科概念间的先后序关系。
为了应对这些挑战,来自清华大学的潘亮铭,李成江,李涓子老师和唐杰老师发表在 ACL2017 上的论文“Prerequisite Relation Learning for Concepts in MOOCs”首次研究了如何自动地挖掘出 MOOC 课程概念间存在的先后序关系,即概念间的学习依赖关系。
论文主要研究了 MOOC 中不同信息对于 MOOC 课程概念先后序关系发现的贡献,并提出了一系列有效的特征对 MOOC 课程中的概念先后序关系进行判断。具体而言,论文提出的特征可以被分为三类:
1. 语义特征:利用大规模的维基百科知识库作为辅助语料学习得到课程概念的语义嵌 入表示,利用课程概念在向量空间中的距离度量概念间的语义相关性;
2. 上下文特征:利用课程概念在视频上下文中相互引述的模式定义了三个层面的特征, 包括视频引用距离、句子引用距离和维基引用距离;
3. 课程结构特征:利用 MOOC 课程的结构帮助先后序关系的判断,文中定义了平均位置距离、分布不对称距离和复杂度水平距离三个特征。
最后,根据定义的特征,将先后序关系学习问题形式化为二分类问题,即对给定课程概念对使用以上特征判定其是否存在先后序关系。在 Coursera 平台上不同领域(计算机、数学、金融)的真实在线课程数据集上的实验表明,论文所提出的方法无论在准确率还是召回率上都明显超过了现有的概念先后序学习方法(包括上下位匹配方法、引用距离、监督关系识别方法)。
对话作者
关于本文的创新点,作者认为主要有如下三点:(1) 首次提出了 MOOC 中课程概念先后序关系学习问题,并提出了一种有效的基于多维度特征的课程概念先后序学习方法,从语义特征、上下文特征和结构特征三个层面首次有效识别了 MOOC 中的概念先后序关系;(2) 已有的先后序关系学习方法大多使用了维基相关特征,因此必须假设概念具有相应的维基页面,本文的特征可以应用于任何概念,更加通用;(3) 构建了 MOOC 中课程先后序关系学习任务构建的评测数据集,有效弥补了 MOOC 研究在数据上的空白,为后续围绕 MOOC 课程概念的相关研究做了良好的铺垫。
关于本文的实际应用,作者认为在智能学习路径规划上有不错的前景。例如,一个对“条件随机场”并不了解的学生想学习这个概念。她可能被淹没在 MOOC 平台众多相关的课程中,而不知道从何入手。通过课程概念图中包含的概念先后序关系(下右图),MOOC 平台可以为该学习提供一条连贯、合理的学习路径(下左图),即先在“概率统计”课程中学习 “极大似然估计”,接着在“概率图模型”中学习“隐马尔可夫模型”,最后在“机器学习” 课程中学习“条件随机场”。
关于未来的工作,作者觉得可以加入 MOOC 中的动态交互信息来帮助学习课程概念先后序关系,例如课程论坛中的信息、用户行为信息、教师与学生互动的信息、学生对课程试题的回答情况等。作者认为这些动态信息才是 MOOC 最独具特色的信息。
来源:paperweekly
原文链接