第3期Talk实录 | 数据驱动的大规模分类体系构建

xiaoxiao2021-04-18 313

Q & A

对于关系传递性的正确性判断这篇论文，文章是建立在构建标注数据和特征上来做的，想请问下有没有一个宏观的解释，在什么情况下传递性成立以及什么时候不成立呢？换句话说，不成立主要是因为什么引起的呢？

梁家卿

因为我们使用的是一个黑核，就是机器学习模型，所以我们很难知道它具体是由于什么原因引起的。我猜想的话，主要是因为中间词 B 意思的偏移，但是这个偏移我们很难严格的定义。总来说很难知道具体原因是什么，因为机器模型实在是不可解释。

对于 recall 的评估，文章的模型发现的错误 isA 关系都包含在 baseline 发现的错误关系里面么，我觉得分母应该是所有模型发现的错误 isA 关系的并集才对？

梁家卿

这里我没有细讲，我们的 baseline 模型其实是用拓扑排序去找到一个差不多的拓扑序，去找到所有逆向边作为错误，所以会找到非常多。那事实上我们很难去计算 recall ，因为我们不知道错误总数。所以我们 paper 中写的是用一个相对的 call 去计算所有的逆向边，但我觉得你说得更好，确实是用所有错误的并集会更好一点。

请问一下，本文检测 wrong isA relation 是建立在错误的 isA 关系出现在环里面，但是假如正确的关系没有抽取出来，比如 Paris isA exciting_city 时，或者对于没出现在环里面的错误的 isA 关系，有没有比较好的检测方法？

梁家卿

我们现在的方法只能通过环来找，那其它当法的话可能其它类型的错误可能找不到。如果有其它方法可找到其它非环的错误的话，可另外做一篇 paper。

论文中 Figure3 的那条曲线，纵坐标是 error@k，按我的理解应该是递增的，为什么还有波动的这种情况？

梁家卿

比如说排完序之后，第一个是错的，二三都是对的。那么 error2 就是 1/2，error3 就是 1/3，1/3 显然小于 1/2。

来源：paperweekly

原文链接

相关资源：七夕情人节表白HTML源码(两款)

技术

最新回复(0)