域名频道资讯站
我们一直在努力制造惊吓

一年拿10个世界冠军 哈工大讯飞联合实验室刷新SQuAD2.0新纪录

一年拿10个世界冠军 哈工大讯飞联合实验室刷新SQuAD2.0新纪录

SQuAD2.0最新榜单(截至2018.11.22)

据了解,SQuAD(Stanford Question Answering Dataset)是认知智能行业内公认的机器阅读理解领域的顶级水平测试,通过吸收来自维基百科的大量数据,SQuAD构建了一个包含十多万问题的大规模机器阅读理解数据集,这使得在这个数据集上训练大规模复杂算法成为可能。

本次参测的SQuAD2.0相比此前的SQuAD1.1,在基于篇章片段抽取的阅读理解任务的基础上进一步提高了解答难度,对机器阅读理解模型提出了新的挑战。

其难度主要在于在新版本数据集中加入了“不可回答的问题”,即参赛团队所提交的机器阅读理解模型需要通过阅读篇章和问题,判断所提出的问题是否能够通过篇章内容进行回答,如果可以回答,则根据篇章中的内容作出答案;如果不可回答,则需要对题目进行拒答。

在本次提交的系统中,哈工大讯飞联合实验室所提交的模型在EM指标达到82.374,EM(Exact Match,即精准匹配率),预测答案和真实答案完全匹配,即机器给出的答案需要和人一样才算正确)。

F1指标达到85.310,F1(F1-score,模糊匹配率),即将答案短语切成词,与人类答案共同计算回归率和准确性,如果机器模型的答案并没有完全匹配也可以得分,用以表示评测模型的整体性能)上,进一步缩小了机器与人类认知水平在该数据集上的效果差距。

本文素材来自互联网

赞(0)
分享到: 更多 (0)

中国专业的网站域名及网站空间提供商

买域名买空间