NLP 从入门到实战,阿里 iDST 9 大名师即将开讲

    xiaoxiao2021-04-18  210

    在大数据计算和深度神经网络等技术的推动下,NLP 正在不断趋于成熟,并在人们的生产生活中发挥着越来越重要的作用:从搜索引擎、拼写检查、关键词提取,到文本分类、情感分析、机器翻译和对话机器人等,几乎随处都能看到 NLP,随时都能享受 NLP 带来的便捷。

    但在诞生之初,NLP 的发展其实并不顺利。

    业内普遍认可的 NLP 起源大约可以追溯到 1954 年。当时,IBM 和乔治城大学(Georgetown University)联合发起了一次著名试验:Georgetown–IBM Experiment,科学家们想通过计算机自动将 60 个俄语文本翻译成英语。当时一个普遍认知是:机器翻译只是简单的词汇列表遍历问题,在三到五年之内就能完美解决。于是各研发机构投入了大量的研发资源。

    然而,事情的进展并不顺利。在此后长达 30 多年的时间里,NLP 的研究成果几乎乏善可陈。唯一值得一提的可能就是 1972 年美国麻省理工学院开发的一个用自然语言指挥机器人的人机对话系统 SHRDLU,以及 1964-1966 年间开发的世界上第一个真正意义上的聊天机器人系统:ELIZA。但在当时,SHRDLU 和 ELIZA 的语言处理能力都非常简单,例如 SHRDLU 只存储了 200 个单词,而 ELIZA 所做的也仅仅是用符合语法的方式将问题复述一遍,毫无“智能”可言。

    这一时期的研究者们进行自然语言处理的主要思路是按照短语结构语法(Phrase Structure Grammar,PSG)的理论进行分析,他们认为语法规则的数目是有限的,但据此生成的语句的数目却是无限的,试图通过语言学家穷举的方法列出所有语法规则,再根据这些语法规则展开计算机的模式化分析。

    这种思路有两大致命缺陷:

    ● 忽略了自然语言的歧义性。例如同样是动词加名词的组合,“打击力度”就是名词短语,但“打击盗版”就是动词短语;

    ● 语法规则实际上是无法穷举的。人们发现,虽然日常对话中最长使用的语法规则只有几十条,它们出现的频率也的确很高,但随着语料库规模的扩大,新的规则仍然不断出现。

    直到 1980 年代以后,开始有学者将机器学习算法引入 NLP,从此引发了一场 NLP 的革命。

    人们开始认识到 PSG 分析法的缺陷,认识到依靠人类语言学家人工归纳总结所有语法规则的方法走不下去。于是逐渐出现了依靠复杂特征集(Complex Feature Set)描述的语法约束,出现了依靠大数据和数理统计的统计学 NLP 分析模型,以及针对统计模型无法处理的歧义现象出现的“词汇主义”(Lexicalism)。研究者们认识到在词汇层采用颗粒度更小的语言描述单元的必要性,于是开始将自然语言描述的主体从语法规则层转移到了词汇层。目前,词汇知识库的构建已经成为了业界普遍关注的问题。美国的 WordNet、FrameNet 以及我国的各种语法知识库和语义知识库,都反映了这种强烈的“词汇主义”的倾向。

    随着技术的不断进步,NLP 通过不断地从数学、生物神经科学以及统计语言学等交叉学科中吸收营养来丰富自己,目前已经取得了长足的进步。虽然在自然对话等一般场景中的表现还不尽如人意,但在一些特定领域,例如语音识别(微软 / IBM 语音识别)和机器翻译(谷歌 GNMT 机器翻译)等细分场景中,最新的 NLP 技术已经超越了许多普通人类的表现。

    在这种情况下,作为一名 AI 相关领域的研发从业者,更有必要对 NLP 技术有一个全面的认识和了解。为此,雷锋网联合国内顶级 AI 培训平台“1024 MOOC 学院”,有幸邀请到 9 位来自阿里巴巴 iDST 数据科学与技术实验室的顶级专家,利用 4 月 8-9 日一个周末的时间,为大家奉上一期“NLP快速入门实战特训班”。

    如果你对人工智能了充满热情,如果你对 NLP 充满了好奇心和求知欲,如果你是一个不甘心被机器超越的 AI 开发者,那么请不要犹豫,加入我们。本课程将系统涵盖 NLP 技术中的分词算法、语义理解、对话系统以及机器翻译等四大版块,重点介绍基础理论与实战应用,帮助大家解决实战过程中会遇到的技术难题。

      课程内容(10个课时):

    1. 词法分析

    1、中文词法分析的基本概念和核心问题

    2、基于马尔科夫模型的中文词法分析

    3、基于序列标注模型(CRF、LSTM)的中文词法分析

    4、词法分析之工业界实践

    2. 意图理解

    意图理解的基本概念

    意图理解的难点和基本方法

    深度学习在意图理解中的应用

    意图理解在阿里产品中的具体实现

    3. Slot 抽取

    属性抽取的基本概念

    属性抽取的难点和基本方法

    深度学习在属性抽取中的应用

    属性抽取在阿里产品中的具体实现

    4. 对话引擎

    对话引擎的基本概念

    对话的建模方法

    应用场景下对话引擎面临的问题

    对话引擎问题的一些解决思路

    5. 智能问答

    智能问答的基本概念和应用场景介绍

    智能问答系统的工作原理、系统框架和关键技术

    如何搭建一套智能问答系统

    6. 聊天引擎

    聊天引擎概念和demo演示

    基于检索和基于生成的两种聊天引擎构建方法

    工业应用中涉及的数据、在线架构问题以及解决思路

    7. 语言模型

    语言模型的基本概念

    N元文法语言模型

    语言模型的评价指标

    基于神经网络的语言模型建模

    8. 机器翻译

    机器翻译的基本概念

    统计机器翻译和神经网络机器翻译的原理和工作机制

    主要开源机器翻译系统

    工业级机器翻译系统的主要架构、常见问题和解决方案

    9. 搜索引擎数据在NLP中的应用

    搜索引擎的基本概念。

    搜索引擎数据的分类

    每种数据,我们会举例说明在NLP相关领域中的作用

    10. 句法分析

    句法分析的基本概念

    依存句法分析的基本原理和方法

    常见的开源句法分析系统介绍

    句法分析在电商场景工业级应用介绍

      讲师信息(排名不分先后):

    千诀 iDST资深算法专家陈一宁 iDST高级专家李永彬 iDST高级算法专家郎皓 iDST算法专家黎槟华 iDST高级算法工程师鲍光胜 iDST算法专家骆卫华 iDST资深技术专家郑昊 iDST高级算法工程师吴胜兰 iDST资深算法工程师

      开课安排:

    时间:4月1日-2日,周六周末开课;

    授课形式:线上视频直播授课;

    售价:1299元;

      报名链接:

    http://m.leiphone.com/special/mooc03 

    本文作者:恒亮

    本文转自雷锋网禁止二次转载,原文链接


    最新回复(0)