自然语言处理历史中的两个事实和三个里程碑

自然语言处理历史中的两个事实和三个里程碑

两个事实：

一、短语结构语法(PSG)不能有效地描写自然语言。为了识别句子的语法结构，将句子中的词一个一个切分出来，然后查词典，给每个词指派一个合适的词性；在这个基础上，用句法规则把句子里包含的句法成分逐个识别出来，进而判断每个短语的句法功能及语义角色。最终得到的句子的意义表示。短语结构语法在自然语言句法描述中占用重要地位，但是有一些致命的弱点。由于短语语法结构的基础是词的类别属性，而这个属性类别是查字典得来的一种硬性划分，过于武断且大部分词具有多种属性，这样会漏掉很多信息，最后造成一些根本性的弱点，如“短语类型歧义”和“短语边界歧义”等。由此说明基于单一标记的PSG不能充分描述自然语言中的句法歧义现象。故后来采用复杂特征集和词汇主义方法来重建自然语言的语法系统，是近二十年来全球语言学界对此做出的最重要的努力。

二、短语结构规则的覆盖有限。Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限的,而据此生成的句子数目是无限的。在这个假设的基础上凭借经验构造语法规则，以求达到目的。通过大规模语料的调查，人们发现语言的短语规则的分布符合齐夫率。齐夫是一个统计学家和语言学家。他提出,如果对某个语言单位(不论是字母还是词) 进行统计,把这个语言单位在一个语料库里出现的频度(frequency) 记作 F ,而且根据频度的降序对每个单元指派一个整数的阶次( rank)R 。结果发现 R 和 F 的乘积近似为一个常数。F*R ≈ const (常数)在词频的统计方面，齐夫也发现了一些规律。80年代，Sampson发现英语语料库中PSG规则的分布同样是扭曲的，大体表现为齐夫率。也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现频度极高;另一方面,规则库中大约一半左右的规则在语料库中只出现过一次。这个发现说明，单纯依靠语言学家的语感来编写语法规则不可能胜任大规模真实文本处理的需求，我们必须寻找可以从语料库中直接获取大规模语言知识的新方法。

三个里程碑：

一、复杂特征集。复杂特征集又叫多重属性描写。这种多种属性我认为相当于属性文法。原来谈到单一标记的短语规则的描述能力不够，语言学家开始求助于词汇层，并采用复杂特征集，并利用这些属性来强化语法规则的约束力。一个复杂特征集 F 包含任意多个特征名f_i 和特征值 v_i 对。其形式如:

　F = { . . . , f _i = v_i , . . . } , i = 1 , . . . , n

特征值v_i 既可以是一个简单的数字或符号,也可以是另外一个复杂特征集。一条含有词汇和短语属性约束的句法规则具有如下的一般形式:

　< PSG规则> : < 属性约束>

: < 属性传递>

一般来说,PSG规则包括右部(条件:符号序列的匹配模式) 和左部(动作: 短语归并结果) 。词语的“属性约束”直接来自系统的词库,而短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的中心语(head) 那里继承过来的。当一条PSG规则的右部匹配成功,且“属性约束”部分得到满足,这条规则才能被执行。我认为这是在增加多种属性特征的基础上，利用属性建立附加的“属性约束”增强约束能力。在这个基础上，后来又提出了广义短语结构语法、中心驱动的短语结构语法、词汇功能语法等。

二、词汇主义。语言学界认为，不划分词类就无法将语法结构，即语法“不可能”根据个别的词来写规则；但是人们也注意到任何归类都会丢失个体的某些重要信息。这个是很有道理的。不可能为单个词写规则。词和词是有共性的，完全可以用更粗的粒度。但是一个词，很可能属于很多类别，有很多的性质，不能强制分类。这样肯定会丢失一些信息。所以要强化语法的约束能力，词汇的描写应当深入到比词类更细微的词语本身上来。从本质上来说,词汇主义倾向反映了语言描写的主体已经从句法层转移到词汇层;这也就是所谓的“小语法,大词库”的思想。句法层考虑的是短语和短语之间的联系。将词分类来确定短语，更多的是考虑短语之间的关系。在词汇层进一步细化词的粒度，将更多的考虑词和词之间的关系以及词本身的属性。与词汇主义有关的工作有：词汇语法、框架语义学、WordNet、知网、MindNet等。这些工作都得到了重要的应用。词汇语法在分类的基础上，再对词进一步的语法分析，描写其能够用到的语式。WordNet是一个描写英语词汇层语义关系的词库，刻意描写了词语之间的各种语义关系，如同义、反义、上下文等。这种词语语义学又叫作关系语义学。MindNet是微软NLP组设计的，他们试图用三元组作为全部知识的表示单元。全部三元组通过句法分析其自动获取。MindNet在语法检查、词义排歧、机器翻译中得到广泛应用。

三、统计语言模型。这也就是语料库方法。如经过统计得出一个词出现在另一个词后面的概率，找出概率最大的词。如果只考虑前一个词，那么就是二元模型，考虑2个词则构成了三元模型。应用有语音识别、词性标注、介词短语pp的依附歧义等。

复杂特征集、合一语法以及词汇主义方法都是在原先理性主义框架（产生式或逻辑推理）框架下做出的重大贡献。尤其词汇主义方法的发展越来越得到语料库和统计学方法的支持，这也是经验主义和理性主义方法的相互融合。他们将成为自然语言处理技术的主流。

看完文章后需要进一步了解：短语语法结构的详细说明与论证、复杂特征集的确切概念、中心语驱动的短语结构语法、词汇主义的具体说明、词性标注等。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1419973

自然语言处理技术的三个里程碑

Milestones of natural language processing technology

2002年03期

黄昌宁 , 张小凤

半世纪以来自然语言处理(NLP)研究取得两点重要认识和三大重要成果,即认识到:(1)对于句法分析,基于单一标记的短语结构规则是不充分的;(2)短语结构规则在真实文本中的分布呈现严重扭曲.换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象.这与原先的预期大相径庭.NLP技术的发展在很大程度上受到这两个事实的影响.从这个意义上说,本领域中称得上里程碑式的成果是:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型.大规模语言知识的开发和自动获取是NLP技术的瓶颈问题.因此,语料库建设和统计学理论将成为该领域中的关键课题.

关键词：自然语言处理 , 复杂特征集 , 词汇主义 , 语料库方法 , 统计语言模型 |

外语教学与研究 >> 2002年03期 >> 自然语言处理技术的三个里程碑

http://scholar.ilib.cn/A-wyjxyyj200203004.html