摘要
该项目的目标是建立一个10万字的汉语文本语料库。注释包含两个阶段:第一个阶段是分词和词性(POS)标注,第二个阶段是句法结构分析。每个阶段包括至少两个环节,即。数据由一个注释器注释,然后另一个注释器检查标注结果。 分词指南,像词性标注指南和句法分析指南一样,在项目期间进行了多次修改。到目前为止,我们已经在我们的网站上发布了三个版本:第一稿是在1998年12月完成的,在分词和POS标签的第一次通过之后;第二稿于1999年3月,经过了第二轮分词和词性标注。这个文档是第三稿,与前两稿相比,第三稿的主要变化是(1)我们增加了导言章节,以解释指南背后的一些基本原理。(2)对指南中的中文单词进行注释;(3)将指南转化为技术报告,由宾夕法尼亚大学认知科学研究所(ICRS)出版。
第一章
1.1 word的概念
给word下定义的困难并非汉语所独有,但是由于很多原因,这个问题对中文来说显得更加困难。首先,汉语没有文字分隔符,所以即使对于以汉语为母语的人来说,将句子分割成“单词”也不是一项自然的任务。其次,汉语几乎没有屈折形态来方便单词识别。第三,对于可能影响分词的困难结构,社区中几乎没有共识。例如,动词动结果复合句的切分依赖于结构的句法分析。一种关于复合动词的形式的观点认为,一个简单的复合句实际上是双小句并且复合句是由移动构成的,因此,复合词应被视为两个词。另一种观点认为复合词是在词典中形成的,因此应该是一个词。动词结果复合词的切分取决于我们接受的是哪种观点。第四,许多在非现代汉语中能够独立存在的单音节语素成为了现代汉语的束缚。现代汉语的影响使得很难在约束语素和自由语素之间划清界限,否则这些概念对于决定词的边界非常有用。 我们的方法是基于语言学和工程学的考虑。在我们的树库中,单词的概念大致是一个句法原子,即在语法中可以插入到Xo位置的任意字符,这包括复合词和简单词。
1.2 词汇测试
有什么测试可以用来判断一串汉字是不是一个单词?在不丧失泛化的前提下,我们假设要分割的字符串是X-Y,它有两个语素X和Y。下面的为了建立单词边界的测试已经被许多作者提出:
- 结合语素: 在可能的情况下,结合语素应与相邻语素结合形成一个词。
- 生产力: 如果组合表达式X-Y的规则不普遍适用(例如它没有生产力)。那么X-Y很可能是一个单词
- 共现频率:如果X-Y这个表达经常出现,它很可能是一个单词。
- 复杂的内部结构:具有复杂内部结构的字符串应尽可能分段
- 组合性:如果X-Y的意思不是组合的,那么它很可能是一个单词。
- 插入:如果X和y之间可以插入另一个语素,那么X-Y不太可能是一个单词。
- XP-替代:如果一个语素不能被同一类型的短语所替代,那么它很可能是一个单词的一部
- 分音节数:一些指导方针在某些情况下使用了音节数。例如,如果一个复合动词的动结部分是单音节的,则该复合动词被视为一个单词。如果动结部分有一个以上的音节,则它被视为超过一个单词。
所有这些测试都非常有用。但是,它们中没有一个本身足以涵盖所有困难的情况。要么测试只适用于有限的情况(XP-替代测试),要么没有客观的方法来执行测试,因为测试涉及模糊定义的属性(在多产性测试中,在多产性规则和非多产性规则之间的界限是不明确的)。 因为单一的测试是不够的。我们为我们的细分指南选择了一组测试,其中包括除了生产力测试和频率测试之外的所有测试。我们放弃了让注释器试图记住整个集合,并根据这些原则做出每个决定的方法,取而代之的是,我们在指导方针中阐明了对所有相关现象应用测试的结果是什么。例如,对于动词动结果复合词的处理,我们选择了相关的测试(如音节数和插入测试),并举例说明了这些测试对动词动结果复合词的应用结果。这使得注释器可以直接且高效地遵循这些指导方针。
1.3 与其他指南的兼容性
我们研究了其他组的指南,如中国大陆的分段标准[LTS93]和台湾的分段标准[Chi96],并尽可能将它们纳入我们的指南中。 由于树库的最终结果是括号句子的列表,我们的指南在某些结构的分割方面有一些灵活性。例如,字符串 走上来在[LTS93]中被视为两个部分,但是在[Chi96]中被视为一个部分。在我们的树库中,我们将把它分成两个部分,然后组合成一个复合体,即,(走/V 上来/V)/V。我们将走上来称为一个拥有内部结构的单词。在本例中,我们的注释与[LTS93]和[Chi961]兼容。 为了标注效率考虑,内部结构词的分组是在括号阶段进行的,而不是在切分阶段。在本文当中,我们展示了分组格式,但请记住这个格式是完成括号后的格式。例如,我们考虑走上来是一个词。它在分个阶段被划分为“走/V 上来/V”, 然后它将被分成 (走/V 上来/ V)/V 在括弧阶段。在本文中,我们只是说走上来应该标注为 (走/V 上来/V)/V。 这三条准则之间的大多数分歧对解析或句子解释没有太大影响。对于指南提供不同处理的大多数模式(例如数字,重复字符串),可以编写简单的转换程序将数据从一种格式转换为另一种格式。 我们的目标是:在最终输出中,单词边界应该尽可能准确,而内部结构则充当与其他系统共享资源的桥梁。
1.4 不明确案例的解决方案
不明确案例有两种:
- 一种结构很容易识别,但对它的处理却没有共识 例: A-not-A,V-de结构,V-R,可能式(如V-得-R)。 解决方案:我们将选择一个分析,并根据该分析注释数据,确保该注释易于转换为其他分析所需的结构。
- 两种结构很难被现有的测试所区分 例: 有些N+N是复合词,有些是短语。 解决方案:为了一致性和效率,我们不会消除这两种结构的歧义,除非在各种原因下进行区分是至关重要的。
1.5 本指南的组织
这些指导方针是根据相应表达式的内部结构来组织的(例如,一个动词动结复合表达式用V+V表示,而一个动词-宾语表达式用V+N表示),所以注释者很容易搜索这些指导方针以供参考。词性标记中使用本文中使用的是与POS词类标注任务相同的词类任务,除了动词的标签合并成V,名词的标签合并成N。 在本指南中,我们主要列出了每种情况下的决策,而没有详细阐述其他选择和每个决策背后的原因.
第二章
规范
在本章中,我们假设一个句子已经被分割成大块,下一步是决定是否要进一步分割每一块。如果块是一个单词,则按块的潜在词性排列章节。通过分段搜索,首先利用块的“POS”找到分段,然后利用“词”构成信息找到分段;或简单使用“词”的信息。
2.1 常用名词:NN
2.1.1 相对名称
视为一个词
三叔/NN,表叔/NN,大姑父/NN
2.1.2 CD + N
如果可以在基数词和名词之间插入量词而不改变其含义,则标记为CD+N;否则,将其标记为一个词(N)
一个词:三排/NN,一方/NN, 三者/NN, 一行/NN,21世纪/NT 两个词: 一/CD 学生/NN
2.1.3 DT + N
如果DT和N都是单音节的,并且DT或N是有界限的,就把它看成一个单词;否则就把它看成两个单词。 由于非现代汉语的影响,有时很难判断一个词素是否有界限。为了保持一致,我们维护了一个名词列表和一个限定词列表。如果一个语素在其中一个列表中,我们将其视为有接语素:
- 单音节有界名词:校,球(当它意味着地球)
- 单音节有界限定词:当
一个词:本人/NN,本校/NN, 全球/NN,当地/NN,当今/NT,当代/NN 两个词:本/DT 单位/NN
2.1.4 PN + N
如果PN和N都是单音节且N是有界的,则将其视为一个单词;否则,就把它当作两个单词。
一个词:我校/NN 两个词:我/PN 单位/NN
2.1.5 JJ + N
模式是:X+N,其中X修饰N, X是JJ或前缀。
注意:JJ+N可以是一个短语。例如,在一个注释的文件里,全国性/JJ 网络/NN 被扩展为“全国性/JJ 观测/VV 苏梅克-列维/NR 9号/NN 彗星/NN 撞击/VV 木星/NN 的/DEC 网络/NN"
段X+N根据X的类型:
- X如果是前缀,视X+N作为一个词
前缀:啊,非。 啊爸/NN,非商业化/JJ 宗旨/NN JJ:原,前 原/JJ 在/P 华/NR 老挝/NR 难民/NN;前/JJ 民主德国/NR
- X是一个非谓语副词,如果JJ和N都是单音节词,则将其标记为一个词,否则视为JJ+N。
一个词:女人/NN 两个词:共同/JJ 利益/NN
- X是一个副词:如果X或N是有界的,或者X+N的意思是不复合的,就把它当作一个词。对于不清楚的情况,如果JJ和N都是单音节的。将JJ+N视为一个词(鲜花/NN,强队/NN,红茶/NN,好评/NN
一个词:小媳妇/NN,大洲/NN,大海/NN 两个词:厚/JJ 书/NN
2.1.6 LC + N
如果LC和N都是单音节,则将字符串视为一个单词,并根据其含义标记为NN或NT。
前院/NN,前天/NT,左肩/NN
2.1.7 N + LC
有以下情况时,把N+LC看成一个词.
- N和LC是单音节的;
- 和在这种情况下,N是非引用的或有约束的;
- 和在这种情况下,N不能被Det-M或其他修饰词修饰。
否则,就把它当作两个词。
一个词:室内NN,台下,眼前,境外/NN,境内外/NN,海外/NN,背后/NN,天下/NN,国内/NN,午后/NT,赛前/NT 两个词:中午/NT 以后/LC
2.1.8 N + N,第一个名词修饰第二个名词
如果是1 + 1或2 + 1(即,第二个名词有一个或两个汉字和第一个名词有一个汉字),将N1 + N2作为一个词(我们对所有单音节的名词作为潜在的“接尾词”)。如果一个不超过2个汉字的名词后紧接着多个接尾词(每个单音节的名词附加到前面的“块”),整个字符串作为一个词(物理学家/NN)。在其他情况下,字符串被视为两个单词。
一个词:北京市/NR,研究室/NN,发展史/NN,始祖鸟/NN,残疾人/NN,清晰度/NN,紧迫感/NN,大奖赛/NN,太阳系/NN 两个词:北京/NR 大学/NN,玩具/NN 工厂/NN,合作/NN 领域/NN,史学/NN 研究/NN
2.1.9 PN + LC
如果PN和LC都是单音节的,则将PN+LC作为一个单词,标记为NT或NN。
一个词:此间/NN,此前/NN,其中/NN,何时/NT 两个词:这/PN 以后/LC
2.1.10 V + N
在这个模式中,我们假设V是VV(对于VA + N,请参考JJ + N部分)。如果V修改N,把V+N看成一个单词,并把它标记为名词。
一个词:烤肉/NN,炒菜/NN,证明信/NN,讨论会/NN
2.2 专有名词: NR
目前,如果专有名词是由多个单词组成的,我们不把它们分组。
2.2.1 人名
把它当作一个词。不要给出内部结构,除非两个名字之间有空格(外文字母)
张胜利/NR,卡尔•马克思/NR,John/NR Smith/NR
2.2.2 带有词缀的人名
将其视为一个词。
老张/NR,张老/NR
2.2.3 人名 + 头衔
将其视为两个词
张/NR 教授/NN,张/NR 李/NR 两/CD 位/M 教授/NN
2.2.4 组织/国家/学校/…
如果模式是N1 + N2,其中N2是普通名词,在这种情况下如果N2是单音节词,将N1+N2视为一个词,否则将N1+N2视为两个词。
简单名称:北京市/NR,黄河/NR,沙市/NR,黑龙江省/NR 复杂名称:北京/NR 大学/NN,北京/NR 第一/OD 服装厂/NN,美国/NR 国会/NN
2.2.5 NR + NR
视为两个词
中/NR 美/NR,中/NR 美/NR 关系/NN,东/NR 新/NR 澳/NR
2.3 时态名词:NT
年/月/日/时等一类的词语
1998年/NT 3月/NT 21日/NT,5点钟/NT,初一/NT,去年/NT
2.3.1 CD + N
如果CD+N是一个时间的名称,则将其视为一个单词(NT)。如果是时间的计数,就把它当作两个单词(CD+M)。
一个词:1998年/NT,5点钟/NT,90年代/NT 两个词:3/CD 年/M,3/CD 个/M 月/NN
2.4 定位符:LC
定位符与其所连接的名词相分开,除了在2.1.7中所提到的情况 定位符是一个或两个音节:
- 单音节定位符: 内,后
- 双音节定位符:之间,以来,以后,左右
2.5 代词:PN
视为一个词
他们/PN,他自己/PN,自己/PN
2.6 限定词:DT
我们把DT和后面的单词分开
这/DT 三/DT 个/M 人/NN,各/DT 国/NN
目前,我们对待“这些”作为一个词,并标记为DT。 一些双音节限定词:全体,其余,一切,这些,那些,所有
2.7 基数词:CD
视为一个词。注意,如果需要的话,CD的内部结构很容易被恢复
- 纯数字:一亿三千万/CD,30.1/CD,123456/CD,35.6%/CD,30万/CD,30几/CD
- 估计:三四十/CD 岁/M
- CD + X + CD(5.5.4):X是词素,如余,分之,点:三十几亿/CD,三分之一/CD,三点一/CD,好几/CD 个/M
- CD + X:X是词素,如余,来:四千一百余/CD 人/NN,三十来/CD 个/M
2.8 序数词:OD
视为一个词
第一/OD,第三十一/OD
2.9 量词:M
视量词,包括重复的或复合的量词,为一个词。视字符串,如分钟作为一个词。
杯/M,杯杯/M,架次/M,分钟/M
2.10 动词:VA, VC, VE和VV
2.10.1 叠词:AA, ABAB, AABB, AAB, ABB, ABAC
视为一个词
- AA, A是一个动词:AA/V 例:看看/VV,红红/VA
- ABAB,AB是一个动词:ABAB/V 例:研究研究/VV,雪白雪白/VA
- AABB,AB是一个动词:ABAB/V 例:来来往往/VV,高高兴兴/VA 注:大多数情况下,AA或者BB不是一个词
- AAB(除了AA-看,参阅2.10.2):AAB/V 例:蒙蒙亮/VA 注:大多数情况下,AA或B不是一个词
- ABB:ABB/V 例:绿油油/VA,红彤彤/VA 注:大多数情况下,A或BB不是一个词
- ABAC:ABAC/V 例:马里马虎/VA,有条有理/VA,一清二楚/VA
2.10.2 叠词:AA-看,A-一-A,A-了-一-A,A-了A
视为一个含有内部结构的词
- AA-看:(AA/V 看/V)/V 例:(说说/VV 看/VV)/V
- A-一-A:(A/V 一/CD A/V)/V 例:(想/VV 一/CD 想/VV)/V
- A-了-A:(A/V 了/AS A/V)/V 例:(想/VV 了/AS 想/VV)/V
- A-了-一-A:(A/V 了/AS 一/CD A/V)/V 例:(想/VV 了/AS 一/CD 想/VV)/V
注:V + CD + M被视为三个词,例如 看/V 一/CD 眼/M
2.10.3 A-不/没(表否定意义的字)-A
视为一个含有内部结构的词
(来/VV 没/AD 来/VV)/V,(高/VA 不/AD 高兴/VA)/V,(喜/VV 不/AD 喜欢/VV)/V
2.10.4 AD + V
如果AD+V复合下面一个或多个情况,将其视为一个词:
- AD和V之间没有自由词的介入。
- 没有AD, V不能成为谓词
- AD+V的次范畴框架不同于V的次范畴框架。
否则,就把它当作两个词
一个词:胡说,胡来,敬献,尚余(尚余/VV 七十五/CD 名/M 难民/NN),历任,并列,不畏 两个词:已经/AD 采取/VV,不/AD 应该/VV,没/AD 完成/VV
2.10.5 MSP + V
如果没有MSP,V不能成为谓语,则视为MSP+V为一个词
一个词:以期/VV(以期/VV 在 与 美国、瑞典、挪威 这些 世界 强队 交锋 中 …)
2.10.6 N + V
根据上下文,一些主谓字符串可以是短语或单词
如果可以在主语和谓语部分之间插入VP修饰语,并且“主语”是引用的,那么这个字符串就是一个短语,否则就是一个单词。
一个词:头疼/VA “他/PN 让/VV 我PN 很/AD 头疼/VA” 两个词:头/NN 疼/VA “我/PN 头/NN {很/AD} 疼/VA
2.10.7 V + N
如果V和N通过体标记、N的修饰语或者V是叠词而分开,视V+N为两个词。 例:访/VV 华/NR “他/PN 曾/AD 七/CD 次/M 访/VV 华/NR”
如果V和N是相邻的并且有以下情况,视V+N为一个词:
- 如果 V-N 在语义上是可传递的,并且只有当 VN 相邻时,它的对象才能出现在 N 之后(因此V不是一个双及物动词) 例:投资/VV,出席/VV,关心/VV,为期/VV
- 如果 V 和 VN 具有相似的含义并且两者都是语义可传递的 例:睡觉/VV
- 如果N是有界的 例:游泳/VV,无望/VV,无效/VV,无法/VV,辞职/VV
- 如果 V-N 是 1+1 并且含义是非组合的 例:念书/VV,流血/VV
2.10.8 V + R
动词结果复合词(V-Rs)的检验:V和R都是动词并且存在可能式(V-得-R,V-不-R)。所以我们对V-R的定义包括结果动词和定向动词复合词(如看见,走上来)但是不包括像改善,鼓动这样的词。
我们把它看成一个词。为了与其他指南兼容,我们给出了单词的内部结构如果它们有两个以上的音节,或者R是以下的词:
- 完/VV
- 没有内部结构的词:吃掉/VV,看见/VV,擦净/VV
- 有内部结构的词:(做/VV 完/VV)/V,(擦/VV 干净/VV)/V,(认识/VV 到/VV)/V
2.10.9 可能式:V-得/不-R
我们将其视为一个词 如果V-R存在,请给出V-得/不-R的内部结构,否则不要给出
含有内部结构:(擦/VV 不/AD 净/VA)/V,(擦/VV 得/DER 净/VA)/V 不含有内部结构:吃不了/VV,买不起/VV
2.10.10 V + DIR
详情参阅 2.10.8
含有内部结构:(走/VV 出去/VV)/V,(走/VV 不/AD 出去/VV)/V 不含有内部结构:走出/VV,想出/VV
2.10.11 V + AS
视为两个词
走/VV 了/AS
2.10.12 V + DER
模式是V-得结构中的V-得。我们把V-得看成两个词
走/VV 得/DER(走/VV 得/DER 很/AD 快/VA)
2.10.13 没有连接词的动词协调
如果模式是1+1,视为一个词;否则,视为多个词
一个词:修建/VV 两个词:宣传/VV 鼓动/VV
2.10.14 V + coverb
模式是V+X,X是单音节词并且是个P或者是个V
我们首先决定V+X是否是一个单词。如果是,我们就用它的音节数来决定它的内部结构。也就是说,如果V是单音节的,不要给出内部结构;否则,给出内部结构
- 视V+X为一个词如果X在以下列表中:给,为,成,作,到,出,自,向,入,以
- 给:送给/VV,交给/VV,(赠送/VV 给/VV)/V
- 为,成,作,到,出:(翻译/VV 成/VV)/V,当作/VV,起到/VV,找到/VV,(认识/VV 到/VV)/V,决出/VV
- 自,向,入,以:来自/VV,面向/VV,流入/VV,迈向/VV,报以/VV,加以/VV
- 视V+X为两个词如果X在以下列表中:在,似
- 生/VV 在/P,坐/VV 在/P,留/VV 在/P,深/VA 似/P 海/NN
- 视V+X为一个词或两个词(V+P)取决于X的意思,并且在X是于的情况下
- 如果在V + 于的组合中,于可以被在替换掉,标记V + 于为两个词;否则,标记为一个词
- 一个词:等于/VV,缘于/VV,大于/VV,小于/VV,无助于/VV,低于/VV,利于/VV,有利于/VV
- 两个词:生/VV 于/P,建/VV 于/P
2.10.15 其他
一般在X+V(或V+X)中,X修饰V,如果X不能修饰其他动词,或者V不是谓语如果缺少了X,把X+V当作一个词。
以期/VV
2.11 副词:AD
副词与它所修饰的XP是分开的。
副词修饰数字:近/AD 三十/CD,5/CD 分/M 多/AD 种/NN
字符串,如“极大”,当修饰VPs时是一个副词,而不是AD+VA,因为VA不能修饰VPs如果没有AD
2.11.1 叠词
当 VA或AD 重复时,产生的结果词是一个AD
好好/AD 干/VV,常常/AD,仅仅/AD
2.11.2 DT + M/N
以下被标记为AD当他们修饰 VP/S 时:这样/AD(这样/AD 做/VV),同机/AD(同机/AD 到达/VV)
2.11.3 P + PN
我们将如下内容视为两个词:为/P 此/PN
2.11.4 P + N
以下可以被看作冷冻的PP。因为他们具有和AD相同的功能,所以我们视他们为词,并且标注为AD 例:迄今,沿途,即席,为何(为何/AD 愈演愈烈/VA),为什么(为什么/AD 来/VV)
2.11.5 PN + LC
如果一个PN+LC完全失去了NP的功能,并且字符串的作用等同一个副词,那么就把它当作一个副词。 例:此外/AD
2.11.6 其他
如果在这种情况下:字符串完全失去了XP的功能(其中X是字符串的头),而字符串的行为像一个副词,则将其标记为AD。 例:进一步/AD
2.12 介词:P
将它与后面的NP/S分开
大多数介词是单音节的。一些常见的双音节介词有:为了,随着,沿着,本着,鉴于,除了,经过,作为,截止。
当助动词跟在动词后面时,我们必须确定这个词是否是动词复合词的一部分。常见的助动词有:于,给,为,…详情请参见2.10.14节
2.13 从属连词: CS
将它与跟随它的XP分开。
像“只有”这样的字符串是有歧义的:
- CS:只有/CS…才/AD…
- AD + VE:他 只/AD 有/VE 三/CD 块/M 钱/NN
2.14 连词:CC
将它与其相连的XP分开
和/CC,与/CC
2.15 助词: DEC, DEG, DEV, DER, AS, SP, ETC, MSP
将它与其相连的XP分开
大多数助词是单音节的。“的话/SP”是多音节助词中的一个。
2.16 感叹词:IJ
视为一个词
哈/IJ
2.17 拟声词:ON
视为一个词
哈哈/ON,哗啦啦/ON
2.18 其他名词修饰语:JJ
将它与量词(M)或它所修饰的名词(N)分开。 例:三/CD 大/JJ 杯/M 水NN
修饰名词时,JJ可以是形容词,区别词(非谓形容词),或“短语词”。大多数的“短语词”有两个部分:X + Y, X和Y都是单音节的,X或Y是对应词的简写。下面是一些“短语词汇”的例子:
2.18.1 V + N
随军/JJ 妓女/NN,旅英/JJ 学者/NN,成套/JJ 设备/NN,发稿/JJ 时间/NN,获奖/JJ 学者/NN,驻华/JJ 使馆/NN,给惠/JJ 国家/NN
2.18.2 AD + VA
最新/JJ 消息/NN,超大/JJ 规模/NN 集成/NN 电路/NN,较大/JJ 增长/NN
最常见的AD:最,超,较
2.18.3 VA + N
高层/JJ 人士/NN,高速/JJ 公路/NN,大幅/JJ 标语/NN
2.18.4 CD + N
两国/JJ 关系/NN,多国/JJ 部队/NN
2.18.5 P + N
对外/JJ 政策/NN
其他
关贸/JJ 总协定/NN,年均/JJ 增长率/NN,上述/JJ 三/CD 国/NN,历届/JJ 世界/NN 体操/NN 大赛/NN,有关/JJ 方面/NN
2.19 标点:PU
视为一个词,除非他是另一个词的一部分。例如,“,”是一个数字(123,456/CD) 或者 “·”是一个专有名词(卡尔·马克思/NR)
2.20 外来词:FW
视为一个词,除非他是另一个词的一部分(卡拉OK/NN)
2.21 其他
2.21.1 习语
成语在充当 NP 或 VP 时被视为单词
各有所好/V,一比高低/V
2.21.2 可伸缩字符串
可伸缩字符串被视为一个词如果它小于四个字符。否则,根据停顿将他们分段
短字符串:进出口/NN 贸易/NN,国内外/NN 形势/NN 长字符串:交响/JJ 乐团/NN,北京/NR 市长/NN
2.21.3 缩写
缩短的部分被视为一个单词。如果被缩短的部分超过3个音节,根据音系特征(如停顿)将其分段。缩写形式的结构可能与完整形式的结构不同。
三好/JJ 学生/NN,教科文/NN 组织/NN,七中/NN 全会/NN
[========]
第三章
语素搭配
3.1 带有“着”的字符串
一些以“着”结尾的介词
随着/P
3.2 带有“之”的字符串
之+LC,并且LC是单音节,将其视为一个词(之外/LC,之中/LC)
之+CD被视为DEG+CD(方法/NN 之/DEG 一/CD,方法/NN 之/DEG 三/CD)
为了简便,句子“中国是发展中国家之一”中的“之一”被视为一个词并标注为NN
之+N被视为DEG+N(少年/NN 之/DEG 家/NN)
3.3 带有“不”的字符串
如果 X+不 或 不+X中的X必须随不一起出现,或者 X+不 的意思不是复合的,我们将 X+不 视为一个词
不到(不到5分钟),不足(不足5公斤),不便,不久
3.4 带有“是”的字符串
为了简便,我们视“特别是/AD”为一个词
3.5 带有“些”的字符串
以下被视为一个词:这些/PN,一些/CD
3.6 带有“有”的字符串
V+有 通常是一个动词,例如,刻有/VV,具有/VV,富有/VV
没有通常被视为一个词(VV或VE或SP)
许多成语包含有,例如,若有所思/VV
以下搭配作为两个词:有/V 所/MSP,仅/AD 有/V,有/V 可能/NN
以下情况在没有上下文的情况下是模棱两可的:
- 有点:V+M 或 AD
- 当“点”可以被删掉或替代成“一点”时,“有点”被标注为V+M
- 这/DT 本/M 书/NN 有/V 点/M 意思/NN
- 这/DT 本M 书/NN 有/V 点/M 看透/NN
- 当“有点”可以被其他程度副词(如 “很”)替代时,或者当它后跟一个 VP 时,它就是一个AD
- 他/PN 有点/AD 下不了/VV 台/NN
- 有的:V + DEC/DT
- 他 有/V 的/DEC 书我也有
- 有的/DT 人已经走了
- 有些:V + M/DT
- 我只 有/VV 些/M 旧书
- 他不像 有些/DT 人专门爱抬杠
- 只有:AD + V/CS
- 你 只有/CS 学习 才/AD 能改进工作
- 他 只/AD 有/VV 10块钱
3.7 带有“在”的字符串
一个词:正在/AD
3.8 带有“自己”的字符串
经常将 PN+自己 视为一个词
他自己/PN
[========]
第四章
常见搭配
一个词
- AD:迄今为止,迄今,进一步,越来越,同机,沿途,即席
- DT:这些
- JJ:对外(对外/JJ 政策/NN),各界/JJ
- LC:之间,在内
- NN:其中,一行
- P:为了
- V:来自,面向,流入,迈向,报以,为期,有利于
两个词
- AD-like:并/AD 来/AD
- CC-like:及/CC 其/PN,而/CC 又/AD
- DT-like:各/DT 个/M
- NN-like:超大/JJ 规模/NN,我/PN 国/NN
- NT-like:零点/NT 零一分/NT
其他情况
- V-V:(迎上/VV 前去/VV)/V
[========]
附录A
与其他指南的比较
在本附录中,我们将我们的指南与PRC[LTS931]和Rocling[Chi96]指南进行比较。本系统的词分组是在括号阶段完成的。