宾州汉语词性标注指南 树库(3.0) 中文整理版

原著者:FeiXia University of Pennsylvania

Xia, Fei, “The Part-Of-Speech Tagging Guidelines for the Penn Chinese Treebank (3.0)” (2000). IRCS Technical Reports Series. 38. https://repository.upenn.edu/ircs_reports/38

University of Pennsylvania Institute for Research in Cognitive Science Technical Report No. IRCS-00-07. This paper is posted at ScholarlyCommons. https://repository.upenn.edu/ircs_reports/38 For more information, please contact repository@pobox.upenn.edu.

宾夕法尼亚州中文树库的部分语音标记指南(3.0)。

摘要

本文件描述了宾夕法尼亚州中文树库项目的言语部分标记(POS)指南。 项目。该项目的目标是建立一个10万字的普通话文本的语料库 句法括号。中文树库已经通过语言学数据联盟(Linguistic Data Consortium)发布。 (LDC)发布,并向公众开放。 在项目的两年时间里,POS标记指南已经被多次修订。前两个版本 前两个版本分别于1998年12月和1999年3月完成。本文件是 第三版,也是最后一版。我们增加了一个介绍性的章节,以解释指南中某些决定背后的理由。为了解释指南中某些决定背后的原因。我们还包括了指南中的中文词汇的英文注释。指南中的英文词汇。 在本文中,我们首先讨论了POS标签的标准以及我们在设计POS标签集时考虑的其他因素。第二,我们详细描述了33个POS标签中的每一个。第三,我们 第三,我们提供了区分某些POS标签对的测试,并说明了对一些常见的 搭配的处理方法。第四,我们列出了每个POS标签的词的数量。最后,我们将我们的标签集与 三种标签集:台湾中央研究院平衡语料库的标签集(CKIP,1995)、语法知识库的标签集(CKIP,1995)。中国北京大学开发的语法知识库的标签集(Yu et al., 1998),以及英语Penn Treebank的标签集 的标签集(Santorini, 1990)。 汉语没有什么语气词法(如果有的话),举例来说:单词不受语调、大小写、人称和数字化的影响。因此,在一段长文本中去区分词性是难以处理的。 本文件是为宾大中文树库项目设计的 该项目的目标是建立一个带有句法括号的10万字普通话文本语料库。注释包括两个阶段:第一个短语是词的分离和语音部分(POS)标记,第二个短语是句法括号。每个阶段至少包括两遍,也就是说,由一个注释者对数据进行注释,然后由另一个注释者对结果文件进行检查 由另一个注释者检查。 POS指南,就像分割指南和括号指南一样,在项目进行过程中已经进行了多次修订。到目前为止,我们已经在我们的网站上发布了所有的三个版本:第一稿是在1998年12月完成的,是在第一遍词的分割和POS标记之后;第二稿是在1999年3月完成的,是在第二遍词的分割和POS的标记之后。本文件是第三稿,是在第二遍括号后修订的。 与前两稿相比,第三稿的主要变化是,我们增加了一个引言章节,以解释指南背后的一些理由,我们为指南中的中文词语增加了词汇,我们还把这个指南变成了一份技术报告,由宾夕法尼亚大学的认知科学研究所出版。

第一章

1.1 切分标准

部分标记(POS)的核心问题是,POS标记应该基于意义还是基于同义词分布。 意义还是基于句法分布。这个问题自20世纪50年代以来一直在争论,至今仍有两种不同的观点。 仍然有两种不同的观点。例如,在中文中,一个词可以被翻译成 在英语中可以翻译成destroy/destroys/destroyed/destroying/destruction,它的使用方式与英语中的对应词大致相同。根据第一种观点,POS标签应该完全基于意义。因为这个词的意义在所有这些用法中都大致相同,所以它应该总是被标记为动词。第二种观点认为,POS标签应该由该词的句法分布决定。当它是一个名词短语的头时,它应该被标记为 在该语境中被标记为名词;当它是动词短语的头部时,它应该被标记为动词 我们选择同步分布作为我们的POS标记的主要标准,因为它 因为它符合临时语言学理论中所采用的原则,例如X-bar理论和GB理论中的"头 "的概念。X-bar理论和GB理论中的头部投射概念。 一个经常被用来反对句法分布方法的论点是,由于汉语中许多动词也可以出现在名词位置,因此需要两个POS标签,使用 句法分布方法会增加词库的规模。我认为这个论点没有说服力,原因有二。首先,两个POS标签使我们能够区分 可以出现在名词位置的动词和不能出现的动词(如单音节动词和AABB、A-not-A等重复形式的动词)。 如果有关于哪些动词可以出现在名词位置,哪些不可以的概括,这些概括可以表示为形态学规则,从而使词典自动扩展。另一方面,如果不存在这样的概括,而名词化过程在很大程度上是特异性的,那就支持这样的观点,即这是一种词汇现象,可以被名词化的动词在词库中应该有两个POS标签。其次,许多动词可以出现在名词位置的现象并不是汉语独有的,其他语言的标准处理方式是给它们两个标签.

词性集合

我们标记的词性共33个标签。 动词,形容词(4): VA, VC, VE, VV. 名词(3): NR, NT, NN. 定位词(1):LC。 代词(1):PN。 定语和数量词(3):DT, CD, OD. 测量词(1):M. 副词 (1): AD. 介词 (1): P . 连接词(2):CC, CS. 小品词(8):DEC, DEG, DER, DEV, SP , AS, ETC, SP , MSP。 其他(8):IJ, ON, PU, JJ, FW, LB, SB, BA。

[========]

第二章

词性标注树库数据集

2.1 动词: VA , VC , VE , VV

动词(并非助动词),作为从句的谓语(主从句或子句)

2.1.1 谓语形容词 Predicative adjective : VA

谓语形容词是描述名词的词,但出现在句子的谓语附近。简单来说是一个描述词,提供有关名词或代词的更多信息。 谓语形容词是一个描述名词的词,但它出现在句子的谓语附近。简单地说,它是一个描述词,它能提供有关名词或代词的更多信息,即使它出现在动词的另一边。它经常被称为谓语形容词。通常,识别一个谓语形容词比它看起来要简单得多。 谓语形容词是一个描述名词的词,但出现在句子的谓语附近。例如,在句子"the beach was sandy"中,sandy描述了名词beach。它讲述了关于beach的更多信息,因此,是一个形容词。尽管sandy和beach被一个动词分开,但很明显这两个词是相关的;一个词描述另一个词。分隔它们的动词was是句子的谓语。它是一个连接动词,表示名词beach的作用。这就是为什么sandy这个词被称为sandy谓语形容词。它是一个与名词分开的形容词,也是完成句子中谓语的意义的形容词。记住句子中的谓语是一个动作词-动词或动词短语。名词是一个人、一个地点、一个,或事物,通常是一个简单句子的主语。形容词是描述名词的词。谓语形容词描述并加强谓语和名词的意思。在"天空变暗"这句话中,黑暗是形容词,用来形容或修饰天空。谓语,正在转动,将单词sky和dark分开。 因此,dark是谓语形容词。同样的信息也可以用更高级的术语来解释。在英语语法中,补语是完成从句、短语或句子意思的任何东西当形容词或修饰词是用来修饰词义的修饰词时,含蓄的意思。这就是为什么形容词被称为修饰词的原因。任何一组术语都适合用来形容一个谓语形容词。上面句子中的单词dark是is的补语和sky的修饰语。上面句子中的sandy是动词was的补语,也是单词beach.in的修饰语语法术语,那么,谓语形容词是谓语的补语,但它的功能其实是修饰句子的主语,用哪一个术语都不重要,只要能正确识别和解释单词。

2.1.2 系动词 Copula : VC

“是、为”被标记为系动词,“非”也被标记为系动词,并且句子中没有其他的动词。

  1. 连接两个NP(nounPhrase)名词短语。
  2. 在强调句中: 他 是 昨天来的。
  3. 为了强调: 他是喜欢看书的。
2.1.3 “有”作为助动词: VE

“只有、有、没有、无”可被标记为VE, 或者意指有或者有的所有格。

2.1.4 其他动词 : VV

剩余的,包括情态动词、提升谓语动词(可能,或许)、置动词(要、想)、动作动词(走)、心理动词(喜欢、了解)等。

2.2 Noun: NR 、 NT 、 NN

名词可以是谓语或者是介词。 1.名词不可以被情感动词(很、不)修饰,(很吴亦凡) 2.名词可以被Det+M 结构来进行修饰: Det + M : DT + (CD | OD) + M Determiner限定词: 这 OD序数词: 第一 CD基数词: 一百 M: 量词 3.名词可以修饰名词: 青岛啤酒(不用加的)

  • 名词性短语: NP 如果一个单词是Noun Phrase名词短语的头部,可标记为名词,但很多时候这种情况很难去界定NP,如下:
  • 如果一个位置短语可以被Det+M修饰,而其他语境中Det+M之修饰NPs,那么这个XP(X为位置可能为N,可能为V)最为可能是NPs。
  • 如果XP被描述为“ZP 的/DEG-or-DEC ”,那么有可能为NP
2.2.1 Proper Noun: NR

专有名称是NN的子类,特定人名、政策、地理定义的位置名称(城市,山川、河流).通常是唯一的而且不能被Det+M 结构进行修饰的。

  • 地区/县市、国家、省份、山川河流、新闻、杂志、组织、公司、学校、协会、机构、个人、家庭。

非NR

  • 民族性(中国人)、种族(白人)、头衔(教授)、疾病、职业、器官组织、仪器仪表、游戏运动(足球)、花束种类(玫瑰)等。
2.2.2 Temporal Noun: NT(时态名词)

可以作为介词的宾语,如:在、从、到、或等到。 可以被称为“这个时候”,也可以通过“什么时候”来检验,可以直接修饰动词短语(VP),和其他名词,一般其可以是多个动词的参数。 同样可以是时间、时期代词,(1990年、一日、汉朝、当今、何时、今后)

2.2.3 其他名词 NN

剩余其他的名词,除了地址,通常不能(用或者不用) 地 来修饰VP,动词短语。 错误的例子: 何时地跑跳打闹

2.3 Localizer: LC 定位词

不能直接修饰动词短语,大多数可以被“最”修饰,不能被Det + M 修饰。

  • 方位词 这类指示”方向“、”地点“,来源于名词,可以和介词组合,如:左前、在后、在高处、可以被”最“修饰。
    • 单音节,方位词: (前后,里、外、内、北、东、边、侧、底、间、末、旁)
    • 双音节:
      • 单音节 + 语素 (以、之) (之间、以北)
      • 两个单音节 (前后、左右、上下、东北)
    • 其他的定位词: 为此:“到、目前为止” 开始:“从四月份开始” 来: “五年来” 以来:“2020年以来” 起:“一九九三年起” 在内:“包括他在内”

2.4 Pronoun: PN 代词

充当名词短语NP替代品,指示人或事物、或上下文本的理解。 包含人称代词: 我、你 指示代词: 这、此 所有格代词: 其 反身代词: 我自己、自己

2.5.1 Determiners and number :DT、CD 、OD

限定词和名词 DT 这包含指示词和每、各、前后这类单词。 DT限定词不包含基数和序数。(这、该、那)

2.5.2 基数词:CD

  • 概数数 (来、多、好几)
  • 好些、若干、半、许多、很多:很多学生, 1234 、一百

2.5.3 序数词:OD

  • 第 + CD 组成一个词,标记它为OD ,第一百

2.6 衡量词: M

  • 包含分类词:(个) 组群衡量词(群)、公里、升。一部分衡量词能被一组有限的形容词来修饰、

一/CD 小/JJ 瓶/M 水/NN 一/CD 铁/NN 箱子/M 书/NN

2.7 Adverb: AD副词

副词是大类: 包含:

  • 方式副词
  • 频率副词
  • 程度副词
  • 联合副词 副词差异性很大,大多数副词修饰VP(动词短语) 依然、很、最、大大、又、约

2.8 Preposition: P 介词

例如: 把/BA 被 (/LB or /SB)不列于介词。 从,对

2.9 Conjunctions: CC 、 CS 连词

CC: cordinating conjunction 并列连词 CS: Subordinating conjunction 从属连词 CC连接两个相同的成分(名词性短语、子句) CS在从属句之前 如果/CS 就/AD

2.9.1 CC连接两个并列成分

与、和、或、或者、还是。

2.9.2 CS连接两个从句

一句从句于另外一个句子,故标记为从属连词、模式如下: CS S1, S2 S2 CS, S1 当S1是从属子句,那么S2就是主从句。

2.10 Particle : DEC、DEG、DER、DEV、AS、SP、ETC、MSP

2.10.1 的,作为补语或名词化: DEC

只包含“之”“的”, 吃 的/DEC 的也有其他的标签: DEG: 他的 /EDG 车 SP: 他是一定要来 的/SP AS: 他是在这里下的 /AS 车 体态词: ”了、在、着、过”

2.10.2 的作为属格标记和关联标注: DEG
2.10.3 Resulttation de : DER

他跑得很快 以得结尾并不是:记得,获得。

2.10.4 Manner de5 :DEV

出现在XP 地 OP, 其中 XP 修饰 VP ,高兴/VA 地/DEV 说/VV 表语形容词 Predication adjective

2.10.5 Aspect Particle: AS

只包含 了、着、过、的

2.10.6 句末助词: Sentence-final Particle: SP

常出现在句子的末尾:

  • 他好吧 /SP 有时也常用于停顿,
  • 他 吧/SP ,人很好。 例子: 了、呢、吧、啊、呀、吗
2.10.7 ETC

常用于等、等等 XP等 NP : 科技、文教 等/ETC 领域 XP 等/等等: 科教、文教等等/ETC

2.10.8 其他小品词 MSP

例如: 所、以、来、而 他们出现时在VP前(动词短语) MSP: 他所/MSP 需要的 /DEC “以”或“来” : 用… 以/MSP(or “来”) 维持 而: 为… 而/MSP 奋斗

2.11 Others: IJ ON LB SB BA JJ FW PU

2.11.1 Interjection : IJ 感叹词

出现在句首位置, 啊

2.11.2 Onomatopoeia: ON 象声词

雨哗哗/ON 地 下了一夜 砰/ON 的 一声 砰砰 /ON ! 屋里传出两声 哗啦啦、咯吱

2.11.3 被字句、在长句中

仅仅包含: 被、叫、给、为 他被我训了一顿 注意: 叫标记为 VV 当作为伸缩动词时,他叫 /VV 你 去。

2.11.4 被字句,在短句中。
2.11.5 把字句

“把”,“将” 他把/BA 你 骗了

2.11.6 noun-modifier: JJ 名词修饰语
  • “区别词“ 非谓语形容词 通常… JJ + 的 + {N} J+N 但不能被degree adverbs修饰 模式: JJ + 的/DEG + N , JJ + N 例子: 共同/JJ {的/DEG} 目标/NN 他时 女/JJ 的/EDG
  • hyphenated-compound合成词 通常有2个音节。 V + N P + N AD + VA JJ + N : 留美/JJ scholar/NN
  • 形容词: 新/JJ 消息/NN

2.11.7 Freign word :FW

外文单词或者音译单词 或包含中文混合 卡拉ok A型

2.11.8 Punctuation: Pu

标点符号 , . ! 等

[========]

第三章

错误案例

混乱的词性

两种词性为什么会混乱?

  1. 有相同的功能。 如:JJ 和 CD都可修饰nouns
  2. 一个单词有两种标签。如:政治在大部分是名词,但在“只能政治/AD 解决/VV 这个问题”时是副词。

3.1.1 AD or AS

“在” 当在动词前当作AD(副词),并不是AS (体态词、体标记)

3.1.2 AD or CC

又[当作为连接时作CC、当作为“再一次”的意思的时候当作AD] 还是[当作为“或者”的时候作CC,当作为“仍然、仍旧”的时候作AD] AD(副词) : 否则,但是, 但。

3.1.3 AD or CS

3.1.4 AD or JJ

鲜有AD修饰NPs(名词短语)

3.1.5 AD or NN

政治/AD 解决/VV 这个问题 重点/AD 抓/VV 生产

3.1.6 AD or NT(Temporal nouns)时序词

如果在NP首部,标记为NT,如:昨天是NT,不是AD ADs: 早日/AD 实现/VV NTs: 目前/NT ,今后/NT

3.1.7 AD or VA(Predicative adjective)

AD: 大大/AD 提高 VA: 高兴/VA 地/DEV, 紧密/VA 地/DEV 我们假设VA不可直接修饰VP,需要用DEV来帮助

3.1.8 AD or VV

VV可以是 “A not A”模式,但是AD不能。 像AD的情态动词: 大概,将,一定 像VV的AD词: 是否/VV

3.1.9 AS or VV

目前我们有四个AS(了、在、着、过) 但写“完” 跑“起来”是VV,并非AS

3.1.10 CC or P(prepositions)介词

与、和、跟、同、同样可作为介词。

3.1.11 CS or P

例句: 对/P 我不能按时来,他感到非常沮丧 例句: 他对/P 我不能按时来,感到非常失望 句子: 虽然/CS, 我不能去,但是你应该去。 句子: 你虽然/CS … 句子: 对/P 由于/P 因为/P

3.1.12 CD or DT

DT标识非确切性描述,CD指的是具体的描述。 如全体、全部、一切被标记为DT 而许多、若干、个把 被标记为CD DT: 各、全、其

3.1.13 CD or JJ

CD和JJ都可修饰nouns,JJ是根据一类属性来划分某类人群,而CD则不能。 模式: N 是 JJ的 可作为CDs的词: 一些、大概、好几、不少 可作为JJ的词: 共同 、女

3.1.14 CD or NT

当1995指代1995年时,1995/NT

3.1.15 DT or JJ

限定词Determiner DT DT同样是指示词或者量词、这个量更多的是指范围性影响,JJ描述名词的属性。 如: JJ: 美国“前”总统特朗普 DT: “前” 八个月

3.1.16 DT or OD序数词

注意: 首是OD,并不是DT

3.1.17 DT or PN(Pronouns)代词

(这、此) 两个词都有DT或PN 如: 这/DT 本书很好 这/PN 很好 他/PN 爸爸 所有/DT 的/DEG 东西/NN

3.1.18 JJ or NN

JJ 不可作为NP的句首, NN可以。 N+ 形 , N+ 状 , N+ 制 可以作为NN ,并不是JJ 如: 椭圆形、V形、带状 、 颗粒状、货币制、股份制

3.1.19 JJ or P

“有关” 举例:
JJ: 有关/JJ 单位。 JJ: 有关/P 撤军/NN 的报告

3.1.20 LC or NN

LC(localizer)定位词, “里”

3.1.21 LC or MSP (measure some Particles)小品词

LC: 近年来/LC MSP: 用暴力来/MSP 维持

3.1.22 M or NN

例句: 一 学生/NN 一年/M 一箱子/M 书

3.1.23 NN or NR

NR指代人名、机构名、国家等,不可用Det+M 修饰 以“方、军、人、会、队、厅等”结尾的是NN 不是NR 如:美方/NN 美军/NN 美国人/NN 办公厅/NN

3.1.24 NN or NT

3.1.25 VV or VA

通过可不可以用“很”修饰来区分。 可以用“很”修饰的话标记为VA ,不可以的话标记为/VV 如: 表示/VV
乐观/VA

3.1.26 NN or VV

进行/VV 密切/JJ 合作/NN 加以/VV 推进/NN 受到/VV 批评/NN 给予/VV 奖励/NN 他 靠/P 墙站着 你不能总是 靠/VV 父母 堂堂正正: VPs时标记为VV 无名之辈、有识之士NPs时候标记为NN

3.1.27 VE or VV

在此标注规范中只有 “有”、“没有”、“无”作为VE。 而具有、具、拥有、富有标记为VV ,而不是VE。

[========]

第四章 每个词性的单词集

4.1

  • 连接动词 :
    • 否则
    • 所以、因此、因而
    • 那么、就、便、结果、则、这样
    • 另外、此外、
    • 进而
    • 随后、然后
    • 以便、从而
    • 例如、如
  • 时态动词:
    • 届时、即将、紧接着
  • 频率动词:
    • 多次(多次/AD 发生/VV)
  • 程度动词:
    • 极为、较、较为。
  • 行为动词:
    • 互利、(互利/AD 合作/VV)
  • 情态动词:
  • 修饰数量的AD(副词)
    • 近/AD ,(不足的意思)
  • 在NP(名词短语)前的AD
    • 又(又/AD 一/CD 个/M 参与者/NN)
  • 短词: -进一步、越来越、尤其是、据称、据悉
  • 其他的:
    • 一起/AD 、另/AD、 正在/AD 、才/AD

4.2 AS

封闭集合: 了、着、过、的

4.3 BA

封闭集: 把、将

4.4 CC

封闭集:

  • ‘和’:与、和、跟、同、及、以及、并、并且、而(大/VA 而/CC 全/VA)、而且、且。
  • ‘或’: 或、或者、还是(去还是/CC 不去)
  • ‘成对CC’: 既/CC … 又/CC, 又/CC… 又… , 不仅/CC … 而且/CC
  • 其他:
    • 至: 九一年 至 九五年
    • 到: 一月 到 三月
    • 兼: 国务委员 兼 科委主任

4.5 CD

它包含基数词和数量词,如: 许多、若干、数、大部分、部分、绝大部分、大多数、大量、大批、多数、多少、多、个把、很多、一些、好几、不少、诸多。 注意: 很多/CD 学生/NN , 学生/NN 很/AD 多/VA

4.6 CS

封闭集合: 如果、如、若、假如、即使、不管、不论、无论、不但、尽管、虽然、虽、只要、只有、一旦。

4.7 DEC

封闭集合: 的、之

4.8 DEG

封闭集合: 的、之

4.9 DER

封闭集合: 得

4.10 DEV

封闭集合: 地

4.11 DT

封闭集合:

  • 限定词:
    • 这些、
    • 这、
    • 此、
    • 该、
    • 本、
    • 那、
    • 那些、
    • 上、
    • 下、
    • 前、(前/DT 7个M 月)
    • 后、
    • 头(头/DT 7个月)
    • 另、
    • 其余、
    • 其他、
    • 其它、
    • 某、
    • 某些
  • 量词:
    • 各、诸、每
    • 何、什么、任何
    • 整: (整/DT 个/M 欧洲)
    • 全:(全/DT 省)
    • 全体、全部
    • 一切、所有
    • 同(同/DT 一天)
    • 有的、有些

4.12 ETC

封闭集合: 等,等等

4.13 FW

4.14 IJ

举例: 嘿 、啊

4.15 JJ

举例: 共同、双边、很大、高科技、有关、老牌(老牌/JJ 军工/JJ 企业/NN) 上述、下列: 上述/JJ 三/CD 国/NN

4.16 LB

封闭集合: 被、叫、给、为

4.17 LC

单元音: 前后左右,中、间、内、外、里、侧。。。。。等 双元音: 之间,以后,以前,以外,以内。。。等 其他: 来,以来,时,起,为止,开始,在内,处,止。

4.18 M

  • 种类: 个,种,批,条,起,组,笔,幢、点
  • 单位: 吨, 公里,平方公里。
  • 货币: 马克 ,澳元
  • 时间单位: 年,天,秒,分钟
  • 衡量单位: 人次,架次,排排。

4.19 MSP

以: 以/MSP 增强总体竞争实力。 而: 为/P 生成下去 而/MSP 不得不采取行动 来、去: 来/去 /MSP 维持 所: 他 所/MSP 需要的 注意:如下的不是MSP:

  • 的话/SP
  • 从而/AD
  • 以便/AD

4.20 NN

之一: (目的/NN 之一/NN) 以N + LC结构: 国内、 海外

4.21 NR

例子:阿根廷、巴西、克林顿

4.22 NT

例子: 1990年、 最后 N+ LC结构作为NT: 战后,赛前,今后,日前,何时, 目前 PN+ LC结构作为NT: 此后/NT

4.23 OD

例子: 第一、首。

4.24 ON

例子: 哗啦啦、刷

4.25 P

封闭集合,大概70个Ps在我们的数据集中。 像VV的介词: 经过、截止、有关、离 像CS的介词: 随着、沿着、鉴于、除了、为了。 像AD的介词: 就/P (就/P 机制/NN 问题/NN)

4.26 PN

封闭集合,大概30个PNs在我们的数据集中。 例子:

  • 人称代词: 他我你它 之我们你们他们等
  • 指代名词: 这,这儿,那,此,这里,那里。
  • 所有格: 其
  • 反身代词: 他自己 、自己
  • 其他: 彼此、大家、对方、双反、自身

4.27 PU

封闭数据集: ,。、!

4.28 SB

封闭数据集: 被、给

4.29 SP

封闭数据集 6个: 了、的、呢、吧、呀、吗

4.30 VA

大约350个VA在我们的数据集中 例子: 便宜、不错、方便

4.31 VC

封闭数据集: 是、为、 非

4.32 VE

封闭数据集: 有,没有,没,无。

4.33 VV

  • 像AD的VV: 是否 /VV
  • 短句: 在座/VV 报以/VV 为期/VV 处于/VV
  • 在AS后的这样那样: 就 这样/VV 吧/SP

[========]附录1

[========] 附录2

词性标记 英文名称 中文名称 示例
AD Adverbs 副词
AS Aspect marker 体标记 了,着,过,的
BA In ba-const 把、将
CC Coordinating conjunction 并列连词 和、与、或、或者
CD Cardinal numbers 数字、基数词 一百
CS Subordinating conj 从属连词 若,如果,如
DEC For relative-clause etc 标句词,关系从句“的” 我买“的”书
DEG Associative 所有格、连接作用“的” 我“的”书
DER In V-de constructive ,and V-de-R V得,表示结果补语的“得” 跑“得”气喘吁吁
DEV Before VP 表示方式状的“地” 高兴/NA地/DEV说/VV
DT Determiner 限定词
ETC Tag for words in coordination phrase “等”,“等等” 科技文教 等/ETC 领域
FW Foreign words 外语词 Intel
IJ Interjection 感叹词
JJ Noun-modifier other thannouns 其他名词修饰语 共同/JJ的/DEG目的/NN 他/PN是/VC男//JJ的/DEG
LB In long bei-construction “被” “被”他打了
LC Localizer 方位词 桌子“上”
M Measure word(including classifiers) 量词 一“块”糖
MSP Some particles 其他结构助词 他/PN所/MSP需要VV的/DEC 所,而、以
NN Common nouns 普通名词 桌子
NR Proper nouns 专有名词 天安门
NT Temporal nouns 时间名词 清朝
OD Ordinal numbers 序数词 第一
ON Onomatopoeia 拟声词 哗啦啦
P Prepositions 介词
PN pronouns 代词 你,我,他
PU punctuations 标点 , 。
SB In long bei-consturction 他/PN被/SB训了/AS
SP Sentence-final particle 句末助词 你好吧/SP吧 呢 啊 吗
VA Predicative adjective 谓词形容词 太阳红彤彤/VA雪白 丰富
VC Copula 系动词 是 为 非
VE as the main verb “有”作为主要动词 有,无
VV verbs 普通动词 喜欢,走
1赞