Text Segmentation

Text segmentation([,seɡmən'teɪʃən] n. 分割;割断;) ,是指将书面文本划分为有意义单位的过程,如单词、句子,或主题。术语既适用于人类阅读文本时所使用的心理过程,也适用于实现计算机自然语言处理的人工流程。这是比较困难的,虽然有些文字有明确的词边界,如书面英语的词空间和独特的初始和结束;但这种信号在某些语言中有时是模糊的、甚至是不存在在的。

1. Chinese Word Segmentation

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一组同样有序的词单元,就是将连续的字序列按照一定的规范重新组合成词序列的过程。

我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,词并没有一个形式上的分界符;虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

1.1. 技术难点

现有的分词算法可分为三大类:

按照是否与词性标注过程相结合,又可以分为:

1.2. 技术难点

2. Reference


CategoryAlgorithm

MainWiki: Text_Segmentation (last edited 2015-07-20 20:15:57 by twotwo)