Quantcast
Channel: C++博客-所有随笔
Viewing all articles
Browse latest Browse all 7882

自然语言处理之词汇自动处理

$
0
0
1)正则篇
环境:ubuntu12.04 + gcc4.4 + vim
c语言正则表达式应用代码实例:
 #include <stdlib.h>
  
2 #include <unistd.h>
  
3 #include <regex.h>
  
4 #include <pcre.h>
  
5 
  
6 #define MAXNUM    5
  
7 #define BUFFER       1024
  
8 
  
9 int main(int argc,char **argv)
 
10 {
 
11     int       err_handle,i;
 
12     size_t    len;
 
13     regex_t   re;
 
14     regmatch_t     pattern_pos[MAXNUM];
 
15     char           matched[BUFFER];
 
16     char           err_buff[BUFFER];
 
17 
 
18     char str[] = "<strong>machine learning</strong>";
 
19     char pattern[] = "<strong>(.*?)</strong>";
 
20 
 
21     err_handle = regcomp(&re,pattern,REG_EXTENDED);
 
22 
 
23     if (err_handle)
 
24     {
 
25         regerror(err_handle,&re,err_buff,sizeof(err_buff));
 
26         printf("error: %s\n",err_buff);
 
27         return 1;
 
28     }
 
29 
 
30     err_handle = regexec(&re,str,(size_t)MAXNUM,pattern_pos,0);
 
31 
 
32     if (err_handle)
 
33         return 1;
 
34 
 
35     if (err_handle == REG_NOMATCH)
 
36     {
 
37         printf("no match\n");
 
38         regfree(&re);
        
39         exit(1);
 
40     }
 
41 
 
42     for (i = 1; i <= re.re_nsub; i++)
 
43     {
 
44         len = pattern_pos[i].rm_eo - pattern_pos[i].rm_so;
 
45         memcpy(matched,str + pattern_pos[i].rm_so,len);
 
46         matched[len] = '\0';
 
47         printf("match: %s\n",matched);
 
48     }
 
49 
 
50     return 0;
 
51 }
                                                                                                                                                             


2)最小编辑距离
环境:ubuntu12.04 + gcc4.4 + vim
c语言最小编辑距离代码实例:



3)词汇语义学
a.同形关系
b.同义关系
c.上下位关系
d.整体--部分关系
e.集合关系
涉及算法:
c语言代码实例:

4)词义消歧
环境:ubuntu12.04 + gcc4.4 + vim
1)c语言语料库语义标注排歧代码实例:

2)c语言语料库词性标注排歧代码实例:

3)乔姆斯基生成语言学之选择限制,系统框架图设计:

4)c语言自立语义排歧代码实例:

5)机器学习词义消歧:
c语言之贝叶斯分类器代码实例:

c语言之决策树代码实例:
a)算法ID3:


b)算法c4.5:

c语言凝聚聚类:

5)词典设计:
c语言trie字典树代码实例:

6)统计消歧:
c语言之统计消歧代码实例:

分词算法:
1.c语言分词实例(张华平博士分词原理):

2.c语言分词实例(HMM):

3.c语言分词实例(三元统计模型):

4.c语言分词实例(分词标注一体化模型):

5.c语言分词实例(CRF模型):

6.c语言分词实例(最大熵):

7.c语言分词实例(AB):

词性标注:
1.HMM词性标注c语言代码实例:

2。最大熵词性标注c语言实例:



向东 2013-01-17 23:58 发表评论

Viewing all articles
Browse latest Browse all 7882

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>