1)正则篇
环境:ubuntu12.04 + gcc4.4 + vim
c语言正则表达式应用代码实例:
2)最小编辑距离
环境:ubuntu12.04 + gcc4.4 + vim
c语言最小编辑距离代码实例:
3)词汇语义学
a.同形关系
b.同义关系
c.上下位关系
d.整体--部分关系
e.集合关系
涉及算法:
c语言代码实例:
4)词义消歧
环境:ubuntu12.04 + gcc4.4 + vim
1)c语言语料库语义标注排歧代码实例:
2)c语言语料库词性标注排歧代码实例:
3)乔姆斯基生成语言学之选择限制,系统框架图设计:
4)c语言自立语义排歧代码实例:
5)机器学习词义消歧:
c语言之贝叶斯分类器代码实例:
c语言之决策树代码实例:
a)算法ID3:
b)算法c4.5:
c语言凝聚聚类:
5)词典设计:
c语言trie字典树代码实例:
6)统计消歧:
c语言之统计消歧代码实例:
分词算法:
1.c语言分词实例(张华平博士分词原理):
2.c语言分词实例(HMM):
3.c语言分词实例(三元统计模型):
4.c语言分词实例(分词标注一体化模型):
5.c语言分词实例(CRF模型):
6.c语言分词实例(最大熵):
7.c语言分词实例(AB):
词性标注:
1.HMM词性标注c语言代码实例:
2。最大熵词性标注c语言实例:
![]()
环境:ubuntu12.04 + gcc4.4 + vim
c语言正则表达式应用代码实例:
#include <stdlib.h>
2 #include <unistd.h>
3 #include <regex.h>
4 #include <pcre.h>
5
6 #define MAXNUM 5
7 #define BUFFER 1024
8
9 int main(int argc,char **argv)
10 {
11 int err_handle,i;
12 size_t len;
13 regex_t re;
14 regmatch_t pattern_pos[MAXNUM];
15 char matched[BUFFER];
16 char err_buff[BUFFER];
17
18 char str[] = "<strong>machine learning</strong>";
19 char pattern[] = "<strong>(.*?)</strong>";
20
21 err_handle = regcomp(&re,pattern,REG_EXTENDED);
22
23 if (err_handle)
24 {
25 regerror(err_handle,&re,err_buff,sizeof(err_buff));
26 printf("error: %s\n",err_buff);
27 return 1;
28 }
29
30 err_handle = regexec(&re,str,(size_t)MAXNUM,pattern_pos,0);
31
32 if (err_handle)
33 return 1;
34
35 if (err_handle == REG_NOMATCH)
36 {
37 printf("no match
\n");
38 regfree(&re);
39 exit(1);
40 }
41
42 for (i = 1; i <= re.re_nsub; i++)
43 {
44 len = pattern_pos[i].rm_eo - pattern_pos[i].rm_so;
45 memcpy(matched,str + pattern_pos[i].rm_so,len);
46 matched[len] = '\0';
47 printf("match: %s\n",matched);
48 }
49
50 return 0;
51 }
2 #include <unistd.h>
3 #include <regex.h>
4 #include <pcre.h>
5
6 #define MAXNUM 5
7 #define BUFFER 1024
8
9 int main(int argc,char **argv)
10 {
11 int err_handle,i;
12 size_t len;
13 regex_t re;
14 regmatch_t pattern_pos[MAXNUM];
15 char matched[BUFFER];
16 char err_buff[BUFFER];
17
18 char str[] = "<strong>machine learning</strong>";
19 char pattern[] = "<strong>(.*?)</strong>";
20
21 err_handle = regcomp(&re,pattern,REG_EXTENDED);
22
23 if (err_handle)
24 {
25 regerror(err_handle,&re,err_buff,sizeof(err_buff));
26 printf("error: %s\n",err_buff);
27 return 1;
28 }
29
30 err_handle = regexec(&re,str,(size_t)MAXNUM,pattern_pos,0);
31
32 if (err_handle)
33 return 1;
34
35 if (err_handle == REG_NOMATCH)
36 {
37 printf("no match

38 regfree(&re);
39 exit(1);
40 }
41
42 for (i = 1; i <= re.re_nsub; i++)
43 {
44 len = pattern_pos[i].rm_eo - pattern_pos[i].rm_so;
45 memcpy(matched,str + pattern_pos[i].rm_so,len);
46 matched[len] = '\0';
47 printf("match: %s\n",matched);
48 }
49
50 return 0;
51 }
2)最小编辑距离
环境:ubuntu12.04 + gcc4.4 + vim
c语言最小编辑距离代码实例:
3)词汇语义学
a.同形关系
b.同义关系
c.上下位关系
d.整体--部分关系
e.集合关系
涉及算法:
c语言代码实例:
4)词义消歧
环境:ubuntu12.04 + gcc4.4 + vim
1)c语言语料库语义标注排歧代码实例:
2)c语言语料库词性标注排歧代码实例:
3)乔姆斯基生成语言学之选择限制,系统框架图设计:
4)c语言自立语义排歧代码实例:
5)机器学习词义消歧:
c语言之贝叶斯分类器代码实例:
c语言之决策树代码实例:
a)算法ID3:
b)算法c4.5:
c语言凝聚聚类:
5)词典设计:
c语言trie字典树代码实例:
6)统计消歧:
c语言之统计消歧代码实例:
分词算法:
1.c语言分词实例(张华平博士分词原理):
2.c语言分词实例(HMM):
3.c语言分词实例(三元统计模型):
4.c语言分词实例(分词标注一体化模型):
5.c语言分词实例(CRF模型):
6.c语言分词实例(最大熵):
7.c语言分词实例(AB):
词性标注:
1.HMM词性标注c语言代码实例:
2。最大熵词性标注c语言实例: