安装SRILM工具
安装tcl
下载tcl安装包:tcl8.6.8-src.tar.gz
执行命令并安装:
1 |
|
安装srilm
执行命令安装依赖
1 |
|
下载srilm安装包:srilm-1.7.2.tar.gz
执行命令并安装:
1 |
|
在:# SRILM = /home/speech/stolcke/project/srilm/devel 后一行添加
SRILM = $(PWD)
执行命令查询机器类型
1 |
|
如果结果为x86_64,则对应的需要修改common/Makefile.machine.i686-m64文件
1 |
|
修改:
1 |
|
为:
1 |
|
修改:
1 |
|
为:
1 |
|
执行命令并编译srilm
1 |
|
执行命令修改环境变量
1 |
|
添加:
1 |
|
并生效环境变量
1 |
|
安装完毕!
训练模型
训练模型需要文本原始语料,例如speechocean-train.txt,其内容及格式如下:
一九九六年 雅虎 上市
二零一零年 规模 以上 工业 增长 值 同比 增长 十五点七
一 是 社会 政策 的 缺失 包括 社会 保障 医疗 教育 和 住房
丈夫 刘天恩 称 当时 调解 后 民兵 赔偿 七百 元
上海县 和 闵行区 相继 被 撤销 设 设立 新 的 闵行区
词频统计
执行命令获取1gram词频统计
1 |
|
执行命令获取2gram词频统计
1 |
|
执行命令获取3gram词频统计
1 |
|
执行命令获取4gram词频统计
1 |
|
Ngram模型训练
执行命令训练1gram语言模型
1 |
|
其中speechocean-train-1gram.arpa为生成的语言模型,-interpolate和-kndiscount为插值与折回参数
执行命令训练2gram语言模型
1 |
|
执行命令训练3gram语言模型
1 |
|
执行命令训练4gram语言模型
1 |
|
模型剪枝
对3gram语言模型进行剪枝操作
执行命令剪枝3gram模型,剪枝阈值为0.0000001
1 |
|
执行命令剪枝3gram模型,剪枝阈值为0.0000003
1 |
|
模型质量(困惑度)检查
可以对已经训练的所有模型进行困惑度检查,例如
1 |
|
模型文件压缩
执行命令压缩arpa文件,可以节省存储空间。
1 |
|
模型合并
执行命令,可以将两个已经训练好的arpa模型合并在一起。
1 |
|
其中0.5是融合系数。