Уже упоминался ЦРТ... почему бы Вам действительно не посмотреть в сторону VoiceNavigator'a?
На мой взгляд, для подобных задач это решение намного проще и надежнее.
Интеграция со Астериск предельно проста и все взаимодействие происходит по традиционному MRCP (
http://tools.ietf.org/html/rfc4463 , но Вам скорее всего даже не понадобится с ним разбираться). Грамматики Вы можете составлять сколь угодно сложные. Достаточно знаний принципов XML и периодического обращения к спецификации SRGS (
http://www.w3.org/TR/speech-grammar/).
На хабре был неплохой обзор - погуглите.
Единственным препятствием может стать стоимость продукта (~$1 000 за канал) и мин. поставка 5 каналов + стоимость лицензии на WindowsServer (тоже от $1000). Но платить-то все равно не Вам, не правда ли? ) так почему бы не избавить себя от геморроя? )
Интересный продукт, и по опыту использования могу сказать, что при правильном подходе довольно мощный (как в распознавании, так и в синтезировании).