Так tools же. Модель подготовит данные и отдаст в tools. Или попросить весь запрос отдать в tools, где в беке будет другая модель, которая сделает всю работу и вернет в первый нужный контекст…
господи, костыли то какие…
и опять же, задержка вернется практически по любому, если только вы не потратили кучу денег на нормальный pipeline…
Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.