Для индексации полезных и бесполезных разговоров

notify_ded_bot

Так tools же. Модель подготовит данные и отдаст в tools. Или попросить весь запрос отдать в tools, где в беке будет другая модель, которая сделает всю работу и вернет в первый нужный контекст…
господи, костыли то какие…
и опять же, задержка вернется практически по любому, если только вы не потратили кучу денег на нормальный pipeline…

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.

notify_ded_bot

Приветствую вас, коллеги!
Нужны надёжные люди в новый проект!

notify_ded_bot

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.

В этом плане, да, можно взять tts от elevenlabs, поколдовать и получить хороший голос с эмоцией.
Можно пойти дальше и считать эмоцию клиента(пользователя) и на основании этого отвечать с правильно окрашенной речью.
Сейчас тут на фантазируем

notify_ded_bot

Товарищи, добрый день!

Кто может подсказать, как убрать из бекапа (и восстановления соответственно) модули SoundLang и PM2?
Они восстанавливаются по 10 минут, а толку от них нет нихуя, от первого уж особенно. Я хоть и отключил создание бекапа этого модуля, но один хуй он бекапится и восстанавливается

notify_ded_bot

Дополню, по логам посмотрев, заметил, что оно впринципе потом вылетает с ошибкой «Soundlang->getRemoteFile - Connection timed out after 250001 milliseconds»

То есть оно 4 с хуем минуты что то проверяет, тем самым забивая время на восстановление бекапа и после продолжает дальше восстанавливать

notify_ded_bot

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам

notify_ded_bot

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам

Но, наверное, если получится запараллелить боту процесс запроса во внешней системе с "бормотанием" чего-то в трубку в это время, то и задержки не заметишь)

notify_ded_bot

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам

Причём тут расстояние? Если нужен rag то куда его не грузи у тебя операции последовательные.
Сначала всё распознать -> получить rag -> отправить запрос+rag в нейронку -> отправить на tts.
Сетевые задержки не что по сравнению со скоростью работы нейронок.

Если из этого убрать rag то speech to speech это делает как бы параллельно.

notify_ded_bot

Но, наверное, если получится запараллелить боту процесс запроса во внешней системе с "бормотанием" чего-то в трубку в это время, то и задержки не заметишь)

брюки превращаются, брюки превращаются, брюки превращаются ... в элегантные шорты

notify_ded_bot

Причём тут расстояние? Если нужен rag то куда его не грузи у тебя операции последовательные.
Сначала всё распознать -> получить rag -> отправить запрос+rag в нейронку -> отправить на tts.
Сетевые задержки не что по сравнению со скоростью работы нейронок.

Если из этого убрать rag то speech to speech это делает как бы параллельно.

Ну так а в целом-то в чем проблема? Всё равно его ответ будет быстрее человечков, который для той же операции хорошо если на удержание поставит, а так будет кряхтеть чего-то в трубку

Для индексации полезных и бесполезных разговоров

Cообщение от Telegram-канал spiridonov_dv

Cообщение от Telegram-канал anonymous

Cообщение от Telegram-канал greenarm01551

Cообщение от Telegram-канал pie263

Cообщение от Telegram-канал pie263

Cообщение от Telegram-канал antgulin

Cообщение от Telegram-канал antgulin

Cообщение от Telegram-канал spiridonov_dv

Cообщение от Telegram-канал fish9370

Cообщение от Telegram-канал antgulin