VIDEOCHAT  ::   FAQ  ::   Поиск  ::   Регистрация  ::   Вход

Для индексации полезных и бесполезных разговоров

Разговоры на кухне

Модераторы: april22, Zavr2008

notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал spiridonov_dv

Сообщение notify_ded_bot »

Так tools же. Модель подготовит данные и отдаст в tools. Или попросить весь запрос отдать в tools, где в беке будет другая модель, которая сделает всю работу и вернет в первый нужный контекст…
господи, костыли то какие…
и опять же, задержка вернется практически по любому, если только вы не потратили кучу денег на нормальный pipeline…

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал anonymous

Сообщение notify_ded_bot »


Приветствую вас, коллеги!
Нужны надёжные люди в новый проект!
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал greenarm01551

Сообщение notify_ded_bot »

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.

В этом плане, да, можно взять tts от elevenlabs, поколдовать и получить хороший голос с эмоцией.
Можно пойти дальше и считать эмоцию клиента(пользователя) и на основании этого отвечать с правильно окрашенной речью.
Сейчас тут на фантазируем
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал pie263

Сообщение notify_ded_bot »


Товарищи, добрый день!

Кто может подсказать, как убрать из бекапа (и восстановления соответственно) модули SoundLang и PM2?
Они восстанавливаются по 10 минут, а толку от них нет нихуя, от первого уж особенно. Я хоть и отключил создание бекапа этого модуля, но один хуй он бекапится и восстанавливается
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал pie263

Сообщение notify_ded_bot »


Дополню, по логам посмотрев, заметил, что оно впринципе потом вылетает с ошибкой «Soundlang->getRemoteFile - Connection timed out after 250001 milliseconds»

То есть оно 4 с хуем минуты что то проверяет, тем самым забивая время на восстановление бекапа и после продолжает дальше восстанавливать
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал antgulin

Сообщение notify_ded_bot »

Об этом и речь и тогда теряется весь смысл от speech to speech который я вижу в отсутствии задержек в общении. Остальные преимущества в виде человеческого голоса... Мне кажется сомнительным, может ошибаюсь.

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал antgulin

Сообщение notify_ded_bot »

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам

Но, наверное, если получится запараллелить боту процесс запроса во внешней системе с "бормотанием" чего-то в трубку в это время, то и задержки не заметишь)
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал spiridonov_dv

Сообщение notify_ded_bot »

Человеческого голоса там нет и это даже хорошо. А по задержкам всё зависит от "расстояния" между узлами.
Я сегодня немного покопался с этим сипом. Так вот там только сигнализация, звук в виде события response.audio.delta получаешь через ws подключения и дальше его надо транслировать
Не нашел пока информацию про то можно ли использовать векторные хранилища openai для базы знаний, чтобы функция потом к ним обращалась
А так пока получается что как минимум два узла :
1. Сервер опенаи (где по факту stt - ai - tts)
2. Локальный скрипт который получает аудио и даёт инструкции боту
И дальше если условный RAG или MCP - это еще одна внешняя система (та же CRM) , то вот ещё один географически удалённый узел дающий + к задержкам

Причём тут расстояние? Если нужен rag то куда его не грузи у тебя операции последовательные.
Сначала всё распознать -> получить rag -> отправить запрос+rag в нейронку -> отправить на tts.
Сетевые задержки не что по сравнению со скоростью работы нейронок.

Если из этого убрать rag то speech to speech это делает как бы параллельно.
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал fish9370

Сообщение notify_ded_bot »

Но, наверное, если получится запараллелить боту процесс запроса во внешней системе с "бормотанием" чего-то в трубку в это время, то и задержки не заметишь)

брюки превращаются, брюки превращаются, брюки превращаются ... в элегантные шорты
notify_ded_bot
Сообщения: 1
Зарегистрирован: 19 ноя 2024, 14:03

Cообщение от   Telegram-канал antgulin

Сообщение notify_ded_bot »

Причём тут расстояние? Если нужен rag то куда его не грузи у тебя операции последовательные.
Сначала всё распознать -> получить rag -> отправить запрос+rag в нейронку -> отправить на tts.
Сетевые задержки не что по сравнению со скоростью работы нейронок.

Если из этого убрать rag то speech to speech это делает как бы параллельно.

Ну так а в целом-то в чем проблема? Всё равно его ответ будет быстрее человечков, который для той же операции хорошо если на удержание поставит, а так будет кряхтеть чего-то в трубку
Ответить
© 2008 — 2025 Asterisk.ru
Digium, Asterisk and AsteriskNOW are registered trademarks of Digium, Inc.
Design and development by PostMet-Netzwerk GmbH