
Большинство внимания в области генеративного искусственного интеллекта сосредоточено на текстовых интерфейсах, используемых для создания текста, изображений и многого другого. Следующая волна, кажется, будет волной голоса, и она несет с собой много обновлений. В последнем развитии Google сегодня объявил, что начиная со следующей недели добавит Chirp 3 — свои модели речи в текст и HD текст в речь — на свою платформу разработки Vertex AI.
На прошлой неделе Google тихо объявил, что Chirp 3 предложит 8 новых голосов для 31 языка. Примеры использования платформы включают создание голосовых помощников, аудиокниг, разработку поддержки и озвучку видео. Новость была объявлена на мероприятии в офисах DeepMind Google в Лондоне.
Усилия Google приходят в то же время, когда другие также шагают вперед со своей работой по голосовому искусственному интеллекту. На прошлой неделе компания Sesame — стартап, стоящий за вирусными приложениями AI “Maya” и “Miles” с очень реалистичным звучанием — объявила о запуске своей модели для разработчиков, чтобы создавать свои собственные персонализированные приложения и услуги на ее основе.
Следует отметить, что будут установлены ограничения использования вокруг Chirp 3, чтобы предотвратить злоупотребление. “Мы только прорабатываем некоторые из этих вопросов с нашей командой безопасности”, — сказал Томас Куриан, генеральный директор Google Cloud, на сегодняшнем новостном мероприятии.
ElevenLabs — один из крупных стартапов, привлекших сотни миллионов финансирования для расширения своей работы в области голосовых услуг искусственного интеллекта.
Эта новость приведет Chirp 3 в одну линию с новыми версиями своих флагманских LLM, Gemini, которые сейчас находятся на тестировании, а также с ее моделью генерации изображений Imagen и дорогостоящим инструментом генерации видео Veo 2.
Пока не подтверждено, насколько реалистичным будет Chirp 3 по сравнению с некоторыми другими усилиями ИИ создать “человеческие” голоса (особенно выделяется работа Sesame). Но, как подчеркнул генеральный директор DeepMind Демис Хассабис, это остается марафоном, а не спринтом.
“В ближайшем будущем ... эта идея, что [ИИ] — ответ на всё в течение следующих нескольких лет, на мой взгляд, пока не сбудется. Думаю, мы все еще далеки от того, чтобы что-то вроде общего искусственного интеллекта случилось”, — сказал он. “Это изменит вещи ... в течение следующего десятилетия, в среднесрочной и долгосрочной перспективе. Это один из интересных моментов времени.”
Google запустила Vertex AI еще в 2021 году как платформу для разработчиков для создания облачных сервисов машинного обучения. Конечно, это было задолго до взрывного интереса к искусственному интеллекту, и в частности к генеративному искусственному интеллекту, который возник с запуском услуг GPT от OpenAI.
С тех пор компания сконцентрировалась на Vertex AI, частично наверстывая отставание от других компаний, таких как Microsoft и Amazon, которые также создают инструменты генеративного ИИ для разработчиков. Помимо создания генеративного ИИ на основе Gemini, разработчики могут использовать Vertex AI для классификации данных, обучения моделей и настройки моделей для промышленного производства. Интересно, пойдет ли Google на расширение своего огороженного сада для моделей, созданных не только самим Google.
Google долгие годы разрабатывает голосовые сервисы под именем “Chirp”, начиная с использования этого названия как кодового в имени своих ранних усилий по соперничеству со службой Alexa от Amazon.