Gemini Live могло бы использовать больше репетиций

Каков смысл общения с ботом, похожим на человека, если он ненадежный повествователь и имеет безликую личность?

Это вопрос, который я задаю себе с тех пор, как на прошлой неделе начал тестировать Gemini Live, находящееся под эгидой Google, по версии Advanced Voice Mode компании OpenAI. Gemini Live - это попытка создания более увлекательного чат-бот-опыта - с реалистичными голосами и свободой прерывать бота в любой момент.

Gemini Live нацелено на то, чтобы быть интуитивным и вести разговор, настоящий беседу, - сказала ТechCrunch в мае Сисси Хсяо, генеральный менеджер по опыту Gemini в Google. “[Это] может предоставлять информацию более кратко и отвечать более беседно, чем, например, в случае взаимодействия только с текстом. Мы считаем, что искусственный интеллект должен быть способен решать сложные проблемы... и также ощущаться очень естественно и плавно, когда вы его задействуете.”

Проведя достаточное количество времени с Gemini Live, я могу подтвердить, что это более свободное и естественное восприятие, чем предыдущие попытки Google в области голосового взаимодействия с использованием искусственного интеллекта (см.: Google Assistant). Но это не решает проблем основной технологии, таких как галлюцинации и несогласованность, - и вносит несколько новых.

Недосягаемая долина

Фактически Gemini Live представляет собой изысканный генератор речи, установленный над последними моделями генерации искусственного интеллекта Google, Gemini 1.5 Pro и 1.5 Flash. Модели генерируют текст, который движок произносит вслух; непрерывный транскрипт беседы находится в пределах легкой досягаемости от Gemini Live UI в приложении Gemini на Android (а скоро и в приложении Google на iOS).

Для голоса Gemini Live на моем Pixel 8a я выбрал Ursu, который Google описывает как «среднего уровня» и «замученного». (Для меня это звучало как молодая женщина.) Компания говорит, что она работала с профессиональными актерами, чтобы создать десять голосов Gemini Live - и это заметно. Урса действительно шагнул вперед по своей выразительности по сравнению с многими старыми синтетическими голосами Google, особенно со стандартным голосом Google Assistant.

Но Урса и остальные голоса Gemini Live также сохраняют безразличный тон, который далеко уводит от долины недосягаемой. Я не уверен, что это намеренно; пользователи также не могут настраивать высоту, тембр или тембр или даже темп, с которым говорит голос, помещая его в четкое положение против Advanced Voice Mode.