Речевые технологии

    Дисциплина: Программирование
    Тип работы: Реферат
    Тема: Речевые технологии

    Перспективы речевого интерфейса

    Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина­ется (в

    который раз). С одной стороны, успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой - несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы,

    стояв­шие еще перед

    родоначальниками речевого ввода. Как бы

    то ни было, продолжат­ся поиски такого интерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с

    компьютером.

    Исследователи недалеко про­двинулись за прошедшие десятки лет, что заставляет некоторых спе­циалистов крайне скептически от­носиться к самой возможности реализации речевого

    интерфейса в ближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем, все зави­сит от того, что следует считать решением этой задачи.

    Построение речевого интер­фейса распадается на три состав­ляющие.

    Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин­формацию. Пока что, на

    нынеш­нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То

    есть эта задача сводится к замене клави­атуры микрофоном.

    Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд

    (скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры или при помо­щи мыши. Пожалуй,

    даже удоб­нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко

    «осмысливать» ес­тественную речь человека и пони­мать, что, к примеру, слова «Хва­тит!» и «Кончай работу!» означа­ют в одной ситуации разные по­нятия, а в другой - одно и то

    же.

    III.

    Третья задача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

    Так вот, из этих трех задач достаточно ясное и окончатель­ное решение существует только для третьей. По сути

    , синтез речи - это чисто математическая за­дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего,

    будет совершен­ствоваться только ее техническая реализация.

    Препятствием

    для

    кон

    чательного решения первой задачи слу­жит то, что никто до сих пор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечь из нее

    те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам

    расскажу позже .. Во всяком случае, после предварительной тренировки современные

    системы распознавания речи работают довольно сносно и делают оши­бок не больше, чем делали

    оптические системы распознавания пе­чатных символов лет пять-семь назад.

    Что касается второй задачи, то она, по мнению большинства спе­циалистов, не может быть решена без помощи систем искусственно­го интеллекта. Последние, как из­вестно, пока не

    созданы, хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых

    . Если же подобные устройства появятся, это будет оз­начать качественный переворот в вычислительных технологиях, и тогда, как знать,

    может быть , мно­гие теперешние подходы к рече­вому интерфейсу вообще окажут­ся ненужными.

    Поэтому пока удел речевого интерфейса - всего лишь дубли­рование голосом команд, кото­рые могут быть введены с клави­атуры или при помощи мыши. А здесь его преимущества весьма

    сомнительны. Впрочем, есть одна область, которая для многих может ока­заться очень привлекательной. Это речевой ввод текстов в компью­тер. Действительно, чем

    стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру

    , чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал» услышанное, а задача перевода речи в текст

    более или менее решена. Недаром большин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованы именно на ввод речи.

    Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузам

    и, монотонно, как это требуется

    для системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при

    наличии вдох­новения, раза в два-три медлен­нее, а без

    оного - медленнее раз в пять, так что скорость «ввода» и

    при ди

    ктовке

    и при работе

    на кла­виатуре у меня абсолютно

    одинакова. Но вот сочинять и

    одновременно выговаривать

    сочиняемое с

    четкой

    артикуляцией

    , хоть убей, те не смогу.

    Первый - и, пожалуй, основ­ной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства,

    вопреки устоявше­муся мнению, является задачей далеко не тривиальной. Сложив­шаяся практика применения ком­пьютеров вовсе не способствует широкому внедрению речевого

    интерфейса.

    Для подачи команд, связан­ных с позиционированием в про­странстве, человек всегда поль­зовался и будет пользоваться жес­тами, то есть системой «руки- глаза». На этом принципе

    построен современный графический ин­терфейс. Перспектива замены клавиатуры и мыши блоком рас­познавания речи абсолютно от­падает. При этом выигрыш от воз­ложения на него части функций

    управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьюте­рах на протяжении уже более три­дцати лет. Именно таким сроком

    оценивается существование ком­мерчески применимых систем распознавания речи.

    Для иллюстрации своих аргументов возможно, несколько спор­ных утверждений рассмотрю перспективу и основные пробле­мы применения систем речевого ввода текстов,

    особенно активно продвигаемых в последнее время.

    Для сравнения: спонтанная речь произносится со средней ско­ростью 2,5 слов в секунду, про­фессиональная машинопись - 2 слова в секунду, непрофессио­нальная - 0,4. Таким образом,

    на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктов­ки в реальных условиях снижается до 0,5-0,8 слова в

    секунду в связи с необходимостью четкого произ­несения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждаю­щихся в корректировке.

    Речевой интерфейс естественен для человека и обеспечивает допол­нительное удобство при наборе тек­стов. Однако даже профессиональ­ного диктора может не обрадовать перспектива в

    течение нескольких часов диктовать малопонятливому и немому

    (к этому я еще вернусь) ком­пьютеру. Кроме того, имеющийся опыт эксплуатации подобных сис­тем свидетельствует о высокой веро­ятности з...

    Забрать файл

    Похожие материалы:


ПИШЕМ УНИКАЛЬНЫЕ РАБОТЫ
Заказывайте напрямую у исполнителя!


© 2006-2016 Все права защищены