Набор методов которые позволяют ии системе понимать речь человека
Перейти к содержимому

Набор методов которые позволяют ии системе понимать речь человека

  • автор:

Искусственный интеллект в системах распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фролов В.В., Монастырная В.С.

Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фролов В.В., Монастырная В.С.

Искусственный интеллект как технологическая основа развития банков
Интеллектуальный голосовой помощник Алиса на уроках русского языка как иностранного (уровень а1)
Основные тренды в инновационном развитии финансовых сервисов
Искусственный интеллект в банках сегодня: опыт и перспективы
«Виртуальные собеседники»: перспективы развития телевизионного промодискурса
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS

Тhe article examines the interaction of humans with artificial intelligence in speech recognition systems, its problems, how it works on the example of Siri.

Текст научной работы на тему «Искусственный интеллект в системах распознавания речи»

Секция «Информационно-экономические системы»

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ

В. В. Фролов, В. С. Монастырная Научный руководитель — Д. В. Тихоненко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.

Ключевые слова: искусственный интеллект, обработка естественной речи.

ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS

V. V. Frolov, V. S. Monastyrnaya Scientific Supervisor — D. V. Tkhonenko

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: pricladnaya.i@yandex.ru

The article examines the interaction of humans with artificial intelligence in speech recognition systems , its problems, how it works on the example of Siri.

Keywords: artificial intelligence, natural speech processing.

Искусственный интеллект (ИИ) — это наука, которая изучает и занимается разработкой интеллектуальных машин, которые, реагируя на поступающую внешнюю информацию, выполняют функции человека.

Каждый человек, который, так или иначе, встречался с системой распознавания речи, задавался вопросом: Как «это» понимает меня и дает мне нужную информацию? Когда мы обращаемся к компьютеру (приложению) данного типа, он выполняет огромную работу, которую можно разделить на следующие пункты:

1. Компьютер улавливает колебания воздуха. Речь человека вызывает звук, а звук вызывает изменение движения воздуха, которые компьютер и должен уловить. Когда колеблющийся воздух попадает на чувствительный элемент — барабанную перепонку или микрофон, — он генерирует электрический сигнал благодаря особому устройству этих элементов.

2. Вычисляет из общего шума полезный сигнал (отделяет помехи от голоса). До этого этапа компьютер не может различить помехи и речь — для него они идентичны — набор электрических импульсов. Однако человеческий голос имеет своеобразные характеристики — частоту, высоту, повторение звуков. Применяя математический анализ к имеющимся звуковым данным, можно разделить шум и речь. Но так как помехи часто имеют те же характеристики, что и голос, задача разделения оказывается очень сложной и не всегда успешной. 3. Компьютер анализирует цифровой сигнал и строит осмысленную фразу за счет распознания каждого звука и перевода его в понятную для компьютера цифровую форму. 4. Компьютер начинает «играть» с полученными цифровыми звуками, как с кубиком Рубика, пытаясь построить осмысленную фразу, за счет своих доступных алгоритмов: Из имеющихся звуков он старается построить несколько фраз и из них выбирает наиболее подходящую по смыслу. 5. Компьютер выстроил осмысленную фразу и начинает выполнять команду [1-3].

Например, компьютер получает информацию в виде фраз: «Какая завтра будет погода?» и «Какая завтра будет погода» для него эти фразы будут абсолютно идентичны, но вторая не пройдет 4 и 5 пунктов анализа.

Актуальные проблемы авиации и космонавтики — 2016. Том 2

Одной и самой серьезной проблемой является сложность в понимании. Качества понимания зависит от самого языка и качества речи человека. Помимо проблемы, описанной выше, существуют следующие:

1. Сложность с пониманием того, что имеется ввиду при использованием конкретно местоимений. Например: фразы «Я отдал бананы обезьянам, потому что они были голодные» и «Я отдал бананы обезьянам, потому что они были испорченные « похожи по синтаксической структуре. Понимание этих фраз зависит от знаний компьютера в области обезьян и бананов. 2. Свободный порядок слов, который вызывает дополнительные проблемы в распознавании речи. Например: «Бытие определяет сознание» — что? (грубо говоря, такая реакция возникает у компьютера).

Каждый обладатель продукции Apple встречался с этой программой. Siri — это самая последняя и совершенная разработка искусственного интеллекта в мире. — так о Siri пишет Apple. Данное приложение использует обработку естественной речи(которая была описана выше), чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени. Основные возможности:

— управление смартфоном (Установить будильник и т. п.);

— рекомендация ресторанов, фильмов , а также их бронирование;

— писать в twitter. Facebook;

— указание и построение маршрута и др.;

— ответы на любые вопросы;

— Siri — собеседник, советчик [2-5].

Задав вопрос, он отравляется на сервера Apple, где обрабатывается и направляется к соответствующему сервису. Такому как Google и Bing и не только. Например, для деловых вопросов используются Open Table, Yahoo Local, ReserveTravel и Localeze. Для поиска информации о мероприятиях Siri обращается к Eventful и LiveKick. Если спрашивать Siri о фильмах, то она отвечает, используя информацию с MovieTickets.com и The New York Times. Таким образом, голосовой ассистент от Apple справится с большинством повседневных вопросов, но ключевой особенностью является то, что Siri работает с WolframAlpha.WolframAlpha позволяет Siri давать ответы на самые трудные вопросы, так как это не поисковая система. WolframAlpha позиционирует себя, как: база знаний и набор вычислительных алгоритмов [5].

Благодаря всему вышеперечисленному, Siri удается понимать речь человека и его вопросы, которые он задает в достаточно свободной форме, а не конкретные команды. На презентации в пример приводили вопрос: «Стоит ли мне сегодня взять зонтик». Siri анализирует вопрос и понимает, что ей нужно ответить — какая погода ожидается в этой местности.

Человеку предстоит проделать еще очень долгий и тяжелый путь для усовершенствования Искусственного интеллекта во всех сферах и в сфере распознавания речи в том числе. Система распознавания речи внедряется в нашу жизнь все больше и больше: компьютеры, смартфоны, автомобили, системы безопасности — это лишь малая часть применения ИИ в данной сфере. За этим стоит будущее, изменение и упрощение жизни человека, нужно лишь не переставать направлять все это в нужное русло.

1. Стюарт Рассел/ Питер Норвиг. Artificial Intelligence: A Modern Approach (Искусственный интеллект: современный подход). 2015. 1408 с.

2. Новый век [Электронный ресурс]. URL: http://yvek.ru/ (дата обращения: 06.04.2016).

3. Журнал «Достижения науки, техники и культуры» [Электронный ресурс]. URL: http://scorcher.ru/journal/art/art1449.php (дата обращения: 06.04.2016).

4. Apple [Электронный ресурс]. URL: http://www.apple.com/ru/ios/whats-new/ (дата обращения: 06.04.2016).

© Фролов В. В., Монастырная В. С., 2016

Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей

Как привычные слова изменяют цифровой мир вокруг нас, рассказывает доктор технических наук Владимир Крылов, консультант Artezio.

Современные системы распознавания речи и текста открывают для людей новые возможности, значительно упрощая общение человека и машины. Мы можем отдавать голосовые команды автопилоту, спросить в чате у бота, какая завтра будет погода или получить рекомендации, как улучшить текст для книги. Все это стало возможным благодаря уникальным разработкам ученых и привычным словам, которые искусственный интеллект научился понимать с помощью эмбеддингов.

kaboompics_Typography Book (1).jpg

Термин «эмбеддинг» (от англ. embedding – вложение) — стал часто встречаться в описаниях систем искусственного интеллекта только в последние несколько лет, а впервые появился в работах специалистов по обработке текстов на естественных языках. Естественный язык – это привычный способ общения людей. Например, язык машин – это двоичный код, в который компилируются все другие языки программирования. Однако в нашем случае речь идет именно об обработке естественного языка человека.

Технологии искусственного интеллекта включают в себя обработку текста на естественных языках, сокращённо NLP, то есть Natural Language Processing (не путайте с нейролингвистическим программированием!). Эмбеддинг в NLP означает процесс или, чаще, результат процесса преобразования языковой сущности – слова, предложения, параграфа или целого текста в набор чисел – числовой вектор

В русскоязычной литературе эмбеддингами обычно называют именно такие числовые векторы, которые получены из слов или других языковых сущностей. Напомню, что числовым вектором размерности k называют список из k чисел, в котором порядок чисел строго определен. Например, трехмерным вектором можно считать (2.3, 1.0, 7.35), а (1, 0, 0, 2, 0.1, 0, 0, 7.9) – восьмимерным числовым вектором.

В самой примитивной форме эмбеддинги слов получают простой нумерацией слов в некотором достаточно обширном словаре и установкой значения единицы в длинном векторе размерности, равной числу слов в словаре. Например, возьмем Толковый словарь Ушакова и пронумеруем все слова с первого до последнего. Так слово «абака» преобразуется в число 5, «абажур» — в 7 и так далее. Всего слов в словаре 85 289 слов. Эмбеддинг слова «абака» будет иметь 85288 нулей на всех позициях, кроме пятой, где будет стоять 1, а слово «абажур» — соответственно будет иметь нули на всех 85288 позициях кроме седьмой, где будет единица. Этот метод построения эмбеддингов называют унитарным кодированием, а в современной англоязычной литературе – one-hot encoding.

Любому предложению на русском языке можно попытаться поставить в соответствие последовательность – более правильно с математической точки сказать — кортеж таких 85289-мерных векторов. И тогда действия над словами могут быть преобразованы в действия над этими числовыми векторами, что собственно и свойственно компьютеру. Однако все не так просто. Первая проблема применения таких эмбеддингов, с которой вы столкнетесь, это отсутствие в выбранном словаре слова, для которого ищется эмбеддинг.

Посмотрите в упомянутый Толковый словарь Ушакова – вы не найдете там такого популярного слова как «компьютер». Существенно снизить вероятность такой проблемы можно не используя специальный словарь, а нумеруя слова в произвольном обширном наборе текстов, например, в Википедии, Большой российской энциклопедии. Для этих целей сегодня создаются специальные наборы, называемые корпусами текстов.

Ну, а какие действия над числовыми эквивалентами слов мы хотели бы совершать и зачем? Наверное, для того, чтобы компьютер мог сам без вмешательства человека предпринять какие-то действия в зависимости от содержания имеющегося у него текста. Самый простой пример – это распространённые сегодня мобильные ассистенты – Google Assistant или Siri. Они работают как с голосовыми командами и запросами, так и с текстовыми. В зависимости от содержания запроса ассистент выполняет определённые действия: формирует сводку погоды, запускает программы или производит математическое действие. Однако, использование представительных корпусов (корпус текстов — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка) само по себе не помогает извлечь какую-либо пользу из превращения конкретного текста в кортеж чисел. Ведь любой текст на естественном языке представляет собой не только набор слов, но и несет некоторую семантику, смысл.

Задача научить компьютерную систему как-либо понимать смысл текста, извлекать из него семантическую информацию, используя примитивный эмбеддинг, является неразрешимой. Иными словами, системе нужна дополнительная информация, не только простые значения. Поэтому следующий шаг в обработке текстов был сделан путем учёта того факта, насколько часто каждое слово языка (термин) встречается в корпусе и насколько важно его появление в конкретном тексте. Так возник частотный эмбеддинг, в котором каждому слову в позицию, соответствующую его номеру, ставится в соответствие число — частота слова, а точнее, скорректированное значение частоты. Если для первого понятия все очевидно: для каждого слова в тексте рассчитывается число его вхождений и делится на общее число слов, то второй термин посложнее. Я говорю про обратную частоту документа, а если точнее, то об инверсии частоты, с которой некоторое слово встречается в документах коллекции.

Благодаря данному показателю можно снизить весомость наиболее широко используемых слов (предлогов, союзов, общих терминов и понятий). Для каждого термина в рамках определённого корпуса текстов предусматривается лишь одно единственное значение частоты слова. Показатель обратной частоты будет выше, если определённое слово с большой частотой используется в конкретном тексте, но редко — в других документах. Используя эмбеддинги в виде таких векторов, удалось впервые осуществить автоматический семантический анализ текстов, определяя имеющиеся в корпусе текстов темы и классифицировать тексты по основным темам.

Существует несколько успешно применяемых алгоритмов такого анализа: латентный семантический анализ, латентное размещение Дирихле и тематические модели Biterm для коротких текстов. Использование таких моделей, например, позволило сортировать гигантские потоки электронных писем по тематике и направлять их согласно предписанным правилам. На этом этапе внутри NLP начал формироваться мощный поток технологий, которые получили общую формулировку, как «понимание естественного языка».

В революционной работе Томаша Миколова, исследователя Google, и его коллег в 2013 году было предложено использовать гипотезу локальности: «слова, которые встречаются в одинаковых окружениях, имеют близкие значения». Близость в данном случае – это стоящие рядом сочетающиеся слова. Например, для нас привычно словосочетание «заводной будильник». А сказать “заводной океан” мы не можем — эти слова не сочетаются. Для получения таких свойств нужно строить эмбеддинги слов в высокоразмерном (но не зависящем от числа слов) векторном пространстве. Чтобы каждому слову теперь соответствовал набор из двух-пяти сотен чисел, и эти наборы удовлетворяли свойствам математического векторного пространства.

То есть, чтобы их можно было складывать, умножать на скаляры, находить между ними расстояния и при этом каждое такое действие с числовыми векторами имело смысл как некоторое действие над словами. Все публикации и лекции об эмбеддингах сегодня сопровождает известная картинка, поясняющая сказанное.

pic.jpg

Мы видим, что семантическое отношение «МУЖЧИНА-ЖЕНЩИНА» для эмбеддингов этих слов сводится к наличию некоторого вектора разности между ними, который удивительно сохраняется и для эквивалентного семантического отношения ДЯДЯ ~ ТЕТЯ, КОРОЛЬ ~ КОРОЛЕВА. Это позволяет записать простое математическое соотношение: ЖЕНЩИНА-МУЖЧИНА=КОРОЛЕВА-КОРОЛЬ. Сделаем простое преобразование этой формулы: ЖЕНЩИНА-КОРОЛЕВА=МУЖЧИНА-КОРОЛЬ. И правда, это выглядит справедливым: женщина без звания королевы – то же самое, что мужчина без звания короля. А вот вторая картинка поясняет, что эмбеддинги сохраняют и отношение «один» ~ «много». Миколов назвал метод получения таких эмбеддингов «word2vec».

Он основан на использовании вероятностной оценки совместного употребления групп слов и самообучаемой на корпусах текстов нейронной сети. Идея оказалась плодотворной, и уже вскоре мы были свидетелями построения ещё более изощрённых моделей для получения эмбеддингов как отдельных слов, так и предложений, и целых документов. Это модель GloVe, разработанная в Стэнфорде, fastText, doc2vec – модель, отображающая в числовой вектор целый документ. В последние годы эмбеддинги получают с помощью весьма сложных моделей глубокого обучения для сохранения в свойствах векторов всё более тонких отношений естественного языка. Получаемые результаты настолько впечатляют, что эксперты отметили появление таких моделей как новую эру эмбеддинга.

Понимая всю сложность моделей такого уровня, не могу не удержаться от попытки рассказать, как же все-таки получаются эмбеддинги в самой хайповой сегодня модели BERT, разработанной Google AI Language в 2018 году.

В основе лежит нейроархитектура, называемая Transformer. Каждое слово кодируется уникальным ключом, и последовательность слов подается на так называемую рекуррентную нейронную сеть для предсказания некоторого числового многомерного вектора – эмбеддинга.

BERT может предсказывать не только слова, но и целые предложения. В процессе обучения BERT модель получает пары предложений в качестве входных данных и учится предсказывать, является ли второе предложение в паре последующим предложением в исходном документе. Во время обучения 50% входных данных представляют собой пару, в которой второе предложение является последующим предложением в оригинальном документе, в то время как в остальных 50% входных данных в качестве второго предложения выбирается случайное предложение из корпуса. Предполагается, что случайное предложение будет отсоединено от первого предложения.

BERT можно использовать для самых разных языковых задач, например, модифицируя нейронную сеть.

Результаты применения эмбеддингов BERT впечатляют. Кроме уже привычных оценок тональности текста — позитивных и негативных высказываний, компьютер стал определять наличие сарказма в тексте высказывания, обнаруживать ложь и страх. Это, кстати, уже используется электронными ассистентами. Определение эмоций человека позволяет добиться лучшей коммуникации с машиной. Да и сам человек начинает относиться к программе с большим доверием, в какой-то степени, как к человеку. Вот какие глубокие особенности человеческой психологии удается превратить в алгебраические соотношения эмбеддингов.

Эмбеддинги открыли возможность одновременного оперирования на разных естественных языках. Ведь если построить пространство эмбеддингов предложений и слов на английском и русском языке, то одинаковым семантическим понятиям должны соответствовать одни и те же эмбеддинги. Такое совмещение должно осуществляться в процессе обучения нейропереводчика. Тогда перевод нового текста с английского будет сводиться к его эмбеддингу и декодированию в словах русского языка, на который нужно осуществить перевод. Известны поисковые машины, которые принимают запрос на одном языке и отыскивают информацию на любом языке, используя обратный индекс на основе эмбеддингов.

Перед искусственным интеллектом (ИИ) открыта масса задач не только понимать особенности высказанного человеком и выбирать заранее декларированные возможные решения на их основе, но и строить сами решения. Достижение таких целей в системах искусственного интеллекта осуществляется использованием архитектур с многими нейронными сетями, генетических алгоритмов, деревьев выбора и других. Все они как правило работают эффективно, если данные для них представлены в виде числовых векторов. Это означает, что все данные для искусственного интеллекта следует представлять эмбеддингами.

В последнее время появилось несколько работ, посвященных эмбеддингам сущностей, отличных от лингвистических. Хотя здесь можно и сомневаться, нужно ли интеллекту искусственному, да и естественному, знать какие-то сущности, кроме выраженных средствами языка, естественного или искусственного, но воспринимаемого человеком. В конечном итоге и отношения между сущностями описываются средствами языка, а значит могут рассматриваться равноправно наряду с отношениями слов, предложений и текстов. Все это говорит о том, что путь эмбеддинга для любых сущностей, с которыми должен оперировать ИИ, является перспективным и корректным.

shutterstock_719376568.jpeg

Обратимся к примерам. Например, социальная платформа Pinterest создала и использует 128-мерные эмбеддинги как для сущностей называемых Pin – страницы или изображения из Интернет и сущностей Pinner — пользователей.

В нашей лаборатории ведутся исследования в области использования эмбеддингов для представления правового пространства – статей уголовного кодекса, гражданского кодекса, трудового кодекса, судебных решений совместно с представлением нарративов (повествовательных текстов), описывающих некоторые факты. Уже сегодня нам удалось построить весьма качественный ИИ, который может заменить аппарат суда для квалификации материалов дела на этапе подготовки проекта судебного решения: какие нормативные акты нарушаются в описании фактов, представленных нарративом.

Сегодня всё больше и больше людей занимаются разработкой эмбеддингов. В принципе, уже можно говорить о том, что достаточно универсальный подход может базироваться на идее, что ИИ должен «мыслить» словами, в языковой форме. Другая идея опирается на предположение, что состояния мира могут преобразовываться в эмбеддинги, минуя словесное описание, например изображения или аудиозаписи можно сразу преобразовывать в многомерные вектора.

Если обучать модель для такого эмбеддинга совместно с текстами, то ИИ сможет оперировать как с однородными данными и с картинками, и со словами, и со звуками. Совсем недавно в своей лекции в Беркли Дэн Гиллик из Google предложил строить ИИ для поиска информации размещая все различные объекты / сущности в одном и том же векторном пространстве, независимо от того, составлены они из текста, изображений, видео или аудио.

ИИ на таком принципе сможет отвечать на вопросы, заданные на различных языках, иллюстрациями и звукозаписями, письменно и устно. Какой размерности потребуются эмбеддинги для таких универсальных описаний и достаточно ли структуры и мощности многомерного векторного пространства для сохранения всей необходимой сложности и разнообразия мира, в котором должен работать искусственный интеллект — вопрос текущих и будущих исследований.

Автор: доктор технических наук Владимир Крылов, консультант Artezio

Фото: sitebuilderreport.com, Shatterstock (предоставлено Artezio)

  • Искусственный интеллект научили распознавать депрессию
  • Нейросеть против нейросети
  • Будет ли терять сознание искусственный интеллект?

Современное состояние искусственного интеллекта Текст научной статьи по специальности «Компьютерные и информационные науки»

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / МАШИННОЕ ОБУЧЕНИЕ / РИСКИ ПОЯВЛЕНИЯ СУПЕРИНТЕЛЛЕКТА / РЫНОК СИСТЕМ ИИ / ARTIFICIAL INTELLIGENCE / MACHINE LEARNING / RISKS OF SUPER-INTELLIGENCE APPEARANCE / THE MARKET OF AI SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пройдаков Эдуард Михайлович

В статье приведена краткая история работ в области искусственного интеллекта (ИИ), охарактеризованы направления ИИ, дается общий обзор современного состояния исследований и разработок систем ИИ, перечислены основные тенденции НИОКР в области ИИ, показаны возможности использования систем ИИ в области государственного управления.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пройдаков Эдуард Михайлович

Тенденции развития искусственных нейронных сетей в цифровой экономике
Перспективы нейронных сетей и глубокого машинного обучения в создании решений для здравоохранения
Зарождение и развитие искусственного интеллекта: характеристика исследовательских направлений
Технологии искусственного интеллекта как фактор цифровизации экономики России и мира
Искусственный интеллект в банках сегодня: опыт и перспективы
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Current state artificial intelligence

The article gives a brief history of works in the field of artificial intelligence (AI), characterizes the directions of AI, provides an overview of the current state of research and development of AI systems, lists the main trends of research and development in the field of AI, shows the possibilities of using AI systems in public administration.

Текст научной работы на тему «Современное состояние искусственного интеллекта»

СОВРЕМЕННОЕ СОСТОЯНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Аннотация. В статье приведена краткая история работ в области искусственного интеллекта (ИИ), охарактеризованы направления ИИ, дается общий обзор современного состояния исследований и разработок систем ИИ, перечислены основные тенденции НИОКР в области ИИ, показаны возможности использования систем ИИ в области государственного управления.

Abstract. The article gives a brief history of works in the field of artificial intelligence (AI), characterizes the directions of AI, provides an overview of the current state of research and development of AI systems, lists the main trends of research and development in the field of AI, shows the possibilities of using AI systems in public administration.

Ключевые слова: искусственный интеллект; машинное обучение; риски появления суперинтеллекта; рынок систем ИИ.

Keywords: artificial intelligence; machine learning; risks of superintelligence appearance; the market of AI systems.

Что такое ИИ и немного истории

Искусственный интеллект — что это такое? Наиболее сложной сущностью в мире является человек. Стремление познать сложность человека — существовало всегда и проявлялось в разных формах. Сейчас это стало еще более актуально. Развитие компьютерных технологий привело к появлению множества работ, связанных с попытками научиться распознавать и синтезировать челове-

ческую речь, создать системы технического зрения, которые могут опознавать лица людей не хуже, а уже лучше, чем глаза человека, научить автомашины ездить самостоятельно без водителя-человека и т.д. Системы, проявляющие поведение, свойственное человеку, называются системами искусственного интеллекта (ИИ). На самом деле изучение этих систем — самостоятельное научное направление, объединяющее многие научные дисциплины.

Согласно одному из определений, искусственный интеллект -это наука и технология, включающая набор средств, позволяющих компьютеру на основании накопленных знаний давать ответы на вопросы и делать на базе этого экспертные выводы, т.е. получать знания, которые в него не закладывались разработчиками. Наука под названием «искусственный интеллект» входит в комплекс компьютерных наук, а создаваемые на ее основе технологии относятся к информационным технологиям. Есть множество других определений, менее устойчивых к критике.

Соответственно, системы ИИ определяют как компьютерные системы, использующие в своей работе технологии ИИ. При этом в большинстве случаев до получения результата неизвестен алгоритм решения задачи.

Системы ИИ условно делятся на два класса — сильный (или общий) ИИ и слабый (или прикладной) ИИ. Определим сильный, или универсальный, искусственный интеллект как ИИ, сравнимый с человеческим, т.е. ИИ, который может учиться, как это делают люди, и не уступает по уровню развития большинству людей, а во многих смыслах даже превосходит их. Есть множество более строгих определений, но для понимания данного определения достаточно.

Все остальные системы, в том числе системы ИИ, которые окружают нас сейчас, называются слабым ИИ, поскольку они могут делать только одно дело, например осуществлять поиск по запросам в Интернете, ставить диагноз по конкретному заболеванию и т.д. Помощь такого ИИ делает жизнь более комфортной, а работу — более производительной. Такие системы в ближайшем будущем будут все больше совершенствоваться, уже сейчас многие конкретные виды работ системы с ИИ делают лучше, чем люди. Следует отметить, что в процессе работы над проектами со слабым ИИ проделывается громадная подготовительная работа. Машины учат таким интеллектуальным занятиям, как поиск информации, распознавание речи, обработка естественного языка, распознавание лиц, логический вывод и др. По отдельности это

всего лишь мощные инструменты, но они быстро развиваются, год от года продвигая технологии ИИ вперед и приближая создание сильного ИИ.

В связи со слабым ИИ следует упомянуть о так называемом эффекте ИИ (AI Effect). Он заключается в том, что как только с помощью ИИ реально достигается немыслимый ранее результат, то такую задачу критики перестают считать задачей ИИ, т.е. девальвируют ее значение. Этот эффект сформулирован в формуле Ларри Теслера: «ИИ — это все, что не сделано до сих пор».

Для обеспечения систем ИИ ученым пришлось заняться таким вопросом, как представление знаний, — это позволило создать так называемые экспертные системы (ЭС, системы, которые на основе баз знаний помогают в принятии решений); очень важными стали методы самообучения машин (появились интеллектуальные обучающие системы); попытки повторить работу нервной системы человека. Последнее вылилось в создание искусственных нейронных систем (ИНН). Таким образом, в основе всех исследований по ИИ лежит идея моделирования процессов человеческого мышления с помощью компьютера. Сам ИИ как наука относится к когнитивным наукам, т.е. к наукам, связанным с приобретением (сбором, накоплением, восприятием) знаний.

Предполагается, что ИИ, сравнимый с интеллектом человека, будет иметь неограниченную сферу применения и кардинально изменит наше существование.

В январе 2016 г. основатель Всемирного экономического форума в Давосе Клаус Шваб назвал искусственный интеллект одной из основных движущих сил четвертой промышленной революции. «Эта четвертая промышленная революция идет на нас, как цунами, а ее основной движущей силой являются достижения в области искусственного интеллекта, робототехники, нанотехно-логий, «интернета вещей» и других областей науки».

Сейчас происходит качественный переход от вычислительной эры к эре когнитивной (в терминах футурологов, Second Machine Age), когда компьютеры нового типа быстро учатся работать со структурированными, неструктурированными и нечетко структурированными данными, начинают замещать труд людей при решении большого количества когнитивных задач [2].

Три волны искусственного интеллекта

ИИ имеет уже более чем полувековую историю, в которой были как пики интереса к нему, так и периоды почти полного его исчезновения.

Первые работы по ИИ относятся к 1950-м годам. Начались они с попыток решения двух задач:

1) создание программы для игры в шахматы (в 1954 г. аналитики корпорации REND А. Ньюэлл, Дж. Шоу и Г. Саймон начали писать программу игры в шахматы. Помочь им вызвались А. Тьюринг и К. Шеннон, а также группа голландских психологов. В 1957 г. шахматная программа (NSS) была написана. В основе ее работы лежали эвристики, т.е. правила выбора решения в отсутствие теоретических оснований [23]);

2) создание программ машинного перевода с одного естественного языка на другой. В СССР первые экспериментальные системы перевода с английского и китайских языков разрабатывались в 1954-1957 гг. на ЭВМ БЭСМ-2 в ИТМиВТ под руководством Л.Н. Королёва. В 1954 г. в корпорации IBM под руководством профессора Леона Достерта перевели на английский язык 60 русских фраз на основе словаря, состоящего из 250 пар слов, и шести правил грамматики. Результаты казались многообещающими, но проблема оказалась намного сложнее, чем предполагалось. Суть перевода заключалась в обучении компьютеров не только правилам, но и исключениям, а технические средства компьютеров того времени никак не позволяли реализовать эту задачу. Тем не менее попытки создания таких систем дали мощный толчок развитию математической лингвистики. К этому же периоду относится и появление первых программ для игры в шахматы.

Третьей областью, которая зародилось в то время, а впоследствии получила большое развитие, стало автоматическое доказательство теорем. В 1960 г. появилась программа, которую назвали «Универсальным решателем задач» (GPS), которая позволяла автоматически доказывать теоремы из планиметрии, находить решения алгебраических задач и др. [23].

Среди множества работ по ИИ первой волны следует отметить создание в 1963 г. Джоном Маккарти первого языка для программирования задач ИИ — языка ЛИСП. Появление этого языка открыло функциональное программирование. Заметим, что первые языки высокого уровня (ЯВУ) того времени были процедурными.

Вторая волна ИИ, начавшаяся с конца 60-х годов, была связана с появлением логического программирования (язык Prolog, 1971 г.) и бумом вокруг так называемых экспертных систем (ЭС). Это тоже были зачатки искусственного интеллекта, но в ЭС специалист по управлению знаниями, опрашивая экспертов в предметной области, вручную наполнял базу знаний (БЗ), а машина могла делать логический вывод в рамках того «пони-

мания», которое человек в нее заложил, т.е. полностью отсутствовал такой важный элемент, как самообучение. Кроме того, возникали проблемы с экспертами, которые не делились своими знаниями или переставали это делать, как только понимали, что внедрение ЭС понизит их профессиональный статус, поскольку любой начинающий специалист с помощью ЭС может добиться высоких результатов. Следует отметить, что создание ЭС породило большой интерес к проблеме представления знаний в компьютерных системах. В это время появились семантические сети, системы фреймов, продукционные системы (системы, основанные на правилах) и их комбинации.

Между тем работы над системами машинного перевода текстов продолжались и существенно продвинулись. Развитие таких систем стало особенно актуальной задачей во времена холодной войны, когда в США поступало огромное количество материалов на русском языке, но не хватало человеческих ресурсов для их быстрого перевода. «В 1990-х годах в проекте компании IBM Candide был задействован десятилетний опыт переводов стенограмм заседаний канадского парламента, опубликованных на французском и английском языках, — около 3 млн предложений. Поскольку это официальные документы, их переводы были выполнены с соблюдением чрезвычайно высоких требований. По меркам того времени количество данных было огромным. Эта технология, получившая известность как «статистический машинный перевод», превратила задачу перевода в одну большую математическую задачу» [18]. Однако повышение качества машинного перевода на этом застопорилось.

Ко второй волне относится также создание продвинутых программ для игры в шашки и шахматы. Прошли первые чемпионаты мира по игре машин в шахматы между собой. Здесь следует отметить победу на чемпионате мира в 1974 г. советской шахматной программы «Каисса» (М. Донской, А. Арлазаров, А. Битман, А. Усков). Успех «Каиссы» оказался мировой сенсацией, поскольку все предрекали победу американской программе. Как вспоминал М.В. Донской, «Каисса» играла в силу второго шахматного разряда, т.е. до программ, которые обыгрывают гроссмейстеров, было еще далеко.

Системы первой и второй волны получили шуточное название «старый добрый ИИ», или «символьный ИИ». В целом они были основаны на формальной логике, которая хорошо применима для формализуемых задач, типа логических игр, но в ней трудно представить системы реального мира.

Нынешнее возрождение интереса к ИИ — уже третье по счету и отличается от предыдущих как амплитудой, так и охватом, поскольку сейчас для решения задач ИИ имеются как необходимые технические средства, повсеместно распространившиеся беспроводные сети, Интернет,

так и далеко продвинувшиеся работы в этой области. Начало третьей волне положила знаменитая победа в матче из шести партий американской программы «Дип Блю» (2,5:3,5) над чемпионом мира по шахматам среди людей Гарри Каспаровым.

В программировании в начале третьей волны появилось так называемое генетическое программирование. Оно позволяет, имитируя процесс мутаций, работающий в биологических системах, решать определенные классы задач, например при поиске оптимальных решений.

В области ИИ действует своя мода на то или иное направление. Очень много внимания одно время уделялось программным агентам. Интеллектуальный программный агент — это активная программная или программно-аппаратная система (например, робот), обладающая автономностью в выполнении той функции (или набора функций), для которой она создана. Основные проблемы: коммуникация интеллектуальных агентов, разработка языков для этой цели, координация поведения агентов, распределение ролей в коалициях агентов, коллективное поведение агентов [23].

Для современного этапа характерно очень быстрое развитие технологий искусственных нейронных сетей (ИНС) — сетей, имитирующих работу биологических нейронов живых существ. Простейшая ИНС состоит из трех слоев искусственных нейронов — на первый слой поступают сигналы из внешнего мира, во внутреннем слое они обрабатываются и передаются в выходной слой, в котором формируется результат. Внутренних, скрытых слоев может быть много.

Развиваются на базе новых технологий также и системы, появившиеся во время первых волн развития ИИ, — системы машинного перевода, достигшие вполне приемлемого качества, ЭС и др. В 2006 г. появилась система Google Переводчик, основанная на Больших данных. Корпус из триллиона слов, выпущенный Google в 2006 г., состоял из разбросанных фрагментов интернет-контента. Он стал «обучающим набором», по которому вычислялась вероятность того, что именно последует за тем или иным английским словом. В систему можно добавлять новые слова, которые появляются в естественном языке, и удалять устаревшие. «Ее переводы точнее, хотя и весьма далеки от совершенства: к середине 2012 г. она охватила более 60 языков, а теперь даже способна принимать голосовой ввод на 14 языках для моментального перевода» [18].

Один из вопросов к современной ИИ состоит в том, завершится ли эта третья волна очередным разочарованием и снижением интереса к ИИ, или в результате нынешних колоссальных усилий мирового научного сообщества будет достигнут необратимый прогресс в данной области.

По мнению автора, ставки на ИИ сейчас очень высоки и это направление будет интенсивно развиваться.

Научная дисциплина «Искусственный интеллект» — зонтичная. Внутри ИИ делится на множество направлений. Вот основные из них:

— Машинное обучение (приобретение знаний, анализ данных и порождение гипотез).

— Обработка естественных языков.

— Инструментальные средства ИИ.

Каждая из перечисленных ветвей ИИ в свою очередь делится на десятки других направлений, особенно робототехника (несколько десятков направлений).

Как видим, из-за обширности ИИ ученому невозможно охватить все его ветви, требуется специализация.

Что достигнуто в ИИ к настоящему времени?

1. Громадное количество научных работ по ИИ посвящено компьютерному зрению. Это направление ИИ связано с развитием глубинного обучения (о нем ниже). Впервые компьютеры стали способны выполнять некоторые визуальные задачи классификации лучше, чем люди. Например, заявленная точность назначения оптимального лечения раковых заболеваний легких у компьютера IBM Watson составляет 90%, т.е. превышает на 40% качество диагностики, проводимой врачами-онкологами.

2. Важным понятием в ИИ является «машинное обучение» (его называют также статистическим обучением). Основу данной технологии в 1959 г. заложил Артур Самюэль, когда предложил работать над обучением компьютеров, не используя определенно запрограммированные алгоритмы. В простейшем смысле программа обучается, когда в ней происходит изменение, позволяющее во второй раз выполнить определенное задание лучше.

Машинное обучение — это технология, в рамках которой создается база обучающих примеров, по которой компьютер или нейросеть настраивается (обучается) и затем может правильно распознавать и классифицировать поступающие новые данные, т.е.

это совокупность алгоритмов и методов, позволяющих научить компьютеры делать выводы на основании имеющихся данных. Добавление обучающих примеров позволяет улучшить результаты распознавания. Таким образом происходит как бы самообучение программы. По этой технологии по большой базе фотографий компьютер научили распознавать лица, причем он делает это точнее, чем человек. Настоящий прорыв в обучении машин произошел в начале 2016 г., когда программа Google AlphaGo сумела обыграть в игру го ее абсолютного чемпиона Ли Седоля. Эта игра является наиболее интеллектуально сложной игрой в мире, намного сложнее шахмат (в го доска 19 х 19 клеток и возможных позиций намного больше, чем в шахматах), в которой для победы необходимо не просто перебирать всевозможные ходы. Добиться победы в го над ее чемпионом позволила технология «глубинного машинного обучения» (deep learning, DL), которая сейчас является самым трендовым направлением развития искусственного интеллекта. Этот термин применяемся к искусственным нейронным сетям (ИНС), где используется больше одного скрытого слоя, поэтому формально «глубинный» указывает еще и на более многослойную архитектуру нейронной сети (см. с. 134). Уникальным для глубинного обучения является то, что машина сама находит признаки (ключевые черты чего-либо, по которым легче всего отделить один класс объектов от другого) и структурирует их иерархично: из более простых складываются более сложные. У термина «глубинное обучение» нет формального определения, поскольку он объединяет целую группу различных технологий [29]. Таким образом, компьютер учится на примерах и своем собственном опыте. Программа AlphaGo сначала проанализировала 29,4 млн ходов в 160 тыс. партий профессиональных игроков, а затем две копии программы начали играть одна с другой, добавляя новые партии в обучающую выборку. Сыграв миллионы партий, программа научилась оценивать наиболее выгодное положение камней на доске для достижения победы [12].

Технология глубинного обучения сейчас является неотъемлемой частью исследований в области распознавания речи, изображений, при создании систем управления беспилотными автомобилями, диагностике заболеваний и решении других сложных задач. Развитием технологии глубинного обучения стала реализованная IBM летом 2017 г. технология распределенного глубинного обучения (DDL), позволяющая на порядок сократить время обучения искусственной нейронной сети.

Следует отметить, чего не может современный ИИ и что отделяет его от общего ИИ:

— отсутствует запоминание ранее приобретенных навыков при обучении новым;

— ИИ не может при обучении новым навыкам опираться на ранее приобретенные, т.е. отсутствует обобщение накопленных знаний и использование их в разных контекстах.

Массовое распространение смартфонов породило широкое использование речевых помощников, в которых реализуются элементы ИИ. Такие приложения помогают пользователю в его повседневной деятельности. Среди них такие известные приложения, как Siri (компании Apple), Cortana (Microsoft), Google Now (Google), Echo (Amazon), «Алиса» (Яндекс) и др., которым уже пользуются десятки миллионов людей. Данные приложения реализуются также на планшетах, ноутбуках и персональных компьютерах. Со временем эти программы станут все интеллектуальнее и незаменимее.

Важным направлением работ по ИИ является выявление структуры мозга человека. Такие проекты весьма дорогостоящие, и потому их реализацию могут позволить себе немногие страны и гигантские корпорации.

Анализ структуры мозга — это обратное проектирование, которое предполагает, что сначала нужно разобраться до тонкостей в человеческом мозге, а затем представить то, что мозг делает, в виде аппаратного и программного обеспечения. В итоге ученые надеются создать компьютер, обладающий ИИ человеческого уровня. Несколько громадных проектов (с инвестициями в миллиарды долларов) нацелено на достижение этого результата. Моделированию человеческого мозга посвящен международный проект Human Brain Project (HBP), который ведет команда из швейцарской Федеральной политехнической школы в Лозанне под руководством профессора Генри Маркрама (Henry Markram) и в котором участвует более 100 научных групп со всего мира. Цель проекта — синтезировать все знания, полученные людьми о мозге, в единую полноценную модель мозга внутри суперкомпьютера. Завершение проекта предполагается в 2023 г. Американский проект Brain Activity Map Project («Карта активности мозга», 2013 г.) рассчитан на то, за 10 лет американским ученым удастся зафиксировать и картографировать активность каждого нейрона в человеческом мозге.

Есть еще около десятка менее емких, но не менее важных проектов по изучению мозга. Весьма интересен проект Blue Brain,

базирующийся в Швейцарии, в котором ученые изучают работу ансамблей нейронов. Проект SyNAPSE, финансируемый DARPA и корпорацией IBM, ставит задачу создания физической копии мозга, воплощенной в виде специальных микросхем с искусственными нейронами. Это направление получило название нейроморфная электроника [1]. Аналогичные проекты развивает Китай. Тем не менее в настоящий момент исчерпывающее моделирование мозга невозможно в силу ограниченных возможностей современных суперкомпьютеров (для этого требуется производительность в десятки эксафлопс, т.е. на 3-4 порядка больше нынешней).

Из других глобальных проектов, в которых предполагается использовать методы ИИ и системную аналитику, следует отметить продолжение проекта «Геном человека», в котором планируется определить ДНК-последовательности всех живых существ планеты. Например, Amazon Third Way разрабатывает проект под названием «Банк кодов Земли» [16].

Почему вокруг ИИ такой ажиотаж (ожидания)

1. Проводившаяся более полувека компьютеризация производства и практически всех аспектов деятельности человека породила некоторый тупик, связанный с обработкой и анализом всего растущего объема ежедневно появляющихся данных. По ходу борьбы с ними появились хранилища данных, оперативный анализ данных, облачные вычисления, Большие данные (Big Data). А с другой стороны — новые модные технологии, которые будут генерировать на порядки большие потоки данных, — Интернет вещей, Индустрия 4.0, Общество 5.0 и т.п. Развитие систем ИИ — это стремление перенести высокоуровневую обработку накопленных данных с человека на компьютерные системы, транзисторные и / или нейроморфные. Мировые ИТ-лидеры ведут гонку в создании специализированных процессоров и суперкомпьютеров для обучения нейронных сетей. В идеале их обучение должно происходить в реальном времени, но сейчас это занимает недели.

2. Эра компьютеров как двигателя полупроводниковой индустрии, заканчивается. Сейчас все надежды на то, что таким двигателем станут ИИ и робототехника. Здесь уже сформировались громадные по объемам сегменты: промышленная, сервисная и военная робототехника, беспилотные транспортные средства, медицинская робототехника и др. Однако без систем ИИ полноценное развитие этих направлений невозможно. Таким образом, робото-

техника сейчас сильно стимулирует исследования в области ИИ. Например, появление беспилотных транспортных средств — это потенциально бизнес в триллионы долларов, поэтому все автомобильные гиганты и другие корпорации вкладывают миллиарды долларов в разработку таких систем.

3. Как в свое время расшифровка генома человека дала экономике США 3% прироста ВВП (каждый вложенный в нее доллар принес 140 долл. прибыли), ожидается, что успехи в создании ИИ дадут громадный прирост бизнесу стран, развивающих исследования в этой области. Поэтому ряд стран, в частности Китай, Южная Корея, а также Евросоюз поставили работы по ИИ в ряд важнейших государственных задач.

4. Более конкретно: ожидается, что ИИ приведет к улучшению процессов управления, развитию отношений производителей с потребителями, оптимизации всех бизнес-процессов, совершенствованию планирования и кадровой работы, превращению продуктов в сервисы и смене бизнес-модели многих бизнесов. Пример -компания Uber.

Крайне трудно в наш век неопределенности делать прогнозы. Все перечисленные ниже прогнозы называют сильно завышенные объемы рынка ИИ на ближайшие годы. Рост его, по нашему мнению, будет весьма значительным, но не столь ошеломляющим, как предсказывают аналитические агентства (см. табл.).

Основные области применения систем искусственного интеллекта (%)

Системы исследований и рекомендаций в сфере управления качеством 10,3

Диагностические и лечебные системы 10,0

Автоматизированные службы поддержки клиентов 9,8

Автоматизированные системы предотвращения угроз 9,8

Системы анализа и расследования мошенничества 9,0

Источник: IDC, 2017 [31].

Искусственный интеллект стал ключевым технологическим трендом 2016 г., и объем глобальных инвестиций в него превышает 500 млн долл.

Согласно прогнозу IDC, продажи когнитивных систем и систем искусственного интеллекта в 2017 г. в мире вырастут на 59,3% и достигнут 12,5 млрд долл. [31].

По прогнозам международной исследовательской компании Markets and Markets, к 2020 г. рынок ИИ вырастет до 5 млрд долл. за счет применения технологий машинного обучения и распознавания естественного языка в рекламе, розничной торговле, финансах и здравоохранении.

В агентстве Gartner считают, что к 2020 г. около 40% всех взаимодействий с виртуальными голосовыми помощниками будет опираться на данные, обработанные нейронными сетями [15].

Консалтинговая компания Tractica считает, что динамика ИИ будет основываться на шести фундаментальных технологиях: машинное обучение, глубинное обучение, компьютерное зрение, обработка естественного языка, машинная аргументация и сильный ИИ. Хотя в перспективе 10 лет ИИ-технологии повлияют практически на каждый бизнес, основными драйверами рынка станут секторы потребительских продуктов, бизнес-услуг, рекламы и обороны. Tractica предсказывает рост рынка ИИ с 643,7 млн долл. в 2016 г. до 38,8 млрд долл. к 2025 г. [15].

Ключевым драйвером этого рынка является уход всех процессов как в бизнесе, так и в потребительском сегменте в облака, а также рост влияния Интернета, смартфонов, социальных медиа. Акторами этого рынка являются такие крупные корпорации, как NEC, Google, Honeywell, Hitachi и Qualcomm Technologies. Также присутствует множество меньших по размеру игроков, таких как LTU Technologies, Attrasoft, Blippar и SLYCE, и таких вендоров, как Catchoom и Wikitude.

Мировой рынок распознавания речи оценен BCC Research в колоссальные 90,3 млрд долл. в 2015 г. Ожидается, что этот рынок вырастет с 104,4 млрд долл. в 2016 до 184,9 млрд долл. в 2021 г. со средними темпами (CAGR) на уровне 12,1% за период 2016-2021 гг.

Рынок обработки естественного языка (Natural Language Processing, NLP) оценивается Market And Markets в 7,63 млрд долл. в 2016 г. и вырастет до 16,07 млрд долл. к 2021 г., с CAGR на уровне 16,1%. Основными драйверами компания считает возрастающий спрос на более продвинутый уровень пользовательского опыта,

рост пользования умными девайсами, рост инвестиций в здравоохранение, растущее применение сетевых и облачных бизнес-приложений и рост М2М-технологий.

BoA предполагает, что к 2020 г. рынок ИИ-решений будет эквивалентен 153 млрд долл., из которых 83 млрд долл. составят роботы и робототехника и 70 млрд долл. — аналитические решения на основе ИИ.

В результате так называемая «революция роботов», о которой говорят экономисты и аналитики крупнейших банков, позволит мировой экономике повысить производительность на 30% при снижении производственных затрат на рабочую силу от 18 до 33%. В общей сложности на мировом рынке работает порядка 400 компаний, занимающихся производством робототехники [15].

Гонку за искусственным интеллектом китайцы начали не вчера, а как минимум пятилетку назад — Baidu, Alibaba и Tencent создали центры развития ИИ в это время. Результаты значительные — более 8000 патентов в данной области за 2010-2015 гг. Частный бизнес уже давно участвует в этой гонке [19].

Как видно из приведенных оценок, прогнозы аналитических агентств достаточно пестрые, с большим разбросом показателей, но с хорошими перспективами роста во всех секторах ИИ.

Основные международные программы и центры разработки

Работами в области ИИ сейчас заняты практически все крупные зарубежные компании, университеты и научные агентства. Существует список из более чем 1000 стартапов, работающих в этой области. Лидерами являются такие известные бренды, как Google, IBM, Microsoft, Amazon, Apple, DARPA и др.

Например, огромный скачок в распознавания речи сделала Microsoft, которая объявила, что ее система распознавания речи теперь так же точна, как распознавание речи живым человеком. Довести систему распознавания речь до такого высокого уровня удалось в том числе с помощью метода, разработанного резидентом «Сколково», компанией «ЦРТ-инновации» (группа «Центр речевых технологий»), который был представлен на международной конференции Interspeech сентябре 2016 г. в Сан-Франциско [15].

При этом корпорации тесно сотрудничают с ведущими университетами. Так, в начале сентября 2017 г. IBM объявила о заключении 10-летнего соглашения о партнерстве с университетом

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

на сумму 250 млн долл. В этих работах будут задействованы более 100 исследователей из обеих организаций, которые будут сотрудничать в продвижении ключевых областей в области ИИ, таких как алгоритмы глубокого обучения, взаимосвязь между машинным обучением и квантовыми вычислениями и применение суперкомпьютера Watson в здравоохранении и кибербезопасности.

Китайские программы развития ИИ базируются на широком финансировании исследований в университетах, государственной поддержке работ отечественных компаний, создании в КНР совместных с западными странами исследовательских и разработ-ческих центров. Отметим, что 2017 г., согласно отчету компании CB Insights, Китай впервые обошел США по объему инвестиций в стартапы, разрабатывающие системы искусственного интеллекта. На долю США пришлось 38% мировых инвестиций в ИИ-стар-тапы, а на долю Китая — 48% [7].

Состояние работ по ИИ в РФ

Россия вступила в третью волну ИИ с существенным запозданием.

Финансированием исследований в области ИИ занимаются Российский фонд фундаментальных исследований (РФФИ), Российский научный фонд (РНФ), однако из-за отсутствия координирования работ финансирование исследований и разработок в целом недостаточное и выглядит лоскутным. Наилучшее положение в России сейчас у разработчиков военных роботов.

В РФ в настоящее время разрабатываются проекты по распознаванию речи, распознаванию лиц и распознавании образов, системы автономного вождения автомобилей и др. приложения ИИ.

Крупные российские компании уже используют ИИ для своего бизнеса. C помощью технологий машинного обучения компания МТС прогнозирует желание абонента воспользоваться тем или иным сервисом. Ему делается предложение еще до того, как абонент сам обратится к компании за подключением услуги. Это экономит время клиента и одновременно повышает уровень продаж [32].

«Сбербанк» совместно с МФТИ разрабатывает проект по использованию технологии ИИ в колл-центре. Задача этого проекта, который называется «Нейроинтеллект iPavlov», — разработка алгоритмов глубинного машинного обучения для создания разговор-

ного ИИ. Данная технология должна снизить нагрузку на сотрудников и повысить качество работы с клиентами [32].

Компания «Яндекс» разрабатывает ИИ-приложения для оптимизации производства в промышленности. Кроме того, компанией представлен метод машинного обучения CatBoost — это наследник метода «Матрикснет», который применяется почти во всех сервисах «Яндекса» [32].

Компания ABBYY использует технологии ИИ в решении ABBYY FlexiCapture, универсальной платформе для интеллектуальной обработки информации. Она определяет тип документа, извлекает из него данные и отправляет их в информационные системы: в CRM, в учетные системы, в системы управления закупками [32].

Приложения ИИ разрабатываются для роботов и БПЛА; так, например, разрабатывается ИИ для семейства беспилотников «Фрегат», создаваемых группой «Кронштадт». Академическая и вузовская наука проводит отдельные исследования по тематике ИИ, однако масштабные и скоординированные НИОК по ИИ практически полностью отсутствуют.

Наибольшую озабоченность вызывает состояние обучения когнитивным наукам. По многим из них просто нет квалифицированных преподавателей. Программы обучения катастрофически отстают от потребностей рынка труда.

В целом в стране существует около десятка сильных коллективов, занимающихся ИИ.

Следует отметить разработки Федерального исследовательского центра «Информатика и управление» (ФИЦ ИУ РАН) [23]:

EXACTUS EXPERT — система для семантического поиска и анализа качества научных публикаций;

EXACTUS PATENT — для семантического поиска и анализа патентной информации;

EXACTUS LIKE — для обнаружения близких текстов и вычисления степени семантической близости;

TEXT Appliance — информационно-аналитическая система анализа неструктурированной информации.

Главная проблема в том, что в России очень мало фундаментальных хороших исследований доходят до готового продукта. Существует разрыв между фундаментальной наукой, которая выжила в «лихие 90-е», и реализацией ее наработок в конкретном продукте [17].

Основные направления работ в области ИИ

Работы в области ИИ сейчас ведутся во многих странах и развернуты широким фронтом. Они группируются вокруг следующих направлений.

1. Глубинное обучение. Здесь усилия направлены на существенное сокращение времени обучения нейросети и уменьшение объема обучающей выборки. В идеале нейросеть должна обучаться в реальном времени.

2. Синтез роботом ответов, исходя из того корпуса знаний, который в него загрузили, в привязке к контексту и последовательности слов. Робот должен научиться соотносить поступающую информацию со своей базой знаний и обучаться [20].

3. Разработка нейроморфных микросхем и компьютеров на их базе. Такие микросхемы уже выпустили корпорации IBM и Intel. Пока они содержат до 4096 искусственных нейронов и до 256 млн синапсов, но направление весьма перспективно.

4. Продолжатся работы по картрированию мозга человека и моделированию его работы.

5. Разработка систем распознавания и понимания речи. Многие сервисы используют речевой интерфейс, требующий хорошего распознавания речи. Наряду с этим важно и понимание сказанного пользователем. В этом плане очень важно понимание такими системами контекста сказанного, поскольку контекст -важнейшая часть естественного языка. В этой части исследования также смещаются в направлении разработки систем, способных взаимодействовать с людьми через диалог, а не просто реагировать на стилизованные запросы. Передача поисковым системам и ряду популярных приложений запросов голосом, особенно со смартфонов, уже стала обыденным явлением, и объем таких запросов будет только увеличиваться.

6. Развитие интерфейсов мозг — компьютер. Бурно стартовавшие в этом направлении работы сейчас замедлились, но будут продолжены.

7. Изучение систем группового поведения роботов и взаимодействия роботов и людей в ходе выполнения каких-либо операций. Усилия исследователей направлены на изучение эффективного распределения задач между людьми и машинами. Это направление важно как для военных роботов, так и для сервисных роботов, а также и для производственной сферы.

8. Внедрение ИИ в Интернет вещей (IoT), Индустрию 4.0 и другие современные направления типа цифровой экономики, поскольку обработка громадных объемов данных, генерируемых в таких системах, без ИИ столкнется с большими трудностями.

9. Навигация автономных транспортных средств в среде обитания человека. Это наиболее перспективное с рыночной точки зрения направление должно обеспечить начало широкого внедрения начиная с 2022-2025 гг. беспилотных автомобилей и автомобилей, в которых действия водителя полностью контролируются системой автономного управления.

10. Возможно развитие совершенно нового класса систем типа «человеческий интеллект по требованию», услуги роботов по требованию (RaaS) и т.п.

11. Гиперперсонализация услуг. Так как сейчас пользователь постоянно подключен к сети, то на основе его прошлых данных и модели поведения приложения с ИИ должны будут уметь делать предположения о том, какие сервисы ему следует предложить в данных обстоятельствах, какие решения для него будут оптимальны.

12. Борьба с эффектом «катастрофического забывания». Когда система с ИИ сталкивается с тем, чему она никогда не была обучена, то без переобучения она постоянно будет повторять одни и те же ошибки. Попытка переобучить сегодняшние системы как раз и приводит к феномену, называемому «катастрофическим забыванием», т.е. к ситуации, когда изучение нового предмета нарушает знание ранее изученных вещей [26].

13. Разработка нормативно-правовой базы использования роботов. «Роботы как субъекты права еще законодательно не оформлены ни в одной стране мира, поскольку для этого нужно официально признать, что робот — это не просто вещь, а создание, наделенное пусть и искусственным, но интеллектом, а также собственной волей. Поэтому в мире еще нет законов, которые что-то предписывают либо запрещают роботам напрямую. Перед законодателями лежит отнюдь не простая задача — обеспечить баланс между интересами технического прогресса, безопасности общества и государства, потребностями отдельно взятого человека. В Южной Корее в 2008 г. приняли «Закон о содействии развитию и распространению умных роботов». В феврале 2017 г. Европар-ламентом принята резолюция Civil Law Rules on Robotics — Нормы гражданского права о робототехнике [25].

14. Развитие таких направлений, как понимание текста, рассуждения, основанные на прецедентах, и др.

По мнению ряда экспертов, текущим разработкам в области ИИ не хватает программно-аппаратных средств физического контакта с окружающим миром, для того чтобы складывалось понимание различия или сходства между виртуальным и реальным мирами. Это направление развивается в робототехнике, например тактильная поверхность рук роботов.

Тенденции использования систем ИИ в области государственного управления

1. Наиболее востребован ИИ в силовых структурах, поскольку позволяет полиции анализировать в городах видео с множества камер и разыскивать преступников. Компьютерные программы способны сами формировать документы для прокуратуры и обвинительные заключения.

2. ИИ может оказать серьезное влияние на контроль и управление дорожным движением в городах. В ряде стран такие работы уже проводятся.

3. ИИ для МЧС. Например, управлять работой пожарных, предсказывать развитие пожара.

4. Применение в ИИ в судебной системе. Ассистенты судей.

5. Анализ социальных сетей, чтобы предотвращать возможные антигосударственные акции радикальных группировок.

6. В образовании — отслеживание успехов каждого учащегося, целевая помощь в планировании образования и трудовой карьеры.

7. ИИ в системах поддержки принятия государственных решений в экономике и банковской сфере.

Ключевые вызовы и угрозы развития систем ИИ

Скепсис по поводу безопасного развития искусственного интеллекта (ИИ) подогревается СМИ и подогревался отдельными группами исследователей и бизнесменов, в частности Биллом Гейтсом, Илоном Маском и Стивеном Хокингом.

Популярно утверждение со ссылкой на недавний опрос, проведенный Институтом будущего человека (РН1) из Оксфордского университета в Великобритании, который показал, что «Скайнет» как настоящий искусственный интеллект человеческого уровня

может возникнуть около 2028 г. Можно упорно спорить, будет ли это 2028 или 2035 г., или же событие перенесется на более поздний период, однако сама такая возможность вызвала ряд опасений, публичных дискуссий и появление исследований, впрочем, весьма гипотетических. Здесь верно следующее утверждение: «. расхождение во взглядах ИИ в основном идет по временной шкале: различаются оценки скорости движения, а не его направления. Мало кто сомневается, что машины будут все больше и больше превосходить нас в плане способностей, характерных именно для людей, или же смогут усиливать их посредством кибернетических технологий» [5].

Опасение первое: Полная зависимость от компьютеров

С каждым днем мир все сильнее и сильнее зависит от компьютеров. Во многих автоматизированных системах решение принимают уже не люди, а компьютеры, — люди просто не успевают это сделать. Миллиарды компьютеров и микроконтроллеров (их уже на порядки больше, чем обычных компьютеров) — например, управляющие производственными процессами, системами связи, вооружениями, системами жизнеобеспечения и т.д. — работают автономно, без участия человека. Развитие систем с ИИ приведет к появлению таких систем в качестве руководителей (менеджеров), которые будут руководить работой сотрудников-людей. Плюсы таких решений очевидны — это рост производительности труда и качества продукции, обеспечение безопасности, повышение комфортности жизни и многое другое. Опасения у экспертов вызывает то, что этот процесс цифровизации продолжается и сейчас речь идет об Интернете вещей, Индустрии 4.0 (цифровой экономике). Таким образом, незаметная передача машинам возможности принимать решения продолжается, но последствия данного процесса из-за масштаба системы совершенно не просчитаны.

Опасение второе: Непредсказуемость

Совершенно очевидно, что технический прогресс приводит к неконтролируемому созданию новых и совершенствованию существующих опасных технологий. Судьба и жизнь множества людей (а может быть, и всего человечества) может зависеть от действий небольших групп ученых и разработчиков. Возник специальный термин для обозначения возможного этапа развития технологий.

Технологическая сингулярность — гипотетический момент, по прошествии которого, по мнению сторонников данной концепции, технический прогресс станет настолько быстрым и сложным, что окажется недоступным человеческому пониманию. Основным представителем этой идеи является Рэй Курцвейл, футуролог и изобретатель, автор книги «Сингулярность близко», а ныне технический директор области машинного обучения и обработки естественного языка Google. При этом Курцвейл весьма идеализированно утверждает, что «интеллект по своей природе не поддается контролю».

Данную концепцию поддерживают далеко не все ученые, утверждая, что развитие технологий происходит по S-кривой и в конце прошлого века началось замедление процесса ускорения.

Переход к принятию решений компьютерами был бы безопасным, но основные опасения вызывает непредсказуемость систем, обладающих самосознанием, а также влияние на них разного рода случайностей.

Это осложняется грядущим неминуемым «интеллектуальным взрывом». Всё дело в потенциальной скорости самоусовершенствования ИИ. Множество разговоров, касающихся ИИ, основано на том, что, обладая способностью к самообучению, ИИ с некоторого момента превращается в искусственный сверхразум, опыта переговоров с которым у человечества нет; и, кроме кнопки выключения электропитания, средств воздействия на него также пока не создано.

Опасение третье: Использование боевых роботов

Ссылки на четыре известных закона робототехники писателя-фантаста Айзека Азимова, которым должны подчиняться системы ИИ, вопреки распространенному мнению, не решают проблему (первоначально этих законов было три, потом добавится четвертый «Робот не может нанести вред человечеству»). Уже сейчас понятно, что эти законы не будут реализовываться в каждой ИИ-системе, например в боевых роботах и кибероружии (около 60 стран мира имеют или разрабатывают боевых роботов). Конкретные аргументы против автономных боевых роботов заключаются, например, в том, что они могут игнорировать «белый флаг», означающий намерение сдаться в плен, не смогут достоверно отличить мирных граждан от военнослужащих, что может привести к дополнительным человеческим жертвам при использовании таких роботов во время боевых действий, и др.

Призыв к тому, чтобы прежде чем развивать технологии, которые рано или поздно приведут к созданию сверхразума, поставить вопрос о его отношении к человеку и человечеству, — остается гласом вопиющего в пустыне — слишком большое преимущество получают государства, внедряющие ИИ в робототехнику, системы оружия, медицину, производство и управление. В последнее время в боевых роботах отрабатываются алгоритмы поведения, использующие ложь и обман. Такие методы помогут им обмануть потенциальных врагов — людей и других роботов. Однако при этом возникают этические проблемы, а попадание подобных систем в руки террористов может привести к катастрофическим последствиям.

После того как Китай провозгласил лидерство в ИИ своим национальным приоритетом, между ведущими мировыми державами началась борьба за развитие ИИ.

Опасение четвертое: Социальные риски

Искусственный интеллект несет определенные социальные риски — в первую очередь прогнозируемое исчезновение целого ряда профессий (например, водителей, младшего медперсонала и даже журналистов), разобщение людей, а возможно, даже потерю естественных навыков человека. Развитие техники постоянно идет по пути исключения человека из выполняемых им производственных действий. Процессы эти сложные, потому что с исчезновением старых профессий появляются новые, связанные с новой цифровой экономикой, внедрением и поддержанием новой инфраструктуры. Однако в целом потребности в рабочей силе должны сильно уменьшиться, поскольку машины могут заменить человека в большинстве видов активной (не творческой) деятельности. Интеллектуализация, цифровизация и роботизация могут привести как к появлению в обществе социальной напряженности, так и к внедрению мер для замедления указанных процессов.

Внедрение компьютерных технологий уже привело к изменению ментальности людей — появлению так называемой клиппо-вости сознания, компьютерной зависимости, уходу в виртуальную реальность и другим негативным явлениям. В настоящее время трудно оценить глобальные последствия подобных факторов, но не учитывать их нельзя.

Опасение пятое: Ошибки в системах ИИ

В различных системах, управляемых ИИ, рано или поздно могут проявляться ошибки, допущенные при их создании. Это, в частности, связано с проблемами машинного обучения, поскольку большинство широко используемых методов машинного обучения далеки от совершенства и очень требовательны к данным. Небольшие изменения входных данных могут привести к крупным и странным изменениям в некоторых шаблонах [4]. Поскольку жизни людей все больше доверяются интеллектуальным системам, то проявление ошибок — это только вопрос времени; ошибки будут происходить и при решении ответственных задач, связанных с безопасностью людей. При этом уже сейчас не всегда понятно, каким образом система ИИ выбрала то или иное решение. Для систем с суперинтеллектом такое понимание может оказаться принципиально невозможным, как и исправление ошибочных решений системы.

У органического мозга есть химические и метаболические пределы, ограничивающие его размер и вычислительную мощность. Поэтому, по мнению отдельных исследователей, «в долгосрочной эволюционной перспективе люди и все, о чем они когда-либо думали, станут всего лишь примитивной переходной формой, предшествовавшей более глубокому мышлению новой машино-ориентированной культуры, простирающейся в отдаленное будущее и далеко за пределы Земли» [5]. Понятно, что подобный сценарий касается достаточно отдаленного будущего при отсутствии развития человеческих рас и крайне нежелателен.

«На теме искусственного интеллекта сейчас слишком много спекулируют, и в этом кроется серьезная проблема. Сфабрикованные успехи люди принимают за чистую монету, после чего реальные технологии уже не соответствуют их гиперожиданиям. Сначала робот София ездит по всему миру, якобы самостоятельно отвечая на любые вопросы, хотя на самом деле за нее пишут ответы люди, а потом оказывается, что японский Пеппер, подключенный к суперкомпьютеру Watson, не может ответить на простейший запрос покупателя в магазине. Опять же на волне выступлений Маска об угрозах искусственного интеллекта создается впечатление, что умные машины могут захватить нас уже завтра» [20].

Здесь перечислены только основные риски, но список ими не ограничивается.

Когда-то считалось, что одна из основных философских проблем в области ИИ — возможность или невозможность моделирования мышления человека, т. е. вопрос о том, обретет ли искусственный интеллект сознание. Вопрос уже не совсем гипотетический и очевидно имеющий большое значение для прогнозирования ближайшего будущего не только России, но и большей части жителей планеты Земля. Полувековая история развития ИИ все больше убеждает нас в том, что принципиальных препятствий на пути достижения такого результата нет. Скорее всего, ИИ можно сделать и не на нейросетях. Просто нейросети в некотором плане уже освоенное природой решение.

1. Баррат Дж. Последнее изобретение человечества: Искусственный интеллект и конец эры Homo sapiens. — М.: Альпина нонфикшн, 2015. — 304 с.

2. Белов С., Катькало В. Дефицит искусственного интеллекта. — Режим доступа: https://www.vedomosti.ru/opinion/articles/2017/03/21/681987-defitsit-iskusstvennogo-intellekta

3. Бессмертный И.А. Искусственный интеллект — СПб: СПбГУ ИТМО, 2010. -132 с.

4. Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. — СПб.: Питер, 2017. -336 с.: ил. — (Серия «Библиотека программиста»).

5. Брокман Д. Что мы думаем о машинах, которые думают: Ведущие мировые ученые об искусственном интеллекте. М.: — Альпина нон-фикшн, 2017. — 552 с.

6. Васильева Д. Тенденции в развитии искусственного интеллекта. — Режим доступа: http://robotoved.ru/iskusstvennii_intellket_development/

7. В прошлом году Китай потратил на исследования и разработки 279 млрд долл. — Режим доступа: https://hightech.fm/2018/02/27/279-billion-on-rd

8. Демченко Д. Карта применения технологий искусственного интеллекта: Медицина, образование, транспорт и другие сферы. — Режим доступа: https:// vc.ru/p/ai-map

Что такое обработка естественного языка?

Natural_language_processing_expl-min

Что такое обработка естественного языка?

Обработка естественного языка (Natural Language Processing, NLP) — это набор методов, помогающих компьютерной системе понимать человеческую речь.

NLP является подразделом искусственного интеллекта. Это одна из сложнейших задач ИИ, не решенная в полной мере до сих пор.

Когда появился NLP?

Корни естественной обработки языка уходят в 1950 годы, когда известный английский ученый Алан Тьюринг опубликовал статью «Вычислительные машины и разум», предложив так называемый «Тест Тьюринга». Одним из его критериев является способность машины автоматически интерпретировать и генерировать человеческую речь.

7 января 1954 года ученые Джорджтаунского университета продемонстрировали возможности машинного перевода. Инженеры смогли перевести более 60 предложений с русского языка на английский в полностью автоматическом режиме. Это событие положительно повлияло на развитие машинного перевода и вошло в историю как Джорджтаунский эксперимент.

В 1966 году американский информатик немецкого происхождения Джозеф Вейценбаум в стенах Массачусетского технологического института разработал первый в мире чат-бот «Элизу». Программа пародировала диалог с психотерапевтом, используя технику активного слушания.

Что такое обработка естественного языка?

По большому счету, система перефразировала сообщения пользователя, чтобы создать видимость понимания сказанного. Однако, на самом деле, программа не вникала в суть диалога. Когда она не могла найти ответ, то обычно отвечала «I see» («Понятно») и переводила беседу в иное русло.

В том же году Консультативный комитет по автоматической обработке языков (ALPAC) выпустил отчет и пришел к выводу, что десятилетние исследования не оправдали ожиданий. В результате финансирование машинного перевода резко сократилось.

В течение последующих десятилетий прорывов в области NLP не наблюдалось, вплоть до возникновения первых алгоритмов машинного обучения в 1980 годах. Примерно в это же время появились системы статистического машинного перевода, благодаря чему исследования возобновились.

Бум в области обработки языка пришелся на 2010 годы, когда стали развиваться алгоритмы глубокого обучения. В этот период появилось множество разработок, которыми мы пользуемся и сегодня, такие как чат-боты, автокорректоры, голосовые помощники и прочие. Чаще всего для решения этих задач стали использовать рекуррентные нейронные сети.

Очередная революция в NLP-системах произошла в 2019 году, когда OpenAI презентовала языковую модель Generative Pre-Trained Transformer 2, или GPT-2. В отличие от существующих генераторов, эта нейросеть умела создавать длинные строки связанного текста, отвечать на вопросы, сочинять стихи и составлять новые рецепты.

Спустя год OpenAI показала новую версию GPT-3, а крупные технологические компании одна за другой стали демонстрировать собственные разработки в области крупных языковых моделей.

Как работают NLP-системы?

Для ответа на этот вопрос необходимо обратить внимание на то, как естественный язык используем мы, люди.

Когда мы слышим или читаем какую-либо фразу в нашем подсознании происходит одновременно несколько процессов:

  • восприятие;
  • понимание смысла;
  • реагирование.

Восприятие — это процесс перевода сенсорного сигнала в символьный вид. Например, мы можем услышать конкретное слово или увидеть его написание разными шрифтами. Любой из этих видов получения информации необходимо преобразовать в единый: написанные буквами слова.

Понимание смысла — это самая сложная задача, с которой не всегда справляются даже люди со своим естественным интеллектом. Из-за незнания контекста и неправильной интерпретации фразы могут возникать различные конфузы, а иногда и серьезные конфликты.

Например, в 1956 году в разгар холодной войны между СССР и США глава советского государства Никита Хрущев произнес речь, в которой прозвучала фраза «Мы вас похороним». Американцы восприняли сказанное слишком буквально и расценили это как угрозу ядерного нападения. Хотя на самом деле, Хрущев всего-то имел в виду, что социализм переживет капитализм, а сама фраза является интерпретацией тезиса Карла Маркса.

Инцидент быстро перерос в международный скандал, за что советским дипломатам и генсеку компартии пришлось извиниться.

Именно поэтому очень важно правильно понимать смысл речи, контекст сказанного или написанного, чтобы не допускать таких ситуаций, влияющих на жизни людей.

Реакция — результат принятия решения. Это довольно простая задача, требующая формирования набора возможных ответов на основании смысла воспринятой фразы, контекста и, возможно, каких-то внутренних переживаний.

Алгоритмы обработки естественного языка работают по точно такому же принципу.

Восприятие — это процесс перевода входящей информации в понятный для машины набор символов. Если это текст у чат-бота, то такой входящий набор будет непосредственным. Если это аудиофайл или рукописный текст, то для начала его нужно перевести в удобный вид. С этим успешно справляются современные нейронные сети.

Задачу реагирования на текст также успешно решили путем взвешивания альтернатив и сравнивания результатов друг с другом. Для чат-бота это может быть текстовый ответ из его базы знаний, а голосового помощника — совершение действия с каким-то объектом умного дома, например, включение лампочки.

С пониманием же дела обстоят несколько по-другому и этот вопрос следует рассмотреть отдельно.

Как ИИ-системы понимают речь?

На сегодня распространены такие виды анализа при решении задач понимания языка:

  • статистический;
  • формально-грамматический;
  • нейросетевой.

Статистический широко применяется в сервисах машинного перевода, автоматических рецензентах и некоторых чат-ботах. Суть метода заключается в «скармливании» модели огромного количества массива текстов, в которых установлены статистические закономерности. Потом такие модели используются для переводов текстов или генерирования новых, иногда и с пониманием контекста.

Формально-грамматический подход представляет собой математический аппарат, позволяющий точно и однозначно определить смысл фразы на естественном языке настолько, насколько это возможно для машины. Однако это не всегда удается сделать, так как смысл некоторых фраз неясен даже людям.

Для развитых языков вроде русского или английского точное и детальное описание речи в математических терминах является крайне сложной проблемой. Поэтому формально-грамматический подход чаще используется для синтаксического анализа искусственных языков, из которых специально удаляют неоднозначности при проектировании.

В нейросетевом подходе для распознавания смысла входной фразы и генерации реакции ИИ-системы используются нейронные сети глубокого обучения. Они обучаются на парах стимул-реакция, где стимулом является фраза на естественном языке, а реакцией — ответ ИИ-системы на нем же или какие-либо действия ИИ-системы.

Это очень перспективный подход, но он обладает всеми отрицательными качествами нейронных сетей.

Для чего используются NLP-системы?

Системы обработки естественного языка используются для решения множества задач, начиная от создания чат-ботов и заканчивая анализом огромных текстовых документов.

К основным задачам NLP относятся:

  • анализ текста;
  • распознавание речи;
  • генерация текста;
  • трансформация текста в речь.

Анализ текста — это интеллектуальная обработка больших объемов информации, целью которой является выявление закономерностей и сходств. Он включает в себя извлечение данных, поиск, анализ высказываний, вопросно-ответные системы и оценка тональности.

Распознавание речи — это процесс преобразования текстовых файлов или голоса в цифровую информацию. Простой пример: при обращении к Siri алгоритм в режиме реального времени распознает речь и преобразует ее в текст.

Генерация текста — это процесс создания текстов с использованием компьютерных алгоритмов.

Преобразование текста в речь — это процесс, обратный распознаванию речи. Примером может служить чтение информации из интернета голосовыми помощниками.

Где применяют системы естественной обработки языка?

Существует множество способов использования технологий NLP в повседневной жизни:

  • почтовые службы используют байесовскую фильтрацию спама, статистический метод NLP, который сравнивает входящие сообщения с базой данных и идентифицирует нежелательные письма;
  • текстовые редакторы вроде Microsoft Word или Google Docs используют обработку языка для исправления ошибок в словах не только грамматических, но и контекстных;
  • виртуальные клавиатуры в современных смартфонах могут предугадывать последующие слова в контексте предложения.
  • голосовые помощники вроде Siri или Google Assistant могут узнавать пользователя, выполнять команды, трансформировать речь в текст, осуществлять поиск в интернете, управлять устройствами умного дома и многое другое;
  • приложения специальных возможностей на ПК и смартфонах могут озвучивать текст и элементы интерфейса для слабовидящих людей благодаря алгоритмам синтеза речи;
  • языковые модели с огромным количеством параметров вроде GPT-3 или BERT могут генерировать тексты различной длины в разнообразных жанрах, помогать осуществлять поиск и предсказывать предложение по нескольким первым словам;
  • системы машинного перевода используют статистические и языковые модели для перевода текстов из одного языка в другой.

Какие трудности возникают при использовании NLP-технологий?

Часто при решении задач NLP используются рекуррентные нейросети, обладающие рядом недостатков, среди которых:

  • последовательная обработка слов;
  • неспособность удержать в памяти большой объем информации;
  • подверженность проблеме исчезающего/взрывающегося градиента;
  • невозможность параллельной обработки информации.

Помимо этого, популярные методы обработки часто ошибаются в понимании контекста, что требует дополнительной осторожной настройки алгоритмов.

Большинство этих проблем решают большие языковые модели, однако и с ними есть ряд сложностей. В первую очередь — их доступность. Большую языковую модель, по типу GPT-3 или BERT, сложно натренировать, однако крупные компании все чаще стали выкладывать их в открытый доступ.

Также многие модели работают лишь с популярными языками, игнорируя нераспространенные наречия. Это влияет на способность голосовых алгоритмов распознавать различные акценты.

При обработке текстовых документов посредством технологии оптического распознавания символов многие алгоритмы до сих пор не могут справиться с рукописными шрифтами.

Помимо технологических недостатков, NLP также могут использовать в злонамеренных целях. Например, в 2016 году компания Microsoft запустила в Twitter чат-бота Tay, который обучался общению на примере своих собеседников-людей. Однако спустя всего 16 часов компания отключила робота, когда он стал публиковать расистские и оскорбительные твиты.

В 2021 году мошенники из ОАЭ подделали голос руководителя крупной компании и убедили банковского работника перевести $35 млн на их счета.

Аналогичный случай произошел в 2019 году с британской энергетической компанией. Мошенникам удалось украсть около $243 000, выдав себя за директора компании с помощью поддельного голоса.

Большие языковые модели могут использоваться для массовых спам-атак, домогательств или дезинформации. Об этом предупредили создатели GPT-3. Они также сообщили, что их языковая модель подвержена предвзятости к определенным группам людей. Однако в OpenAI сообщили, что уменьшили токсичность GPT-3, а в конце 2021 года предоставили доступ к модели широкому кругу разработчиков и разрешили кастомизировать ее.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *