Итак, первой возможностью системы ИИ «Кандинский» (так и хочется по устойчивой студенческой привычке добавить – «Клерамбо») заявлена возможность генерации изображения по тексту. Поскольку считается, что каждый художник имеет право видеть мир по-своему, качество генерации картинок оставим пока за рамками обсуждения. Важным с точки зрения применения ИИ в медицине является то, что генерация изображения по тексту подразумевает смысловое распознавание произвольного текста на естественном языке, т.е. адекватное понимание письменной речи человека. В медицине накоплены огромные массивы текстовых данных, к которым на сегодня вследствие их неструктурированности возможен лишь «ручной» непроцедурный доступ. Поэтому понятен интерес к средствам и методам, которые позволили бы семантически анализировать тексты на естественном языке для извлечения информации, нужной для решения задач в определённой предметной области. Отличительной чертой ИИ должно являться распознавание смысла сказанного, или, в более узком значении, чувствительность к контексту речи. Посмотрим, как с этой способностью обстоит дело у Сбербанка. При этом будем исходить из того, что научиться распознавать смысл сложных и неоднозначных медицинских текстов труднее, чем смысл бытовой речи, которая и применяется во взаимодействии с «Кандинским».
Итак, попытка первая. Опция «Генерация (изображения) по тексту», режим «Без стиля». Запрос — «Студентка 5-го курса в ресторане». Посмотрим на результат генерации. Не будем цепляться к мелочам вроде отсутствия на изображении общепризнанных признаков ресторана, или наличия у сидящего за столом человека имплантата стопы вместо левой кисти. В конце концов, бывают концептуальные рестораны и люди с пересаженной стопой в качестве их клиентов. Но вот различать пол человека по тексту запроса, коль скоро соответствующая информация в тексте содержится, ИИ обязан. Что же, посчитаем, что ИИ выдал нам изображение студентки-трансгендера, либо различение понятий «студент» и «студентка» является для Сбербанка слишком сложной задачей. Попробуем указать пол человека в тексте явным образом.
|
|
Попытка вторая. Режим «Без стиля», запрос — «Пьяная женщина-бухгалтер на корпоративе». Результат приведён. Как видим, никаких признаков понимания искусственным интеллектом того, что женщина-бухгалтер это женщина, обнаружить не удаётся. Возможно, кто-то скажет, что для современного изобразительного искусства это неважно. Для искусства в целом, может быть, и неважно, а вот для заказчика художественного творчества — уже весьма. Как говорил Мартин Иден в известной дискуссии с бакалавром искусств — «Всякое искусство условно. Но и в условности должна быть реальность. Деревья, намалёванные на картоне и стоящие по бокам сцены, мы считаем лесом. Это условность, но достаточно реальная. Но ведь изображение моря мы не будем считать за лес. Мы не можем этого сделать. Это значило бы насиловать все наши чувства». Добавить в этом смысле что-то к словам классика просто нечего.
|
|
Как известно, Сбер это команда эффективных технократов. В таком случае, может быть и обученная технократами нейросеть лучше распознает текст технической направленности? Поскольку на дворе месяц май, попросим в тексте запроса прямо и недвусмысленно нарисовать оружие Победы, указав конкретное изделие. Запрос — «Ла-5ФН», режим «Без стиля». Результат выполнения запроса — нечто, напоминающее самолёт, с развёрнутой назад кабиной пилота, какой-то напоминающей секущую часть газонокосилки намоткой вместо пропеллера, красными пятнами вместо пятиконечных звёзд, и ассиметричными плоскостями. Под фюзеляжем видим что-то невразумительное — то ли абстрагированные обтекатели выпущенных шасси, то ли поплавок, по случайности попавший на истребитель от гидросамолёта. Однако! Всё же сам Кожедуб на Ла-5ФН летал… Может, нейросети Сбера недоступна визуальная информация об этом изделии? Попробуем навскидку загуглить поисковое предписание «Ла-5ФН» в Яндекс-картинках. Получаем в топе более 2 тыс. результатов в виде совершенно реалистичных изображений. Впрочем, бывает всякое, в том числе и такое, что обучение «Кандинского» проводили гуманитарии-пацифисты. Или биохакеры. В этом случае «Кандинский» должен хорошо понимать смысл текстов в гуманитарной сфере, например, в литературе и искусстве. Выдыхаем, и продолжаем эксперимент.
|
|
Попытка четвёртая. Режим «Без стиля», запрос — «Дама пик». Как вы думаете, что имеет в виду обычный пользователь, просящий систему ИИ изобразить даму пик? А вот «Кандинский», несмотря на свою акцентированную склонность к абстрагированию, думает, что пики могут быть только горными. У него что, как минимум, словаря вариантов значений нет? Хотя, такой словарь при демонстрируемой неспособности распознавать контекст может и не помочь. Для контроля загуглим «дама пик» в яндексе. В топе — карточные дамы, Пушкин, фильм, мюзикл, спектакль. В Яндекс-картинках — те же сущности, только в виде кадров из постановок, иллюстраций к ним, и фотографий игральных карт. Получается, что поисковик яндекса понимает контекст простейшего запроса из двух слов, а «Кандинский» — нет.
|
|
Поскольку интеллект Сбера не может воспользоваться возможностями Яндекса, остаётся предположить, что «Кандинскому» в принципе недоступен интернет, и он не может воспользоваться правилом «не знаешь — загугли». В любом случае, это нехорошо. В бессмертном фильме о весне Вальтер Шелленберг как-то произнёс — «Маленькая ложь рождает большое недоверие». Как медицинское сообщество может рассчитывать, или хотя бы надеяться на адекватное структурирование унаследованных медицинских текстов нейросетями, если доступные демонстраторы технологий неспособны адекватно распознать куда более простую и однозначную бытовую речь? |