Глава 9

Работа с изображениями в ChatGPT: новые горизонты

Перейдем к одной из самых интересных тем при изучении ChatGPT – к работе с изображениями. Раньше создавать изображения можно было только с помощью специальных нейросетей, генераторов изображений, типа, Midjourney. Но сейчас, после интеграции DALL-E 3 в ChatGPT, появилась возможность напрямую работать и с изображениями. Вот три самые передовые функции, которые получили пользователи ChatGPT Plus:

1. Генерация иллюстраций по текстовому запросу,

2. Распознавание объектов на изображении,

3. Предоставление рекомендаций на основе анализа изображения.

Функция Vizion (компьютерное зрение) в ChatGPT

Как эта штука работает? Если мы откроем ChatGPT4, то в основном режиме есть возможность добавлять файлы, причем, самых разных форматов, в том числе, графические файлы. Например, мой друг купил себе Ханг Драм. Это такой музыкальный инструмент, похожий на летающую тарелку. Он сфотографировал ее и отправил фото в ChatGPT с запросом: «Расскажи, как мне на этой штуке сыграть мелодию „В лесу родилась ёлочка“?». И нейросеть ему рассказала. Ну, не с первого раза, а с третьего, кажется, но он получил полноценную инструкцию по игре на совершенно новом для него инструменте. Супер! Представляете, ChatGPT способен четко распознать объект по фотографии!

Или если я прикреплю свою фотографию, на которой я держу купюры, и попрошу: «Проанализируй фото, расскажи, какие на нем изображены купюры?», от мне ответит. Конечно, ему потребуется немного времени, для того чтобы распознать, что изображено.

Для чего эта функция может нам понадобиться? Например, вы нашли классную фотографию какого-нибудь товара, продукта или услуги. И вы хотите разместить похожую у себя в блоге. Но использовать чужую нельзя, это будет нарушением авторских прав. Зато вы можете попросить нейросеть «перерисовать» изображение, создать для вас нечто очень похожее. И сгенерированной по подобию картинкой вы с полным правом сможете распоряжаться, как захотите: использовать для поста в блоге, разместить у себя на сайте, сделать своим аватаром и т. д.

У других нейросетей, генерирующих изображения, есть еще одна удивительная возможность – создавать полноценные фотосессии. Виртуальные! Мы изучаем этот алгоритм на курсе «Нейропродюсер». То есть, сначала создаются фотографии абстрактного человека в том пространстве, которое вы пожелаете, и в любой одежде. Например, в крутом офисе в деловой одежде, в VIP-салоне самолета, на вершине горы, в сказочной стране в фантазийном костюме и т. д. А потом в эти образцы внедряется лицо конкретного человека. Так что можно, не выходя из дома, сидя в пижаме, побывать на престижном мероприятии в вечернем наряде, путешествовать по джунглям и даже слетать в космос, примерив крутой скафандр. ChatGPT пока этого не умеет. Но скоро будет уметь!

Зато у ChatGPT прекрасно реализована способность запоминать контекст диалога. Ни у одной другой нейросети этого нет, а тут – есть. Например, после того, как он мне определил, какие купюры на фото, я могу следующим запросом прямо в этом же диалоге попросить его нарисовать аналогичное изображение, но в стиле Disney Pixar, то есть, сделать из меня такого мультяшного 3D-персонажа, которого можно использовать для аватара, допустим. И он нарисует!

Что можно сделать с изображениями в ChatGPT

Давайте подытожим, какие задачи мы можем решить с ChatGPT в отношении изображений:

– Создавать картинки, не составляя точный запрос, просто изложив нейросети свою идею,

– Доработать первую версию изображения по запросу, например, дорисовывать недостающие элементы,

– Проанализировать загруженное изображение и скопировать его стиль при создании новой картинки с другим сюжетом.

– Преобразовывать картинку в текстовое описание или в промт для другой нейросети, а затем сгенерировать новое изображение на основе этого описания.

– Создавать логотипы и другие графические элементы для оформления чего угодно.

– Нарисовать иллюстрацию к написанному вами тексту без конкретного запроса. Просто пишете текст самостоятельно или с помощью все того же ChatGPT, а потом просите нейросеть «Нарисуй изображение к этой статье». И все!

Помните, мы обсуждали функцию глубокого анализа? Так вот, создавая новый продукт или дорабатывая уже имеющийся, вы можете сделать фото упаковки или самого продукта, а потом попросить нейросеть провести анализ, спросить, как выглядит эта упаковка с точки зрения потребителей. Информацию о потребителях тоже можно прикрепить к вашему запросу. А после анализа можно запросить рекомендации по доработке визуального оформления! Круто?

Кстати, используя способность ChatGPT создавать изображение по аналогии с предложенным образцом, мы с Сергеем Полонским создавали презентацию нового небоскреба в Дубае. То есть, новый небоскреб мы сначала сгенерировали в нейросети, и на основе этой визуализации началась его реальная разработка! Можете себе представить?!

И это все подтверждает идею, которую я уже озвучивал: тот, кто разбирается в нейросетях, становятся супервостребованным, причем, на топовом уровне. Вон, даже Дмитрий Песков сказал, он не против, чтобы нейросеть вместо него устраивала брифинги в Кремле. Представляете, что происходит?!

Искусство составления промтов – ключ к благополучию в будущем

В завершение этой темы я хочу еще раз напомнить, что нейросети сами по себе ничего сделать не могут. Им нужны четкие инструкции – промты. Если промт составлен неудачно, вы получите в качестве результата вовсе не то, что ожидали. И, как минимум, будете разочарованы. Как максимум – потратите много времени на переделки.

Для того чтобы она давала нужный результат, важно понимать, как формулировать эти промты. А они состоят всегда из нескольких частей. Нельзя просто сказать: «Сделай мне это». Нужно давать больше контекста. И нужно объяснять, в каком формате вы хотите получить результат. Только тогда нейросети будут генерировать вам желаемое и даже превышать ваши ожидания. Это особый навык, которому необходимо учиться!

Неправильные запросы заставляют нейросеть выдавать вам обтекаемые фразы, галлюцинировать и разочаровывать вас. Не потому, что она не умеет, не справляется. Справляется! Просто, нужно знать, как сформулировать свой запрос, чтобы получить результат в один клик.

Сейчас у нас уже наработана технология составления грамотных промтов. Давайте сделаем ретроспективу на 3—5 лет вперед. Что произойдет? Те, кто будут знать, как правильно писать запросы, за один год наберут такое количество опыта, что они станут лучшими специалистами, способными извлекать из нейросетей любые продукты, любой контент. Не упустите свой шанс оказаться в первых рядах специалистов по нейросетям. Начните с бесплатного мастер-класс. .

Я считаю, что навык составления промтов останется ключевым еще долго и будет востребован в ближайшие десятилетия на рынке. Потому что тот, кто знает, как составлять запрос для нейросетей, будет иметь доступ к абсолютно любому интеллектуальному труду, сможет все генерировать в 1 клик. Как вы думаете, готова ли будет компания заплатить солидную сумму человеку, который может делать то, что делал раньше целый отдел? Ответ очевиден!

А в следующей главе поговорим о плагинах для ChatGPT. Потрясающая тема, приготовьтесь!

Глава 9 Работа с изображениями в ChatGPT: новые горизонты

Функция Vizion (компьютерное зрение) в ChatGPT

Что можно сделать с изображениями в ChatGPT

Искусство составления промтов – ключ к благополучию в будущем

Глава 9

Работа с изображениями в ChatGPT: новые горизонты