Режим Бога в Midjourney

Цей матеріал є текстової версією відео-уроку Midjourney: Режим Бога 2 та Володар Midjourney

Вступ

Мене звати Стас Бєляєв, і сьогодні я навчу вас використовувати нейромережу Midjourney як професіонал. Ви дізнаєтесь про всі налаштування, моделі, отримаєте якісні промпти для різних типів завдань та багато іншого.

Початок роботи

Коротко про головне. Працює нейромережа у месенджері Discord. Тепер тільки за гроші — вартість підписки коливається від 10 $ на місяць за 200 зображень до 120 $ на місяць за 60 GPU-годин генерації. Генерувати можна у двох місцях. На сервері Midjourney в чатах newbies, де тусуються тисячі новачків, або на власному сервері в Discord, куди можна додати бота для взаємодії з ним тет-а-тет.

Щоб надіслати запит на генерацію, введіть у текстове поле команду /imagine prompt, після чого вкажіть ваш промпт, тобто підказку англійською мовою, яка описує зображення. У деяких випадках перед текстовою підказкою можна додати посилання на зображення, яке використовуватиметься як референс. Також іноді в кінці промпту додаються параметри — для управління такими характеристиками, як співвідношення сторін, якість, стилізація і так далі.

Надсилаємо запит і протягом хвилини отримуємо 4 зображення, під якими знаходиться 9 клавіш:

U-1-2-3-4 — це upscale, тобто збільшення вибраного зображення.

V-1-2-3-4 — це variations, тобто ще 4 схожі картинки на основі обраної.

Стрілки — це Refresh, тобто повторна генерація цього запиту.

Коли ви отримали відповідне зображення, ви можете відкрити його за посиланням для збереження в оригінальній якості.

Налаштування

У цьому блоці ми розглянемо інші команди, окрім /imagine prompt, які є у Midjourney.

Найголовніша команда — це /settings. Відправивши її, ви отримаєте доступ до панелі налаштувань, де можна обрати модель, рівень стилізації та різні режими.

На момент запису уроку крайня версія моделі — 5.2, вона генерує якісні зображення, знає безліч стилів, створює реалістичні обличчя знаменитостей, непогано справляється з пальцями і в цілому є квінтесенцією нейрогенерації на даний момент.

Модель RAW працює за активної версії 5.1 і вище. Основна її відмінність — вона позбавлена фірмового стилю Midjourney та генерує менш стилізовані зображення. Підходить для створення в стилі фотореалізм.

Попередня версія 5.1 є більш стабільною і в деяких ситуаціях може справлятися із завданням ефективніше, ніж поточна бета.

Версія 5 генерує схожі зображення, але основна її відмінність не в візуалі, а у складанні промпту — він повинен бути більш деталізованим і творчо описувати зображення, ніби ви спілкуєтеся з ChatGPT.

4 версія зробила прорив у нейромережах восени 2022 року, вперше серед аналогів навчившись генерувати свідомі зображення з безліччю стилів. Вона не дуже добре генерує реалізм і зовсім погано справляється з пальцями, але абстрактні малюнки, як і раніше, генерує дуже добре, навіть у порівнянні з новими моделями.

3, 2 і 1 версії Midjourney є ранніми і на сьогоднішній день досить застаріли.

Версії Niji 4 та 5 створені виключно для генерації у стилі аніме. Може бути дуже корисним для фанів японської культури.

Параметр Stylize відповідає за те, наскільки творчим буде створення зображення. За замовчуванням значення усереднене, низьке значення може бути менш витонченим, але більш відповідним до вашої підказки. Високе значення відхилятиметься від підказки на догоду креативності. Докладніше ми розглянемо Stylize у блоці «Параметри».

Public та Stealth mode

За замовчуванням у вас увімкнено Public Mode. Це означає, що ваші згенеровані зображення буде видно іншим користувачам щонайменше на вашій сторінці в Midjourney. Stealth mode доступний для підписки Pro і дозволяє приховувати зображення із загального доступу.

Remix Mode

Remix Mode – це режим, який дозволяє генерувати зображення на основі існуючих. Завдяки йому, використовуючи клавіші Variations або Refresh, ви зможете відредагувати промпт перед створенням нових варіацій зображень. Рекомендую увімкнути його, оскільки це дуже корисний інструмент. Також цей режим відноситься і до референсних зображень, які можна вказати посиланням перед текстовим промптом. Але в цьому випадку включати його не обов’язково – референсні посилання працюватимуть і без нього.

High Variations Mode генерує більш різноманітну сітку з чотирьох зображень, тоді як Low Variations Mode генеруватиме 4 більш схожих один на одного картинки. Більш детально управляти варіативністю можна за допомогою параметра Хаос, про який я розповім трохи згодом.

Інші команди

Команда /info дозволяє дізнатися про стан вашої підписки, у тому числі кількість витрачених GPU-хвилин.

Команда /describe дозволяє завантажити будь-яке зображення та отримати 4 промпти, що описують це зображення. Цей інструмент дозволяє легко повторити платні стікові зображення в Midjourney, і в цілому допомагає новачкам краще засвоїти промпт-інжиніринг.

Команда /shorten дозволяє проаналізувати ваш промпт і показує, які слова може усунути, оскільки вони не впливають або негативно впливають на результат.

Команда /blend дозволяє швидко змішувати від 2 до 6 зображень, подібно до Remix Mode, але без посилання і текстового промпта. Перше зображення зазвичай береться за основу, інші використовуються для стилізації.

Параметри

Всі параметри, за винятком ваги та поділу двокрапками, вказуються в кінці промпту та починаються з двох дефісів.

-ar, тобто aspect ratio дозволяє вказати необхідне співвідношення сторін. За промовчанням усі зображення генеруються 1:1 (1,2), що дає зображення у форматі квадрата. Починаючи з 5 версії Midjourney, ви можете вказати практично будь-яке співвідношення сторін. Найпопулярніші – це 16:9, кіно-формат, як це відео. А 9:16 – це формат вертикальних відео в TikTok, Reels або Shorts. Вертикальні фотографії в Інстаграм – це 4:5, а старий телевізійний формат – це 4:3. Докладніше про формати зображень ви можете прочитати в Інтернеті.

-–no дозволяє вказати негативний промпт, тобто елементи, яких має бути на зображенні. Наприклад, ви хочете позбавитися певного кольору, об’єктів або людей у кадрі — вкажіть назву цих елементів у негативному промпті і Midjourney постарається їх уникнути.

-–s (додається серія зображень від 0 до 1000) або Stilyze дозволяє регулювати рівень стилізації зображень. За замовчуванням, зображення використовують середній рівень стилізації — це означає, що нейромережа намагатиметься додати творчі елементи, яких ви не вказували в запиті, щоб не спотворити результат, але зробити його більш креативним. Вищі значення, аж до тисячі, дозволяють нейромережі видавати більш творчі результати, які не завжди співпадатимуть з вашим промптом. Низькі значення, аж до 0, змусять нейромережу точніше дотримуватися вашого запиту, не дозволяючи їй додавати у зображення щось креативне.

-–c або Хаос дозволяє впливати на те, наскільки сітка шумів у 4 зображеннях відрізнятиметься. За промовчанням використовується значення 0 і ви можете помітити, що зображення з сітки завжди близькі за стилем та композицією один до одного. Якщо вказати високе значення, аж до 100, то 4 зображення в сітці будуть помітно відрізнятися один від одного.

-–q або Quality дозволяє керувати деталізацією промальовування зображень, а також безпосередньо впливає на кількість GPU-хвилин, що списуються з вашої підписки. За замовчуванням використовується значення 1 і його можна зменшити, аж до 0.25, що створить більш розмиті та дешеві зображення. Але так само його можна збільшити у два або навіть п’ять разів, що створить деталізовані картинки. Низьке значення підходить для попередніх нарисів, тоді як високе — для важливих проектів або, наприклад, анатомічно правильніших пальців.

-–iw тобто Image Weight дозволяє керувати вагою референсного зображення. За замовчуванням, коли ви відправляєте посилання на зображення, використовується значення ваги 1. Що означає рівномірний вплив референта та промпта на результат. Якщо вказати 0, вплив референсу зменшиться, а вказавши 2 — відповідність з референсом буде вищою.

:: використовується для розподілу різних частин підказки. Докладніше про те, в яких випадках їх варто використовувати, я розповім у наступному блоці.

::1 використовуючи поділ, ви можете вказати вагу для різних частин промпту, вказавши цифру відразу після подвійної двокрапки. Наприклад, якщо перша частина менш важлива, ви можете вказати 1 або 50, а для більш важливої — 2 або 100. Саме число не має значення, важлива лише їхня різниця щодо один одного. Це означає, що 1 проти 2 даватиме такий самий результат, як і 50 проти 100.

— Seed дозволяє вказати унікальне число раніше згенерованого зображення, для створення на його основі нового. Цей спосіб відрізняється від Remix Mode або референсу тим, що зберігається шумова сітка вихідної картинки. Сітка шумів – це композиція з різних форм на зображенні, що створюється перед генерацією. На цю сітку нашаровуються різні стилі та об’єкти у процесі генерації. Саме завдяки їй зображення, створені за допомогою Variations, композиційно виглядають дуже схожими. Для того, щоб дізнатися число Seed, відправте на повідомлення бота з вашим зображенням смайлик конверта, у відповідь бот надішле вам інформацію про зображення з числом Seed. Скопіюйте його та вкажіть при новій генерації. Використовуючи схожий промпт, ви отримуватимете схожі зображення.

Складання промпту

Щоб правильно скласти ваш промпт, вкажіть на початку основний об’єкт — наприклад, опис людини. Потім вкажіть додаткову інформацію про головний об’єкт, якщо вона є важливою. Зовнішній вигляд, вік та іншу важливу інформацію. Після цього можна вказати оточення, наприклад, фон, час доби або інші об’єкти в оточенні. Розділяти ці частини підказки двокрапками чи ні – залежить від конкретної ситуації. Якщо ви генеруєте об’єкт у звичному оточенні — можна не розділяти. Але якщо ви хочете наголосити на об’єкті, наприклад, генеруючи старомодну дівчину в апартаментах майбутнього — розділити такий промпт буде дуже корисно. Нарешті, опишіть стиль — тут можуть бути вказані конкретні стилі, про які я розповім незабаром, а також згадки художників, фотографів або інших примітних посилань, на які орієнтуватиметься Midjourney. Наприкінці можна додати параметри, про які ми говорили у попередньому блоці.

Приклади промптів

В цьому блоці ми розглянемо приклади промптів для генерації в різних стилях. Використовуючи один і той самий промпт, я додаватиму до нього різні підказки для стилізації.

Фотореалізм:

photography, realistic, Nikon d850

Цифрове мистецтво:

Digital art, illustration, artstation

3Д рендер:

3d render, unreal engine 5, Cinema4D, Blender

Векторний стиль:

Flat design, vector, adobe illustrator

Мультяшний:

Cartoon, linear art, Disney, pixar, Simpsons style

Крім того, ви можете вказати назву певного мультфільму, стиль якого ви хочете скопіювати.

Аніме:

Модель Niji за замовчуванням генерує зображення в стилі аніме, але ви також можете отримати крутий результат зі звичайною моделлю, використовуючи промпти Anime, retro anime, linear anime art

Комікси:

Comic style і linear sketch для стилю, А також comic book strip і comic book page для зображення зі стрічкою з кількох кадрів.

Живопис

Ви можете вказати імена художників для наслідування їх техніки, наприклад Picasso Art Style

А також назви художніх інструментів, наприклад oil paints або watercolor paints

Ви можете використовувати як одну підказку із прикладів, так і комбінувати кілька для створення унікального результату.

Ракурси і крупність кадру

Ви можете керувати такими налаштуваннями, як масштабування та крупність кадру. Починаючи з версії 5.2 у Midjourney з’явилася функція Zoom Out, яка дозволяє зменшити масштаб згенерованого зображення в півтора рази або вдвічі, доповнивши відсутні елементи. А за допомогою Make Square можна зробити будь-яке зображення квадратним, заповнивши смуги по краях. За допомогою Custom Zoom можна виставити значення від 1 до 2 вручну. Крім того, у цьому вікні можна змінити співвідношення сторін. Для цього, після параметра zoom 1 вкажіть параметр —ar з потрібним співвідношенням.

Крім стандартного функціоналу, для позначення крупності існує професійна термінологія, яку можна використовувати і в Midjourney.

Наприклад, для створення портрета вкажіть на початку промпту portrait, face of або closeup shot.

Для молочного плану зазначте medium closeup.

Середній план позначається промптом medium shot.

Техніку низького ракурсу, при якій камера розташована нижче за об’єкт зйомки, можна встановити промптом Low Angle Shot

Загальний план можна отримати вказавши long shot

А для зображення на повне зростання вкажіть full body shot, full crop або full height.

Висока крупність визначається промптом extreme closeup, а ще більшої крупності використовуйте промпт macro photography.

Для панорамного зображення з широким кутом огляду вкажіть ultra wide angle panorama, а для сферичної панорами 360 degree panorama.

Більш детально про різні ракурси я розповім в окремому відео про дизайн персонажів у Midjourney. Я випусту урок на цю тему, як тільки це відео набере 1000 лайків.

Бонус: Безкоштовні GPU-хвилини

На сайті Midjourney є розділ Rank Pairs, де потрібно оцінювати пари зображень, виходячи з особистих переваг. Ці оцінки допомагають алгоритмам Midjourney вдосконалюватися, а натомість, щодня 2000 найкращих оцінювачів отримують безкоштовні GPU-години для своїх генерацій. Непоганий спосіб отримати додаткові безкоштовні генерації, оцінюючи роботи нейромережі.