Основні типи нейронних мереж

Даний матеріал є елементом освітньої програми Цифрової Школи в рамках напрямку «Нейромережі» та присвячений розподіленню основних типів нейромереж.

Що таке нейромережі?

Нейромережі — це різновид штучного інтелекту, а саме моделі машинного навчання, які імітують роботу людського мозку для вирішення складних завдань. Вони «навчаються» на основі великих наборів даних і можуть використовуватися для розпізнавання зображень, розуміння мови, прогнозування тенденцій та багато чого іншого.

Типи нейромереж

В цьому блоці переличені типи нейромереж, що визначаються за типами вхідних та вихідних даних (1-to-2). Нижче приведені основні з них:

Text-to-Text: Це тип нейромережі, який обробляє отримані текстові дані та виводить новий текст на їх основі. Способи застосування включають машинний переклад, резюмування тексту, відповіді на питання та генерацію тексту. Прикладом такої мережі є ChatGPT від OpenAI, Bard від Google та Bing AI від Microsoft.

Text-to-Image: Ці нейромережі перетворюють текстові описи на зображення. Прикладом можуть бути DALL-E від OpenAI, Midjourney та Stable Diffusion.

Image-to-Image: Ці нейромережі перетворюють одне зображення на інше. Приклади включають Remix Mode в Midjourney, апскейл (збільшення якості) та Generative Fill в Adobe Photoshop.

Image-to-Text: Ці нейромережі перетворюють зображення на текст. Прикладами можуть бути такі завдання, як розпізнавання тексту на зображеннях в Google Translate, або визначення об’єктів на зображенні, як функція Describe в Midjourney.

Text-to-Video: Ці мережі перетворюють текстовий опис на відео. Вони можуть бути використані для створення анімацій на основі сценарію. Приклади включають GEN-2 від Runway та відповідні моделі для Stable Diffusion.

Video-to-Text: Ці нейромережі аналізують відеокліпи та генерують описовий текст, який міг би описати те, що відбувається на відео. Прикладом служить сервіс You-tldr для створення саммарі на основі відео на YouTube.

Video-to-Video: Ці мережі обробляють відеокліп та виводять інший відеокліп. Це може містити перенесення стилю відео або модифікацію вмісту відео. Прикладом служить GEN-1 від Runway та деякі моделі для Stable Diffusion.

Audio-to-Text: Ці нейромережі перетворюють аудіо на текст. Приклади включають розпізнавання мови, як в нейромережі Whisper та транскрибування (розшифровка) голосових повідомлень в Telegram Premium.

Speech-to-Text: Це підкатегорія Audio-to-Text, де голосові дані перетворюються на текст. Прикладами можуть бути Google Speech-to-Text або Siri від Apple.

Text-to-Audio: Ці нейромережі перетворюють текст на аудіо. Приклади включають генерацію музики з текстового промпту, як це робить Mubert AI.

Text-to-Speech: Це підкатегорія Text-to-Audio, де текст перетворюється на голосові дані. Прикладом може бути читання з екрану за допомогою Google Text-to-Speech або синтез голосу в Uberduck.

Audio-to-Audio: Ці нейромережі перетворюють одне аудіо на інше. Це може включати покращення звуку, як в Enhance Speech від Adobe або накладання одного голосу на інший (AI-кавери).

Це основні нейромережі, які зараз користуються попитом, але це не вичерпний список і існують інші види нейромереж, які можна визначити в залежності від конкретних завдань, які вони вирішують.

Автор: Стас Бєляєв

Залиште свої контактні дані і ми вам обов’язково зателефонуємо

Після оплати курсу або послуги, будь ласка, відправте виписку на пошту admin@multach.com або в телеграм @belyaevstas