Даний матеріал є елементом освітньої програми Цифрової Школи в рамках напрямку «Нейромережі» та присвячений розподіленню основних типів нейромереж.
Що таке нейромережі?
Нейромережі — це різновид штучного інтелекту, а саме моделі машинного навчання, які імітують роботу людського мозку для вирішення складних завдань. Вони «навчаються» на основі великих наборів даних і можуть використовуватися для розпізнавання зображень, розуміння мови, прогнозування тенденцій та багато чого іншого.
Типи нейромереж
В цьому блоці переличені типи нейромереж, що визначаються за типами вхідних та вихідних даних (1-to-2). Нижче приведені основні з них:
Text-to-Text: Це тип нейромережі, який обробляє отримані текстові дані та виводить новий текст на їх основі. Способи застосування включають машинний переклад, резюмування тексту, відповіді на питання та генерацію тексту. Прикладом такої мережі є ChatGPT від OpenAI, Bard від Google та Bing AI від Microsoft.
Text-to-Image: Ці нейромережі перетворюють текстові описи на зображення. Прикладом можуть бути DALL-E від OpenAI, Midjourney та Stable Diffusion.
Image-to-Image: Ці нейромережі перетворюють одне зображення на інше. Приклади включають Remix Mode в Midjourney, апскейл (збільшення якості) та Generative Fill в Adobe Photoshop.
Image-to-Text: Ці нейромережі перетворюють зображення на текст. Прикладами можуть бути такі завдання, як розпізнавання тексту на зображеннях в Google Translate, або визначення об’єктів на зображенні, як функція Describe в Midjourney.
Text-to-Video: Ці мережі перетворюють текстовий опис на відео. Вони можуть бути використані для створення анімацій на основі сценарію. Приклади включають GEN-2 від Runway та відповідні моделі для Stable Diffusion.
Video-to-Text: Ці нейромережі аналізують відеокліпи та генерують описовий текст, який міг би описати те, що відбувається на відео. Прикладом служить сервіс You-tldr для створення саммарі на основі відео на YouTube.
Video-to-Video: Ці мережі обробляють відеокліп та виводять інший відеокліп. Це може містити перенесення стилю відео або модифікацію вмісту відео. Прикладом служить GEN-1 від Runway та деякі моделі для Stable Diffusion.
Audio-to-Text: Ці нейромережі перетворюють аудіо на текст. Приклади включають розпізнавання мови, як в нейромережі Whisper та транскрибування (розшифровка) голосових повідомлень в Telegram Premium.
Speech-to-Text: Це підкатегорія Audio-to-Text, де голосові дані перетворюються на текст. Прикладами можуть бути Google Speech-to-Text або Siri від Apple.
Text-to-Audio: Ці нейромережі перетворюють текст на аудіо. Приклади включають генерацію музики з текстового промпту, як це робить Mubert AI.
Text-to-Speech: Це підкатегорія Text-to-Audio, де текст перетворюється на голосові дані. Прикладом може бути читання з екрану за допомогою Google Text-to-Speech або синтез голосу в Uberduck.
Audio-to-Audio: Ці нейромережі перетворюють одне аудіо на інше. Це може включати покращення звуку, як в Enhance Speech від Adobe або накладання одного голосу на інший (AI-кавери).
Це основні нейромережі, які зараз користуються попитом, але це не вичерпний список і існують інші види нейромереж, які можна визначити в залежності від конкретних завдань, які вони вирішують.
Автор: Стас Бєляєв