Главная Области
применения
Архитектуры
нейросетей
Как создать
нейросеть
О проекте

    Многослойный перцептрон

            Многослойный перцептрон состоит из 3 или более слоев. Он использует нелинейную функцию активации,
    часто тангенциальную или логистическую, которая позволяет классифицировать линейно неразделимые данные.
    Каждый узел в слое соединен с каждый узлом в последующем слое, что делает сеть полностью связанной.
    Такая архитектура находит применение в задачах распознавания речи и машинном переводе.



    Сверточная нейронная сеть

            Сверточная нейронная сеть (Convolutional neural network, CNN) содержит один или более объединенных или
    соединенных сверточных слоев. CNN использует вариацию многослойного перцептрона, рассмотренного выше.
    Сверточные слои используют операцию свертки для входных данных и передают результат в следующий слой. Эта
    операция позволяет сети быть глубже с меньшим количеством параметров.

            Сверточные сети показывают выдающиеся результаты в приложениях к картинкам и речи. В статье Convolutional
    Neural Networks for Sentence Classification автор описывает процесс и результаты задач классификации текста с помощью CNN.
    В работе представлена модель на основе word2vec, которая проводит эксперименты, тестируется на нескольких бенчмарках
    и демонстрирует блестящие результаты.

            В работе Text Understanding from Scratch авторы показывают, что сверточная сеть достигает выдающихся результатов
    даже без знания слов, фраз предложений и любых других синтаксических или семантических структур присущих человеческому
    языку. Семантический разбор, поиск парафраз, распознавание речи — тоже приложения CNN.



    Рекурсивная нейронная сеть

            Рекурсивная нейронная сеть — тип глубокой нейронной сети, сформированный при применении одних и тех же наборов
    весов рекурсивно над структурой, чтобы сделать скалярное или структурированное предсказание над входной структурой переменного
    размера через активацию структуры в топологическом порядке. В простейшей архитектуре нелинейность, такая как тангенциальная
    функция активации, и матрица весов, разделяемая всей сетью, используются для объединения узлов в родительские объекты.



    Рекуррентная нейронная сеть

            Рекуррентная нейронная сеть, в отличие от прямой нейронной сети, является вариантом рекурсивной ИНС, в которой
    связи между нейронами — направленные циклы. Последнее означает, что выходная информация зависит не только от текущего входа, но
    также от состояний нейрона на предыдущем шаге. Такая память позволяет пользователям решать задачи NLP: распознание рукописного
    текста или речи. В статье Natural Language Generation, Paraphrasing and Summarization of User Reviews with Recurrent Neural Networks
    авторы показывают модель рекуррентной сети, которая генерирует новые предложения и краткое содержание текстового документа.

            Siwei Lai, Liheng Xu, Kang Liu, и Jun Zhao в своей работе Recurrent Convolutional Neural Networks for Text Classification
    создали рекуррентную сверточную нейросеть для классификации текста без рукотворных признаков. Модель сравнивается с существующими
    методами классификации текста — Bag of Words, Bigrams + LR, SVM, LDA, Tree Kernels, рекурсивными и сверточными сетями. Описанная
    модель превосходит по качеству традиционные методы для всех используемых датасетов.



    LSTM

            Сеть долгой краткосрочной памяти (Long Short-Term Memory, LSTM) — разновидность архитектуры рекуррентной нейросети,
    созданная для более точного моделирования временных последовательностей и их долгосрочных зависимостей, чем традиционная рекуррентная
    сеть. LSTM-сеть не использует функцию активации в рекуррентных компонентах, сохраненные значения не модифицируются, а градиент не
    стремится исчезнуть во время тренировки. Часто LSTM применяется в блоках по несколько элементов. Эти блоки состоят из 3 или 4 затворов
    (например, входного, выходного и гейта забывания), которые контролируют построение информационного потока по логистической функции.

            В Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling авторы показывают
    архитектуру глубокой LSTM рекуррентной сети, которая достигает хороших результатов для крупномасштабного акустического моделирования.

            В работе Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network представлена модель
    для автоматической морфологической разметки. Модель показывает точность 97.4 % в задаче разметки. Apple, Amazon, Google, Microsoft и
    другие компании внедрили в продукты LSTM-сети как фундаментальный элемент.



    Sequence-to-sequence модель

            Часто Sequence-to-sequence модели состоят из двух рекуррентных сетей: кодировщика, который обрабатывает входные данные,
    и декодера, который осуществляет вывод.

            Читайте: Оценка глубины на изображении при помощи Encoder-Decoder сетей

            Sequence-to-Sequence модели часто используются в вопросно-ответных системах, чат-ботах и машинном переводе. Такие многослойные
    ячейки успешно использовались в sequence-to-sequence моделях для перевода в статье Sequence to Sequence Learning with Neural Networks study.

            В Paraphrase Detection Using Recursive Autoencoder представлена новая рекурсивная архитектура автокодировщика, в которой
    представления — вектора в n-мерном семантическом пространстве, где фразы с похожими значением близки друг к другу.



    Неглубокие (shallow) нейронные сети

            Неглубокие модели, как и глубокие нейронные сети, тоже популярные и полезные инструменты. Например, word2vec — группа неглубоких
    двухслойных моделей, которая используется для создания векторных представлений слов (word embeddings). Представленная в Efficient
    Estimation of Word Representations in Vector Space, word2vec принимает на входе большой корпус текста и создает векторное пространство.
    Каждому слову в этом корпусе приписывается соответствующий вектор в этом пространстве. Отличительное свойство — слова из общих текстов
    в корпусе расположены близко друг к другу в векторном пространстве.

            В статье описаны архитектуры нейронных сетей: глубокий многослойный перцептрон, сверточная, рекурсивная, рекуррентная сети, нейросети
    долгой краткосрочной памяти, sequence-to-sequence модели и неглубокие (shallow) сети, word2vec для векторных представлений слов. Кроме
    того, было показано, как функционируют эти сети, и как различные модели справляются с задачами обработки естественного языка. Также отмечено,
    что сверточные нейронные сети в основном используются для задач классификации текста, в то время как рекуррентные сети хорошо работают с
    воспроизведением естественного языка или машинным переводом. В следующих части серии будут описаны существующие инструменты и библиотеки
    для реализации описанных типов нейросетей.


Главная Области применения Архитектуры нейросетей Как создать нейросеть О проекте