Анализ текстов с помощью рекуррентных нейронных сетей | Глубокое обучение на Python

Пишем программу на Keras для определения тональности отзывов на фильмы из набора данных IMDB. Страница курса – https://www.asozykin.ru/courses/nnpython

Практическая работа для самостоятельного выполнения “Определение тональности отзывов на фильмы с помощью Keras” – http://www.asozykin.ru/courses/nnpython-lab3

Полные тексты программ из лекции – https://github.com/sozykin/dlpython_course

Набор данных IMDB Movie Review – это открытый набор отзывов на фильмы, которые написали пользователи сайта http://www.imdb.com. Он описан в статье Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. Скачать можно по ссылке:
http://ai.stanford.edu/~amaas/data/sentiment/

Набор содержит 50 тыс. рецензий с правильными ответами:
1 – положительная рецензия
0 – отрицательная рецензия

Определение тональности рецензии – это задача классификации. На выходе сети всего один сигнал, значение которого 0 или 1.

Архитектура сети для определения тональности рецензии:
1. Слой векторного представления слов
2. Слой LSTM
3. Полносвязный слой для классификации

Рассматривается реализация такой сети на Keras.

Особенности обучение рекуррентной нейронной сети:
– в рекуррентных сетях используется глубокое обучение, даже если слоев мало.
– возможно быстрое переобучение.
– важен эффективный метод оптимизации.

При реализации проекта используются средства поддержки, выделенные в качестве гранта на основании конкурса, проведенного Общероссийской общественно-государственной просветительской организации «Российское общество «Знание».

Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках:
https://goo.gl/kW93MA

ПРИСОЕДИНЯЙТЕСЬ
Поделиться

Андрей Созыкин

Меня зовут Андрей Созыкин, я работаю в университете, веду курсы по компьютерным наукам. Здесь представлены видеолекции, подготовленные на основе этих курсов. Для видеолекций я отбираю самые важные материалы, необходимые для понимания предмета, и рассказываю их кратко, без лишних деталей, которые затруднят восприятие. Несмотря на краткость, изложение ведется системно; это не набор забавных видео, никак не связанных между собой.