Word классификация как система

Системы обработки текстов – это программы для создания, редактирования и печати текстовых документов.

  • Текстовый редактор (программа для ввода и редактирования текста): Word Pad Блокнот

  • Текстовый процессор (программа, обладающая расширенными возможностями по обработке текстовых документов, обрабатывает не только текст, но и графические объекты): Microsoft Word, Writer

Функции систем обработки текстов

  • ввод текста;

  • редактирование документа;

  • форматирование документа;

  • проверка правописания;

  • просмотр документа;

  • печать документа;

  • удобная работа с таблицами;

  • использование графики (рисунков, диаграмм, формул);

  • импорт данных из других программ.

Классификация систем обработки текстов

  1. по количеству алфавитов: одноалфавитные, многоалфавитные.

  2. по форме текста: линейные, нелинейные.

  3. по способу использования: автономные, сетевые.

  4. по назначению: общего назначения, специального назначения.

Microsoft Word – текстовый процессор, предназначенный для создания и редактирования различных текстовых документов: писем, отчетов, блокнотов, брошюр, отчетной документации и т. д.

Запуск: Пуск – Все программы – Microsoft Office – Microsoft Office Word.

Структура окна Microsoft Word

  • панель быстрого доступа, кнопка Office

  • строка заголовка;

  • строка меню;

  • панели инструментов: стандартная, форматирование;

  • рабочая область;

  • линейки;

  • строка состояния;

  • полосы прокрутки.

Структура текстового документа

Тело документа – основная часть документа, которая отображает содержание и цель создания документа.

  • текст (отображает основное содержание документа);

  • рисунок (используют для иллюстрирования основного содержания документа с целью увеличения его наглядности: графики, диаграммы);

  • таблица (структурирование и группировка для иллюстрирования или анализа поданных данных в документе);

  • заголовок (структурная единица документа для логического структурирования поданной в документе информации);

  • колонтитул (часть документа, расположенная вверху или внизу страницы, содержащая информацию про автора, название раздела, номер страницы);

  • сноска (дополнительные пояснения специально обозначенных слов, словосочетаний, предложений, которые размещаются внизу страницы);

  • содержание (перечень заголовков документа с указанием страниц, на которых они размещаются).



Текстовый процессор MS Word


Классификация документов

Рассмотрим деление документов на классы по наиболее общим признакам сходства и различия. Цель классификации – повышение оперативности работы и ответственности исполнителей. Первичная классификация документов обеспечивает быстрый их поиск, повышает оперативность работы с ними, ускоряет исполнение и контроль.
При неправильной группировке документов значительно затрудняется работа архивных органов, в которых продолжается работа с ними. Документы можно классифицировать по способу фиксации, содержанию, способу изготовления, степени сложности, месту составления, срокам исполнения, происхождению, юридической силе, назначению и т.д.
— По способу фиксации информации документы делятся на письменные, графические, фото- и кинодокументы, акустические. Письменные включают в себя все документы, созданные машинным путём, а также изготовленные на множительных аппаратах. К графическим относятся чертежи, графики, карты, рисунки, схемы, планы. Фото — и кинодокументы фиксируются с помощью специальной аппаратуры, на специальных носителях (кино- и фотоплёнка), они позволяют запечатлеть объекты и явления, которые другими средствами зафиксировать трудно или невозможно. Акустические документы позволяют производить точную запись и передачу звуковой информации, используются в работе секретаря при составлении диктограмм, протоколировании собраний, совещаний, заседаний.
— По содержанию документы подразделяются на организационно-распорядительные, финансово — расчётные, снабженческо — бытовые, по личному составу.
— По наименованию существует большое количество документов. Это приказы, положения, протоколы, распоряжения, инструкции, правила, уставы, отчёты, акты, планы, письма, заявления и т.д.
— По видам документы бывают типовые, примерные, индивидуальные и трафаретные. Типовые документы разрабатываются заранее вышестоящими органами для подведомственных организаций с однородными функциями и носят обязательный характер. Примерные документы также разрабатываются вышестоящими органами для организаций своей системы, но носят рекомендательный характер, а индивидуальные документы разрабатываются конкретными организациями для внутреннего пользования. Трафаретные документы изготавливают типографическим способом, постоянная часть текста документа отпечатана на полиграфических машинах, а для переменной информации оставляют свободные места. Такие документы очень перспективны, т.к. экономят время на составление и повышают общую культуру и грамотность документов.
— По степени сложности различают простые документы, содержащие один вопрос, и сложные, содержащие несколько вопросов. Предпочтительнее простые документы, т.к. их легко обрабатывать, контролировать исполнение, осуществлять поиск, хранить.
— По месту составления документы делятся на внутренние и внешние. Внутренние – документы, создаваемые в учреждении для решения своих вопросов и не выходящие за пределы учреждения. Внешние – входящая и исходящая корреспонденция учреждения.
— По срокам исполнения документы делятся на срочные и несрочные. Показателем служит срок исполнения документа, который устанавливается законом и правовыми актами, а также телеграммы, телефонограммы, документы с пометками «срочно». Все остальные документы исполняют в сроки, установленные администрацией, и считают несрочными.
— По происхождению документы бывают служебные и официально-личные. В первую группу входят созданные в учреждениях, организациях и на предприятиях по вопросам их деятельности, во вторую – касающиеся конкретных лиц, т.е. заявления, письма, жалобы.
— По юридической силе различают подлинные и подложные документы. Подлинными считаются документы, выданные в установленном законом порядке с соблюдением всех правил, подложными – документы, оформление или содержание которых не соответствует истине. Подлинные подразделяются на действительные и недействительные. Недействительным документ становится в том случае, если он утратил юридическую силу по каким-либо причинам, например, истечение срока действия.
— По назначению документы подразделяют на подлинники (оригиналы) и копии. Подлинник – первоначальный документ, содержащий исходную информацию, надлежащим образом оформленный. Созданию документа предшествует стадия черновика – документа в предварительной редакции. В юридическом отношении, подлинник и копия с него равноценны. Копия – точное воспроизведение реквизитов подлинника, в правом углу верхнего поля которого пишется слово «копия», соответствующим образом заверенная. Существуют такие разновидности копий, как отпуск, выписка и дубликат. Отпуск – это полная копия исходящего документа, оставшаяся у отправителя, которая изготовляется одновременно с подлинником под копирку на обычном листе бумаги и заверяется. Выписка из документа – копия части документа, а дубликат – второй экземпляр документа, выданный в связи с утратой, например, подлинника. Дубликат и подлинник имеют одинаковую юридическую силу.
— По срокам хранения документы подразделяют на три основные группы: постоянного срока хранения, временного срока хранения свыше 10 лет и временного срока хранения до 10 лет.
— По роду деятельности документы классифицируют на системы документации: плановая, стандартов и технических условий, организационно-распорядительная, первичная учётная документация, отчётно-статическая, расчётно-денежная, по ценообразованию, по торговле по материально-техническому снабжению и сбыту, для строительства, по изобретениям и открытиям, по социальному обеспечению и т. д.
— По оформлению документы (изографические) бывают следующие: плакат, художественная репродукция, эстамп, художественная открытка, альбом, прикладная графика, оформление текстов в различные формы.
— По типу носителей классифицируют документы: бумажные, электронные, магнитные, оптические.
— По способу создания документы можно разделить на первичные и сводные.

История создания текстовых процессоров

Microsoft Word (часто – MS Word, Winword или немудреный Word) – это текстовый процессор, какой выпускает фирмой «Microsoft» в составе пакета «Microsoft Office».
Первая версия была написана Ричардом Броды для использования в DOS, в 1983 году. Позже выпускались версии для Apple Macintosh (1984), SCO Unи и Microsoft Windows (1989).
Microsoft Word многим должен Bravo – текстовому процессору с оригинальным графическим интерфейсом, разработанному в исследовательском центре «Xerox PARC». Творец Bravo, Чарльз Симони покинул PARC в 1981 году. Тем же летом Симони переманил Броды, с которым вместе работал над Bravo.
Первый прием Word для MS-DOS состоялся в конце 1983 года. Он был плохо принятый рынком, продажу снижало наличие конкурирующего продукта – Wordperfect.
Однако версия для Macintosh, выпущенная в 1985 году, получила широкое распространение. Через два года Word 3.01 для Macintosh усилил позиции (версия 3.0 изобиловала ошибками и быстро была заменена).
Первая версия Word для Windows выпущенная в 1989 году, продавалась сообразно цене 500 долларов США. Она демонстрировала лучший компанией Microsoft виток развития: как и сама Windows, она многое взяла после Macintosh, и использовала стандартные клавиатурные сокращения (например, CTRL-S для сохранения файла). После выпуска в будущем году Windows 3.0 продажа поползла наверх (Word 1.0 намного лучше работал из Windows 3.0, чем из больше старыми версиями Wиndows 386 и Wиndows 286), главный противник – Wordperfect – не смог выпустить рабочую версию перед Windows, что оказалось для него смертельной ошибкой. Версия 2.0 утвердила Winword на позиции лидера рынка.
В настоящее время Microsoft Word является наиболее популярным из используемых текстовых процессоров.
История версий Word представлена далее в версии для Microsoft Windows.
1989, ноябрь – Word для Windows
1991 – Word 2 для Windows
1993 – Word 6 для Windows
1995 – Word 95, также знаменитый как Word7
1997 – Word 97, также знаменитый как Word 8
1999 – Word 2000, также знаменитый как Word 9
2001 – Word XP, также знаменитый как Word 2002 или Word 10
2003 – Word 2003, также знаменитый как Word 11, официально именуемый Microsoft
Office Word 2003
2007 – Word 2007


Основные возможности Microsoft Word 2003-2007:

1. Использовать различные шрифты.
2. Проводить редактирование текста.
3. Автоматически нумеровать страницы, главы, рисунки.
4. Форматировать текст.
5. Проверять правописание во время ввода текста.
6. Создавать вертикальный текст.
7. Создавать геометрические фигуры.
8. Печатать формулы.
9. Использовать верхний и нижний индексы.
10. Создавать таблицы.
11. Работать с диаграммами и графиками.
12. Использовать специальную надпись (художественный заголовок) – WordArt.
13. Вводить в текст различные фото, рисунки.
14. Вставлять кадры из видеофильмов.
15. Производить сортировку данных по возрастанию (убыванию).
16. Размещать текст в несколько колонок.
17. Использовать цвета линий, букв, стрелок и т. д.
18. Производить математические действия (+, -, *, :).
19. Использовать специальные символы.
20. Вставлять сноски, колонтитулы, примечания.
21. Получать справки по текстовому редактору.
22. Сохранять документ.
23. Выводить документ на бумагу.
24. Отправлять созданный документ по электронной почте.
25. Создавать гиперссылки и т.д.

Если вам необходимо дополнить текст графическими элементами. Например, таблицами, графиками, диаграммами или схемами.

То, это можно сделать прямо в текстовом редакторе Word. Не прибегая к использованию сторонних программ.

Мы уже рассказывали о том, как сделать диаграмму в Word. В этот раз речь пойдет о схемах. Текстовый редактор Word оснащен множеством инструментов для создания схем. С их помощью вы можете рисовать различные геометрические фигуры, а также линии и стрелки. При этом нарисованную схему можно украсить с помощью с помощью теней или других графических эффектов.

Содержание

  • Как сделать схему в Word 2007, 2010, 2013 или 2016
  • Как сделать схему в Word 2003

Как сделать схему в Word 2007, 2010, 2013 или 2016

Итак, если вы хотите сделать схему в Word 2007, 2010, 2013 или 2016, то вам необходимо перейти на вкладку «Вставка». На этой вкладке есть две кнопки, которые можно использовать для создания схем в Ворде. Это кнопки «Фигуры» и «SmartArt».

кнопки Фигуры и SmartArt

При нажатии на кнопку «Фигуры» появляется огромный список фигур, которые вы можете вставить в документ.

список фигур, которые вы можете вставить в документ

Выбрав одну из этих фигур из списка, вы можете сразу нарисовать ее в любом удобном вам месте. Использовав несколько таких фигур вы без труда сможете сделать схему в Ворде. Пример простой схемы на скриншоте внизу.

Пример простой схемы

При необходимости внешний вид нарисованных фигур можно менять. Для этого просто выделите одну из фигур и перейдите на вкладку «Формат». На данной вкладке можно изменить цвет фигуры, цвет рамки, цвет заливки, добавить тени и другие графические эффекты. Используя все эти возможности можно создать достаточно красивую схему (пример внизу).

Пример простой схемы

Для того чтобы добавить на схему текст просто нажмите на нужную фигуру правой кнопкой мышки и выберите пункт меню «Добавить текст». После чего вы сможете вписывать текст прямо внутрь фигуры.

выберите пункт меню Добавить текст

В итоге вы можете получить примерно вот такую схему.

пример схемы с текстом

Кроме этого вы можете сделать схему в Ворде при помощи кнопки «SmartArt». После нажатия на данную кнопку открывается каталог уже готовых схем. В котором вы можете выбрать один из подходящих вам вариантов.

каталог уже готовых схем

После выбора подходящего варианта схемы на странице появится уже готовая схема.

готовая схема

Вам необходимо будет только добавить свой текст. Для этого достаточно просто кликнуть мышкой в один из блоков и вписать нужный текст.

схема с добавленным текстом

Также вы можете изменить внешний вид сделанной вами схемы. Для этого выделите схему мышкой и перейдите на вкладку «Конструктор» или «Формат». Используя инструменты, доступные на этих вкладках, можно получить вот такую разноцветную и объемную схему как на скриншоте внизу.

готовая схема с графическими эффектами

Как сделать схему в Word 2003

Если вы используете Word 2003, то вы также можете сделать схему и добавить ее к вашему документу. Чтобы сделать это необходимо сначала открыть меню «Вид» и включить панель инструментов «Рисование».

включите панель инструментов Рисование

,

После этого в программе Word 2003 появится панель инструментов для рисования различных фигур. Здесь будет доступны такие фигуры как прямоугольник, круг, линия и стрелка.

откройте меню Автофигуры

Для того чтобы нарисовать более сложные фигуры, можно воспользоваться меню «Автофигуры».

как … нарисовать блок-схему в WORD, EXCEL, POWER POINT, VISIO

4.1. Назначение и классификация программ обработки текстов

Среди наиболее распространенных
программ выделяются программы
обработки текстов
.
Они представляют собой приложения для
создания, обработки, хранения и печати
документов различной сложности.
Функциональные возможности этих программ
варьируются от простейших редакторов
текстов, предназначенных для создания
текстов простой структуры, до сложных
издательских систем, позволяющих
создавать документы для типографского
издания. В зависимости от
функциональных
возможностей

программные продукты
обработки текстов принято
делить на: редакторы текстов; редакторы
документов; издательские системы.

Редакторы текстов
предназначены для
обработки простых текстов, в том числе
текстов программ, написанных на языках
программирования. Они обычно не являются
самостоятельными программными продуктами,
а встраиваются в соответствующие системы
программирования или операционные
системы и их оболочки, например, текстовый
редактор Блокнот, встроенный в операционную
систему Windows.
К основным функциям этих редакторов
относятся: набор и редактирование
текста, просмотр текста, распечатка
текста.

Достоинства редакторов
текстов программ в том, что они проверяют
синтаксис программ, написанных на
конкретном языке программирования,
облегчая пользователю поиск ошибок в
программе. Иногда они совмещают в себе
и функции отладки. В эту группу входят
редакторы для языков Бейсик, Паскаль,
Си и др. Эти редакторы можно использовать
не только при работе с текстами программ,
но и для подготовки небольших, несложных
документов. Для более сложных и объемных
документов, используются редакторы
документов.

Редакторы документов
предназначены для
работы с текстом, имеющим структуру
документа, т.е. состоящим из разделов,
параграфов, абзацев, предложений, слов.
Существует большой класс редакторов
документов, например: WordPerfect, LaTex
и др. Представителем данного класса
является текстовый процессор Microsoft
Word.

Часто
специалистов интересует не только
подготовка текста, а подготовка его в
виде, близком к типографскому. Такие
программные средства получили название
издательских систем,
которые служат для окончательной верстки
документа, т.е. размещения текста на
странице, вставки рисунков, использования
разных шрифтов. Примером такой системы
может служить настольная издательская
система Page
Marker. Эти
системы могут выполнять обтекание
рисунков, таблиц; макетировать текст
(разбивать текст на колонки и др.), т.е.
компоновать текст и рисунки на странице.
Эти системы используются в крупных
издательствах, типографиях, значительно
сокращая затраты и сроки выхода печатной
продукции. Программное обеспечение
таких систем составлено из мощного
редактора документов, разнообразных
графических вспомогательных программ,
а также программ для оформления страниц
с версткой полос. Далее более подробно
текстовые процессоры рассмотрим на
примере Microsoft
Word.

4.2. Функциональные возможности текстового процессора Microsoft Word

Широкий спектр функциональных
возможностей обеспечили текстовому
процессору Microsoft
Word высокий уровень популярности среди
пользователей. По своим характеристикам
он приближается к настольным издательским
системам.

В
процессе подготовки документа в
распоряжении пользователя имеется
набор средств и процедур организации
работы по вводу, редактированию и
форматированию текста и встроенных
объектов. К основным функциональным
возможностям по работе с документом
можно отнести: использование шрифтов
различных размеров и начертаний символов
и различных способов их выделения;
установка параметров абзаца; задание
междустрочных интервалов; проверка
правописания и подбор синонимов;
автоматическую нумерацию страниц;
автоматический перенос слов на новую
строку; поиск и замена слов; печать
верхних и нижних заголовков страниц
(колонтитулов); установка сносок;
построение оглавлений, указателей;
набор текста в несколько колонок;
создание таблиц, рисунков и построение
диаграмм; просмотр документов перед
печатью; установка размеров бумажного
носителя и параметров печати; отмена и
повторение предыдущих действий
пользователя; вставки полей с информацией
стандартного типа (дата, время, авторские
данные и т.д.); создание макрокоманд и
гипертекстовых ссылок; включение в
документ различных объектов (файлов,
формул и др.); импорт документов, созданных
в других приложениях и т.д.

Текстовый процессор предлагает
также широкий выбор средств придания
документу привлекательного внешнего
вида: автоформатирование, применение
стилей, библиотеки стилей и шаблонов
документов. При помощи шаблонов
можно автоматизировать процесс подготовки
стандартных документов, таких, как:
факсимильные сообщения, стандартная
деловая переписка и документация.
Предоставляется возможность работы со
структурой документа, процедурой
слияния, подготовки документов-форм.

Рассмотрим некоторые
функциональные возможности текстового
процессора MicrosoftWord
2000 более подробно.

Проверка орфографии.
В систему проверки
орфографии включено множество новых
слов: это, прежде всего, имена и фамилии.

Выбор нужного шрифта.
В Word
2000 более
удобно выбирать желаемый шрифт, который
появляется в виде списка ниспадающего
WYSIWYG-меню.
Название шрифтов в списке воспроизводится
самим этим шрифтом. Это позволяет быстро
найти подходящую гарнитуру.

Множественный буфер
обмена.
Достоинством
офисного пакета Office
2000 является наличие множественного
буфера обмена, позволяющего размещать
до 12 фрагментов данных (буфер обмена
вызывается командой Вид►
Панели инструментов►Буфер обмена
).

Темы
оформления.
Темы
оформления предназначены для
автоматизированного оформления
Web-страниц.
Темы оформления предлагают фоновые
рисунки, а также определяют шрифт, кегль,
формат и цвет текста. Все темы доступны
в приложении FrontPage,
предназначенного для создания
Web-страниц,
и могут редактироваться
с его помощью. Аналогичные темы доступны
в других приложениях Office,
что позволяет разрабатывать документы
в едином стиле.

Средства для создания
Web-страниц.
Мастер по созданию
Web-страниц
позволяет использовать общие темы
оформления и средства навигации между
страницами. Наличие шаблонов помогает
строить профессиональные Web-страницы.

Интеграция
с электронной почтой
.
Текстовый процессор
Word
предлагает возможности работы с
электронной почтой. При использовании
Word как
редактора сообщений электронной почты
пользователи получают возможности по
использованию бланков, автоподписи
почтовых сообщений и др.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


  Перевод


  Ссылка на автора


фото Виктория Кубяки на Unsplash

Введение


Раньше я испытывал алгоритмы машинного обучения для различных проблем, таких как предсказания валютного курса или классификации изображений. Недавно мне пришлось работать над проектом классификации текста, и я прочитал много литературы по этому вопросу. Случай НЛП (обработка естественного языка) является захватывающим. Когда вы начали думать об этом, вы поняли, что это не так просто, и до классификации еще был вопрос:
«Как, черт возьми, алгоритм может читать слова?». Одним из решений является преобразование слов в векторы для их числового представления. Это решение далеко не новое, и несколько лет назад в статье был представлен неконтролируемый алгоритм Google Word2Vec: Эффективная оценка представлений слов в векторном пространстве (Миколов и др., 2013), Можно найти много документации по этому вопросу, но цель этой статьи — детально от А до Я, как построить алгоритм машинного обучения для классификации текста. Я продемонстрирую, как использовать Word2Vec с предварительно обученным набором новостей Google и как самостоятельно обучать его своим данным. Затем я продемонстрирую две техники; Один из них заключается в том, чтобы использовать смысл слов вашего документа, а другой — сохранять ваши данные такими, какие они есть, которые содержат больше информации, но это немного сложнее и требует больше времени для обучения. Так что это зависит от вас, что вы думаете, лучше в вашем случае и с вашими данными.


1 ПЕРВЫМ, ЧТО НАМ НУЖНО ИМПОРТИТЬ ДАННЫЕ

Для этого шага убедитесь, что папка с вашими отзывами находится вта же папка, что и в блокноте.

Данные, которые я использовал, представляют собой обзоры фильмов, которые можно найти здесь: Обзоры фильмов, Я взял «набор данных полярности предложения v1.0». Я взял «набор данных полярности предложения v1.0». Я выбрал те, потому что я могу сравнить свои результаты с бумагой Сверточные нейронные сети для классификации предложений (Yoon Kim, 2014), Эта статья имеет преимущество в представлении нейронной сети для этого набора данных, но она сравнивает свой результат с другими алгоритмами в таблице 2, что действительно интересно, потому что у нас есть много алгоритмов из другой статьи для сравнения наших результатов.

Распакуйте файл, который вы скачали по ссылке.
Хорошо, так что в основном теперь у нас есть одна папка с именем«RT-polaritydata»и два файла в нем, которые названы«RT-polarity.neg», а также«RT-polarity.pos»(соответственно, отрицательные отзывы и положительные отзывы). Наша работа здесь будет заключаться в том, чтобы помещать все данные в фреймы данных панд для их анализа. Начните конвертировать их в файлы CSV.

Теперь мы создаем «метки» наших данных, 1 означает положительный отзыв, а 0 — отрицательный.

Теперь результат должен быть следующим

Рисунок 1: Наш Dataframe с текстом обзора и его меткой

Хорошо, это кажется великолепным! Теперь у нас есть каждый отзыв в нашем фрейме данных pandas, называемый «отзывы», с определенной меткой (1 для положительного отзыва, 0 для отрицательного отзыва).

2 ИСПОЛЬЗОВАНИЕ Word2Vec, ЧТОБЫ УВИДЕТЬ РАССТОЯНИЕ НАПРАВЛЕНИЯ

Word2Vec — хорошая модель нейронных сетей, используемых для встраивания слов. Он используется главным образом для того, чтобы иметь контекст подобия слов. Мы будем обучать модель на наших данных, чтобы иметь дистанцию ​​между всеми нашими словами, чтобы увидеть, какие из них семантически близки друг к другу. Есть и другие модели, но я выбрал эту по двум причинам:

  1. Это тот, который использовал Юн Ким в своей статье
  2. Это модель, разработанная Google, кажется, она полностью рекомендуется, документацию легко найти, и эта статья: Эффективная оценка представлений слов в векторном пространстве (Миколов и др., 2013) хорошо объясняет весь процесс.

2.1 Токенизация

Теперь ваш фрейм данных должен выглядеть так

Рисунок 2: Фрейм данных с токенами

Для тренинга важно, чтобы каждый отзыв был представлен в виде списка слов, как в столбце «Жетоны».

2.2: Используйте предварительно обученный набор новостей Google.

Во-первых, вам нужно скачать набор данных здесь: Google News Dataset,
Затем распакуйте его в свою папку. Я извлекаю его в подпапку с именем «модель»

Это так просто! Теперь ваша модель названа«W2v_model»он обучен и содержит каждое слово в наборе данных, представленное как векторы.

2.2.1 Обучение модели на ваших данных

Вы также можете обучить модель на ваших личных данных. Однако я не рекомендую эту технику для небольших документов, потому что Word2Vec не сможет правильно отразить контекст ваших слов, и он не даст удовлетворительного результата. Я проверил это на своих данных для этой статьи, и результаты были заметно лучше с предварительно обученным Google Word2Vec. Для другого набора данных со средним значением 200 слов на документы он был более надежным и в некоторых случаях показывал даже лучший результат, чем предварительно обученная модель.

Мы разделим работу на 3 этапа

  1. Word2Vec(), Инициализировать модель со всеми ее параметрами
  2. .build_vocab()Создать словарь из последовательности предложений
  3. .train()Мы тренируем нашу модель

2.3 Результаты

Теперь мы можем проверить нашу модель несколькими словами, чтобы увидеть, какие из них имеют наибольшее сходство с ними.
Мы проверяем это с:

  1. фильм
  2. фантастика
  3. хорошо

Для слова «хорошо» у меня есть эти результаты

Рисунок 3: Слова, наиболее похожие на «хорошие»

Эти результаты получены с помощью предварительно обученного набора новостей Google.

Однако мы можем видеть, что модель не идеальна и не отражает семантику слов, потому что у нас [отлично, плохо, потрясающе, достойно]. Это может быть проблемой, потому что хорошее «семантически» здесь близко к плохому. Действительно, их можно использовать в одном контексте, но их значение не одинаково.

2.5 Немного визуализации данных

Выше приведен график из 10 000 слов нашего набора данных. Те, кто семантически близки, находятся рядом на карте. Я использовал bokeh, чтобы сделать карту динамичной, мы можем взаимодействовать с ней, и вы можете навести курсор мыши на точку, чтобы увидеть слово, которое ей соответствует.
Теперь мы можем ясно видеть отношения между всеми словами, и какие из них являются близкими или отдаленными.

Рисунок 4: Диаграмма Боке из 10000 слов нашего набора данных

3 НЕМНОГО РАБОТЫ С ДАННЫМИ

3.1 Поезд испытательный сплит

Теперь, когда у нас есть фрейм данных, нам нужно разделить наши данные на обучающую переменную и тестовую переменную. В процессе обучения наш алгоритм изучит его параметры, а в ходе тестирования мы проверим их.
Мы разделяем обучение и тестирование, чтобы увидеть, есть либез переоснащенияпроблемы, которые повторяются в области глубокого обучения. Это означает, что наша модель имеет хорошие результаты с данными, с которыми она ознакомилась, но у нее есть проблема с обобщением, и она будет иметь плохие результаты в других наборах данных, и этоявно не цель,

3.2 Построение векторов

Здесь мы используемTfidfVectorizerотsklearn, Эта функция отражает силу слова в документе.
Мы используем линиюtfidf = dict(zip(vectorizer.get_feature_names(), vectorizer.idf_))поместить все слова в вектор с именемtfidf, как вы можете видеть чуть выше, если вы выполните его.
Это был совет, который я нашел на этом потрясающий блог Ахмеда БЕСБЕСА, Это действительно интересно и заслуживает прочтения.

Теперь просто для забавы и для наглядности я использовал WordCloud, чтобы изобразить 100 самых важных слов нашего словаря. Мы можем видеть такие слова, какигра, фильм, сцена и историяэто очевидно важно для набора данных о кинокритиках.
Я использовал другой блог Ахмеда БЕСБЕСА использовать эту библиотеку.

Рисунок 5: Самые «важные» слова в нашем корпусе

Теперь мы создадим функцию, которая будет вычислять «среднее» для данного критика. Наш w2v_model дал нам, какие слова близки друг к другу, поэтому для каждого из них мы умножаем их на их значение в «словаре»:w2v_model[word].reshape((1, size)) * tfidf[word],
Примечание: мы используем функцию изменения формы, потому что мы делаем это для каждого текста нашего корпуса, так как мы имеем, например, 8529 текстов вX_train, если мы применим к ней эту функцию, у нас будет двумерная матрица формы (8529,300).

  1. 8529 обозначает количество текстов в нашем корпусе
  2. 300 обозначает размер вектора, созданного Word2Vec.

И это все, теперь мы делим это на количество наблюдений, и нам приятно иметь среднее значение всего этого.

Исчисление может быть возобновлено следующим образом:

Рис. 6: Формула среднего значения слов в сочетании с их Tf-idf

Где :

  1. nколичество слов в тексте
  2. Wiэто векторWord2Vecразмером 300 для данного словая
  3. Tiэто значениеtfidfза данное словоя

Теперь мы применяем эту функцию к нашим данным.
Итак, как я уже сказал,buildWordVectorимеет два аргумента, токены и размер. Размер равен 300, поскольку из-за модели word2vec мы получили форму 300. Для токенов она будет увеличиваться в виде цикла, чтобы охватить все 8529 текстов нашего учебного корпуса и 2133 нашего тестового корпуса.

4 ПЕРВАЯ НЕЙРОННАЯ СЕТЬ

Первая нейронная сеть представляет собой простую искусственную нейронную сеть с двумя плотными слоями и выпадением 0,7, чтобы избежать переобучения. Для этого мы принимаем средние векторы каждого слова в данном обзоре в качестве входных данных.

4.1 Построить нейронную сеть

Вот характеристики этого простого классификатора.

  • Количество плотных слоев:2
  • Функция активации:relu и сигмоид для последнего плотного слоя
  • Выбывать :0.7
  • Оптимизатор:Adadelta
  • Потеря:Бинарный Крест Энтропия

Рисунок 7: сводка классификатора

4.2 Обучение нейронной сети

Теперь мы обучаем нашу нейронную сеть на наших данных обучения с размером партии batch_s 50 и с 20 эпохами.
Больше эпох не похоже на изменение точности. Может быть полезно выполнить поиск по сетке с другим размером batch_size и количеством эпох, чтобы увидеть лучшие параметры

Наконец, мы строим историю тренинга, чтобы увидеть эволюцию и сравнить прогнозы тренинга и теста.

Рисунок 8: точность и потери для первого классификатора

В итоге мы имеем точность обучения 0,8342 и точность теста 0,7286. Это неплохо, и важно отметить, что у нас не так много переоснащения.

5 Сверточная нейронная сеть

CNN в основном используется для классификации изображений, потому что он может распознавать шаблоны по их картам фильтров. Но в 2014 году, когда Юн Ким опубликовал свою статью, он показал, что они могут быть полезны и для классификации текста. На самом деле эта идея не совсем сумасшедшая, потому что предложения также имеют шаблоны.

5.1 Построить нейронную сеть

Сначала мы пытаемся найти все параметры для построения нашей нейронной сети. Это будет CNN, но вместо того, чтобы давать ему среднее значение всех слов vector в предложении, мы дадим ему все векторы слов в данном предложении.
Кроме того, структура немного меняется, с большим количеством нейронов в каждом слое.

Рисунок 9: структура нашего CNN

Наша нейронная сеть такая же, как у Yoon Kim (2014), которую я описал выше.

  • Количество сверточных слоев:3
  • Количество плотных слоев:2
  • Количество карт возможностей:128 за свертку
  • Функция активации:relu и сигмоид для последнего плотного слоя
  • Размер фильтра:3, 4 и 5
  • Выбывать :0,5
  • Оптимизатор:Adadelta
  • Потеря:Бинарный Крест Энтропия

Есть немного различий между этим CNN и тем, что использовал Юн Ким:
1. У него только что был 1 плотный слой
2. Он никогда не использовал сигмовидную кишку
3. Он использовал 100 карт характеристик на свертку вместо 128

Тем не менее, у меня были лучшие результаты с этими небольшими изменениями, поэтому я оставил их такими

Чтобы построить его, нам понадобятся некоторые параметры, размер вложения (размер вектора word2vec), максимальный размер словаря (сколько у нас уникальных слов) и максимальная длина последовательности (максимум слов в обзоре).
Приведенный ниже код дает вам все эти параметры, если вы тестируете его с другим набором данных, просто измените три переменные с результатом этого кода:

Теперь мы создаем поезд и тестируем входные данные, которые мы будем использовать в нашей CNN. Для каждого документа, в котором меньше слов, мы заполняем их «0». Это не меняет наши результаты, потому что CNN распознает шаблоны, и шаблон будет таким же, как в определенный момент или в другой. Например, для изображения это означает, что если изображение меньше других, мы добавим к нему черные рамки. Это не изменит изображение.

5.2 Определите CNN

Результат резюме должен быть следующим:

Рисунок 10: Сводка CNN

И давайте пойдем на тренировку из 10 эпох и снова в 50 раз!

Рисунок 11: точность и потери для CNN

В конце 10 эпох у нас есть точность для тренировочного набора 0,915 и 0,7768 для тестового набора. У нас есть небольшое переоснащение, и потеря проверки довольно нестабильна, но результаты здесь. Я тренировал это с большим количеством эпох, но это, кажется, лучшее, что мы могли бы иметь.

6. ВЫВОДЫ

Мы можем ясно видеть, что CNN лучше для этой задачи, и с моими другими кадрами данных у меня лично были те же результаты.
Но он все еще имеет неудобства, он намного глубже, имеет гораздо больше параметров и требует больше времени для тренировок. Для этого небольшого набора данных разница не так уж важна, но мне пришлось тренировать ее на основе данных для моей работы, а простому классификатору потребовалось 13 минут на обучение, когда CNN заняло 5 часов! Так что вам решать, какой из них вы хотите использовать.
Эти два классификатора все еще показывают хорошие результаты, и я заметил, что чем больше у них данных и чем важнее длина документа, тем лучше они. Для набора данных из 70 000 данных и максимальной длины документа 2387 моя точность теста составила 0,9829, так что это довольно обнадеживает!

7 ПЕРСПЕКТИВ

У меня есть две основные идеи, чтобы попытаться добиться лучших результатов. Во-первых, с помощью первого классификатора мы могли бы использовать другую более сложную нейронную сеть, такую ​​как рекуррентная нейронная сеть (CA-RNN: использование рекуррентных нейронных сетей с выравниванием контекста для моделирования сходства предложений (Chen, Hu & al., 2018).) или сеть Attentional Network, которая начинает использоваться сейчас (Иерархические сети внимания для классификации документов (Yang & al., 2016)).
Вторая идея для встраивания слова, в 2018 году Google показал новую модель под названием BERT (BERT: предварительная подготовка глубинных двунаправленных преобразователей для понимания языка (Devlin, Chang & al., 2018)) кому выгодно использовать сегментацию токенов. Например, если в наших данных есть слово «археолог», оно может запомнить «археологию», а когда появится слово «археология», оно будет знать, что оно связано с археологом, где word2Vec просто игнорирует слово, которого нет знать.

Понравилась статья? Поделить с друзьями:
  • Word клавиши управления курсором
  • Word клавиши сохранить как ctrl
  • Word клавиши по добавлению строки в таблицу
  • Word клавиши перехода страница
  • Word клавиши для перемещения по документу