Книги Памяти. Часть 3.

Нумерация страниц.

Образец файла. Первая колонка содержит исходный текст, полученный после FineReader. Вторая – простановка номеров страниц для каждой записи. Третья – проверка совпадает ли первый символ текущей строки с первым символом следующей строки.

Дальше листаем записи и выделяем цветом строки для последующего удаления: строки с номером листа и пустые ячейки. Третья колонку используется как маркер для поиска некорректного разделения текста, если находим ошибку, исправляем ее. По сводной таблице на втором листе ищем есть ли пропуски в нумерации листов.

Завершив проверку, сохраняем значения номеров страниц и удаляем ранее выделенные строки. Добавляем колонку со сплошной нумерацией строк.

Выделение ФИО.

Образец файла. Для одного из последующих этапов, нам понадобятся фамилии, имена и отчества, разделение производится по первой запятой в тексте. Как правило ФИО находится до первой запятой, некоторые запятые проставлены ошибочно, сверяемся с оригиналом и исправляем ошибки. В некоторых записях в качестве разделителя использована точка.

Разделение на логические блоки.

Образец файла. Для начала, посмотрим на записи КП:

  • СМОЛИН Сергей Григорьевич, род. 1916, г. Ижевск. Призван в Сов. Армию в 1937, Можгинский РВК. Матрос. Умер в госпитале 10 марта 1942. Похоронен: г. Ленинград.
  • СНЕГОРУНКО Григорий Васильевич, род. 1924. Призван в Сов. Армию Можгинским РВК. Сержант. Умер от ран 7 авг. 1943. Похоронен: с. -з. Дубино, Курская обл.
  • СОЗИН Александр Васильевич, род. 1905, пос. Пычас. Призван в Сов. Армию Пычасским РВК. Рядовой. Погиб в бою 1943.

Можно увидеть, что текст состоит из нескольких логических блоков:

  1. ФИО
  2. дата и/или место рождения, начинается со слова «род.»
  3. дата и/или место призыва, начинается со слова «Призван»
  4. воинское звание и/или место службы
  5. дата и/или место смерти, начинается со слов «Умер», «Погиб» или «Пропал»
  6. место захоронения, начинается со слова «Похоронен»

Подбирая ключевые слова, разделяем текст на логические блоки. Сначала блок "Похоронен", включаем фильтр по пустым значениям и просмативаем записи в колонке "Оригинал" в поисках нестандартных описаний места захоронения. Затем аналогично блок "Умер" и т.д. В процессе, будут находится новые ошибки в тексте, сверяясь с оригиналом, исправляем их.

Самый важный блок – "Родился", на втором листе формируем сводную таблицу по этому блоку. В соседней колонке по ПРАВСИМВ вырезаем из текста места рождения, а результат сводной таблицей помещаем на третий лист. В итоге из нескольких тысяч сочетаний год/место рождения получается всего 200-300 мест рождения.

Комментарии

К данному материалу не добавлено ни одного комментария.