Электронная версия «Книги Памяти»: работа продолжается

На сайте «Родная Вятка» продолжается работа по оцифровке «Книг Памяти» по Кировской области, Удмуртской республике, Республике Марий Эл и ряду других территорий, относящихся к географии портала. К настоящему времени в базу данных добавлено 232015 записей о людях (обработано 41% от общего числа страниц), в том числе  190595 по Кировской области (68%), 23719 по Удмуртии (18%), 7367 по Марий Эл (11%), 10334 по Татарстану (31%).

Вся работа выполняется на добровольных началах активными пользователями сайта «Родная Вятка». Приглашаем участвовать всех, кто хотел бы помочь в реализации этого проекта!

Создание электронной версии «Книги Памяти» – один из важнейших проектов, реализуемых на нашем портале уже на протяжении 4-х лет. Мы распознаём данные о персоналиях из опубликованных томов Книги Памяти и переводим их в формат базы данных с возможностями поиска и привязки записей к базе населённых пунктов. Всего в проект включено 53 тома печатных «Книг Памяти».

Цель проекта – сделать максимально доступной и удобной в использовании информацию из этого издания, хранящего сведения о героях Отечества – павших участниках Великой Отечественной войны. Несмотря на наличие в сети таких проектов как «Память народа», ОБД «Мемориал», где информации больше, бумажные «Книги Памяти» остаются важным источником. Информация в Книгах Памяти структурирована по содержимому, сгруппирована по районам, где родились или жили участники войны.

С момента последнего отчёта, который мы делали ровно год назад – 17 февраля 2018 г. (ссылка), были обработаны данные по следующим районам:

Всего на текущий момент:

О ходе добавления материалов в раздел «Книга Памяти» мы писали в комментариях к статье «Продолжается работа над электронной версией Книги Памяти».

Приглашаем участвовать!

Для того, чтобы принять участие в работе по оцифровке Книги Памяти по интересующим вас районам, сообщите нам об этом на форуме: https://rodnaya-vyatka.ru/forum/101222

Работа состоит из нескольких этапов:

1. Распознавание текста, проверка и исправление ошибок в программе распознавания текста. Сохранение результатов работы в текстовый файл.

2. Обработка текстового файла: перевод в формат 1 строка – 1 персона, устранение регулярных ошибок распознавания, исправление переносов.

3. Загрузка полученного файла в электронную таблицу, разбивка на колонки (ФИО и биографические данные), добавление служебных данных (номер тома,  номер региона, номер района, номер страницы).

4. Сопоставление с данными ОБД «Мемориал» и расстановка ссылок-идентификаторов страниц на указанном ресурсе (для последующего быстрого перехода к просмотру сканов). В ходе этой работы также производится устранение ряда допущенных ранее ошибок (пропуск или дублирование записей), а также добавление номера страницы, если он не был добавлен на предыдущем шаге.

5. Формирование идентификаторов записей и загрузка в базу данных портала.

6. Выполнение геопривязки записей (привязка по 1 записи, массовая привязка либо загрузка привязок по заранее подготовленному файлу).

Помощь нужна в основном на этапе 1-2-3, т.е. собственно с распознаванием текстов и корректировкой ошибок распознавания. Это достаточно трудоемкая работа, требующая внимания и усидчивости.

Для работы желательно иметь некоторый опыт работы в программах распознавания текста, текстовом и табличном редакторе, или твёрдое желание научиться.

Кроме собственно распознавания текста, мы выполняем привязку записей к базе населённых пунктов. В результате этой работы на страницах сёл и деревень появляются списки местных героев – павших воинов Великой Отечественной войны.

Как показала практика, наиболее эффективный путь решения этой задачи – обработка текста Книги Памяти по определенному району и составление списка географических объектов, там упоминаемых в качестве места рождения или места жительства воина. Объём такой таблицы значительно меньше, чем записей в Книги Памяти (из каждой деревни, как правило, несколько солдат). По этой таблице необходимо выполнить поиск населённых пунктов в базе сайта и проставить их ID. После обратного сопоставления с текстом Книги Памяти привязки мы загружаем на сайт. Как правило, после такой процедуры привязанными оказываются 70-90% записей (часть привязать к конкретному населённому пункту невозможно, т.к. место указано не точно – только сельсовет, не указано вовсе или указано ошибочно).

Если вы желаете помочь с привязкой записей – сообщите нам, мы подготовим файл для привязки по любому из обработанных районов.

Комментарии

Аватар пользователя Виктор_В

Надеюсь в течении недели 6 том КП УР закончу, еще пять районов добавится

Аватар пользователя Иван Зыков

В работе 3-й том по Кировской области (3 района).

Здраватвуйте!

Хотела бы поучаствовать в проекте. Интересует Куженерский район, но смотрю, что он уже оцифрован. Кстати, видно, что Книга Памяти Марий Эл создавалась до открытия ОБД Мемориал - данные о наших родственниках не точные.

Могу взять любой район.

Аватар пользователя ru-danko

Можете попробовать поработать с КП Сернурского района. Есть сканы: https://yadi.sk/d/rM3YYcHsNjES9

Ок, чуть позже спрошу что делать конкретно.

Аватар пользователя ru-danko

В базу добавлен 6-й том по Удмуртской республике: https://rodnaya-vyatka.ru/kniga-pamyati/books/1806

Это основной массив по 5 по следующим районам: 

Всего 19658 записей.

Обработку выполнил Виктор Щербань. Спасибо!

Аватар пользователя Танюська

Добрый день! Есть некоторый опыт работы с домашней версией finereader, текстовым и табличным редакторами, геопривязку никогда не делала. Также есть желание помочь, но не всегда есть много времени. Если время не  очень сильно подгоняет, то мне интересен Котельничский район, но сначала хотелось бы посмотреть образец или пример, чтобы понять справлюсь ли.

Аватар пользователя ru-danko

Котельничский уже сделан. Вот полный список районов с текущим состоянием работы: https://rodnaya-vyatka.ru/kniga-pamyati/districts

Аватар пользователя ru-danko

В базу добавлен 9-й том Книги Памяти Удмуртской республики (https://rodnaya-vyatka.ru/kniga-pamyati/books/1809):

  • Воины, погибшие, умершие от ран и пропавшие без вести, списки которых дополнительно выявлены в военкоматах республики, из Книг Памяти других регионов России, получены из Центрального архива Министерства Обороны РФ, от исследователей, родственников, с медальонов, найденных поисковыми отрядами России.
  • Воины, погибшие и умершие от ран в Чеченской Республике, в вооруженном конфликте в Республике Дагестан и погибшие при исполнении воинского долга, конституционных обязанностей.

А также часть страниц 7 и 8 томов.

Обработку выполнил Виктор Щербань. Спасибо!

Аватар пользователя ru-danko

На сайт добавлен 2-й том Книги Памяти Удмуртской республики: https://rodnaya-vyatka.ru/kniga-pamyati/books/1802

Это следующие районы:

Всего - 20034 записи!

Обработку выполнил Виктор Щербань. Спасибо!

Таким образом, общее количество записей по Удмуртской республике внесено в базу Книги Памяти - 68681, страниц - 1650 из 3320 (т.е. 49,7%)

Аватар пользователя ru-danko

Опубликованы списки уроженцев и жителей Ижевска из 7-го тома Книги Памяти Удмуртской республики: https://rodnaya-vyatka.ru/kniga-pamyati/books/1807

Добавлено 11169 записей. Обработку выполнил Виктор Щербань. Спасибо!

 

Аватар пользователя ru-danko

В раздел загружены списки воинов Немского района из 7-го, 17-го и 18-го томов Кировской области. Таким образом, завершена работа над Немским районом и над 7-м томом Книги Памяти Кировской области!

Распознавание и обработку текста выполнили Татьяна Громозова и Анатолий Мыльников. Сопоставление с ОБД Мемориал - Денис Шабалин.

Нужна помощь с выполнением массовой привязки записей КП Немского района к базе населённых пунктов. Файл для работы доступен по ссылке: https://drive.google.com/file/d/18AB9F_D2K2N8yt-LNf_aLNO8HkiuP_Ey/view

Аватар пользователя ru-danko

На сайт добавлен 3-й том Книги Памяти Удмуртской Республики, который содержит списки по следующим районам:

Всего - 20665 записей.

Обработку выполнил Виктор Щербань. Спасибо!

Процент обработанных страниц КП УР превысил 71% !

Аватар пользователя ru-danko

В раздел добавлены списки воинов из Книги Памяти Удмуртской республики: полностью 4-й и 5-й тома, а также часть 8-го тома.

Всего добавлено 35353 записи.

Обработку выполнил Виктор Щербань. Спасибо!

На данный момент по Книге Памяти Удмуртии осталось обработать лишь часть 8-го тома.

Аватар пользователя ru-danko

Загружены на сайт списки из Книги Памяти Лебяжского района (из 6-го, 17 и 18 томов). Таким образом, Лебяжский район опубликован полностью!

https://rodnaya-vyatka.ru/kniga-pamyati/districts/4315

Распознавание и обработку текста выполнил Анатолий Мыльников, сопоставление с ОБД Мемориал - Денис Шабалин

Аватар пользователя ru-danko

На сайт загружены списки из Книги Памяти по Шабалинскому району Кировской области (из 13, 17 и 18 томов). Таким образом, Шабалинский район и одновременно 13-й том Книги Памяти Кировской области опубликованы полностью!

Всего добавлено в базу 10244 записи.

Распознавание и обработку выполнила Татьяна Новикова, сопоставление с ОБД Мемориал - Иван Зыков. Спасибо!