Распознавание ВГВ и ВЕВ

53 сообщения / 0 новое
Последнее сообщение
vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Первой вятской газетой были «Вятские губернские ведомости» (1838–1917) и Вятские епархиальные ведомости [1863-1883]

Распозванание для полнотекстового поиска - как по фамилии, так и по населённому пункту. Пока в ручном режиме - поиск в тесктовых файлах, потом по известным номеру и странице - просмотр в оригинальных pdf (на сайте Герценки)

Начало здесь:
http://forum.vgd.ru/post/1858/3208/p1317230.htm?hlt=%D0%B2%D1%8F%D1%82%D1%81%D0%BA%D0%B8%D0%B5+%D0%B3%D1%83%D0%B1%D0%B5%D1%80%D0%BD%D1%81%D0%BA%D0%B8%D0%B5+%D0%B2%D0%B5%D0%B4%D0%BE%D0%BC%D0%BE%D1%81%D1%82%D0%B8+%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5#pp1317230
 

На сайте "Родная Вятка"

http://rodnaya-vyatka.ru/comment/13841#comment-13841

http://rodnaya-vyatka.ru/comment/16846#comment-16846

 

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Задача крайне интересная. Я сам рылся в ВЕВ, занятие муторное.
С библиотекой это обсудим, я думаю они поддержат.
Владимир, какое ваше видение технической стороны вопроса? Понятно, что мы можем опубликовать в виде базы данных с механизмами поиска результаты распознавания, в том числе со ссылками на файл первоисточника. Но я думаю важно также продумать механизмы улучшения распознавания, организовать работу пользователей по исправлению ошибок. Получить в конечном итоге полнотекстовую интерактивную версию ВГВ/ВЕВ - задача выглядит фантастической, на первый взгляд, но почему бы не попробовать!?

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Самое сложное - именно пользовательский интерфейс, так как машинную-то первичную обработку сделать не проблема. Еще, видимо, будет важно для поиска сделать "мостик" между дореволюционным написанием и удобным пользователю - например, как ввести обычному пользователю в запрос такие слова, как : Алексѣй, Сѵнодъ, Ѳеоктист, да даже діакон - это будет непросто даже догадаться рядовому пользователю, тем более на привычной кливиатуре нет таких символов! Даже не знаю, какой поисковый движок сможет это обработать.

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Мысли на вскидку:
1. Распознавание первоисточников будет вестись в оффлайне силами пользователей портала, кто пожелает принять участие.
2. На сайте необходимо реализовать интерфейс для публикации статей из ВЕВ / ВГВ.
Вопросы: какой набор полей будут иметь статьи ВЕВ, какой формат. Орфорграфия - в соответствии с первоисточником?
3. На сайте необходимо реализовать возможность редактирования текста, в т.ч. предусмотреть экранную клавиатуру по дореформенным символам
4. На сайте необходимо реализовать удобный механизм навигации по выпускам и статьям и механизм полнотекстового поиска с учётом особенностей орфографии

Делитесь идеями, пожалуйста.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Сделал простой тест на части данных (около 5%) - в итоге общий объем распознанных данных только по ВЕВ оценивается около 200 Мб (если делать в текстовом виде в формате UTF-8, например), ориентировочное машинное время распознавания - не более недели (реально пара дней, скорее всего). Но для достойного распознавания недостаточно качество исходных текстов, кроме того, для повышения качества может оказаться полезным не использовать PDF, представленные на сайте библиотеки, а постараться получить доступ к оригиналам сканов постранично.

Кроме того, при использовании систем машинного распознавания важны их настройки - от этого качество распознавания может меняться кардинальным образом (от 25% ошибок при значениях по-умолчанию - до 3% ошибок при корректной настроке) - в связи с этим первоначальную обработку предлагается провести более-менее централизовано, а не каждый файл по-разному.

P.S. Может заодно распознать и Труды Вятской Ученой Архивной комиссии - они наверняка есть в библиотеке им. Герцена? А там тоже много интересных сведений о Вятской губернии.

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Насчёт оригиналов я спрошу, но вероятность, что они сохранены, небольшая, т.к. для этого надо много дискового пространства.
Меня интересуют ваши идеи по тому, как это реализовать на сайте. Также интересует, кто собственно готов участвовать в этом проекте? Рассчитывать что кто-то придет и сделает не приходится, в первую очередь - свои силы.

Sash0k

Не в сети
Последнее посещение: 1 год 8 месяцев назад
Регистрация: 11.04.2015 - 22:55

Еще, видимо, будет важно для поиска сделать "мостик" между дореволюционным написанием и удобным пользователю - например, как ввести обычному пользователю в запрос такие слова, как : Алексѣй, Сѵнодъ, Ѳеоктист, да даже діакон - это будет непросто даже догадаться рядовому пользователю, тем более на привычной кливиатуре нет таких символов

Было бы логично вводить запросы на современном языке, а данные выдавать в оригинале.

Дореформенный язык вполне читабелен на интуитивном уровне, и тем более - после изучения краткой справки по буквам i, ѣ, ѳ, ѵ. Такую справку неплохо повесить на видном месте.

Перевод в дореформенный язык - вполне решаемая задача, посмотрите здесь: http://habrahabr.ru/company/abbyy/blog/223315/ Готовая реализация переводчика http://slavenica.com/ (но со словом діакон не справилась). Там же есть словарь.

 

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Было бы логично вводить запросы на современном языке, а данные выдавать в оригинале.

Пользователю не важно, как это писалось в оригинале, поэтому запрос должен быть максимально приближен для начинающего пользователя, т.к. "зубры" давно уже наверное прошерстили все тома. 

Можно тонкой настройкой "распознавалки" увеличить точность распознавания на несколько %

Денис, ответил в личку по теме.

 

 

 

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20
ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Посмотрел. Такое качество распознавания, конечно, не годится. Очень много нераспознанного текста. Кроме того, если я не ошибся, посмотрев несколько файлов, при распознавании не использована возможность распознавания в дореформенной орфографии.

Что касается перевода. Я распознавал "Описание приходов Вятской епархии" 1912 г. в исходной дореформенной орфографии (к слову, для качественного распознавания пришлось приложить немало ручного труда). Потом перевел на современную орфографию. Использовал, кстати, в том числе славенику для перевода. На сайте опубликованы обе версии - и оригинал, и перевод.

Использовать славенику для обратного перевода неправильно, т.к. мы этим оригинал не сохраним, а проверить корректность результата не сможем. Надо распознавать в оригинале, а потом переводить на современный язык (если это требуется). На мой взгляд, тексты должны быть в оригинале, а поиск должен быть как в современной, так и старой орфографии.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Посмотрел. Такое качество распознавания, конечно, не годится. Очень много нераспознанного текста. Кроме того, если я не ошибся, посмотрев несколько файлов, при распознавании не использована возможность распознавания в дореформенной орфографии.

Тогда и не ставилась цель получить полночитаемый текст,  сами понимаете, что силами 1 человека это не под силу. Начав вычитывать все номера подряд в надежде найти упоминание родных мест и фамилий, понял, что быстрее будет распознать по-чёрному, и там уже искать всевозможные варианты. Скачивали несколько месяцев, на распознавание ушло недели 3, сам поиск занял пару часов. Результаты были положительные, нашёл несколько интересных материалов.

Не думаю, что по исходным оригиналам получится текст намного лучше, конечно можно распознавать с "обучением" и использованием "пользовательского эталона", но придётся для каждого года это делать. А если править для комфортного чтения - это задача на тысячи человекочасов.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Не соглашусь с Владимиром по вопросу возможного качества распознавания - ниже ссылка на один файл для сравнения. Файл не подвергался ручному редактированию вообще.

http://files.webfile.ru/52d8367238b7d70eacb4e2f3796b1510

В свое время я общался со специалистами по вопросам машинного перевода - они рекомендовали не жалеть времени на техническую сторону вопроса (причем речь не о пользовательских словарях, а о предварительной обработке изображений, подлежащих распознаванию).

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Да, предварительная обработка (увеличение контрастности, чёткости) значительно влияет на качество машинного распознавания. В библиотеке мне сказали, что оригиналы сканов сохранились, но тогда этим занимались другие люди и тогда у них не было хорошего оборудования, поэтому качество скорее всего такое же как в PDF. Пришлют примеры файлов - выложу сюда.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

В библиотеке мне сказали, что оригиналы сканов сохранились, но тогда этим занимались другие люди и тогда у них не было хорошего оборудования, поэтому качество скорее всего такое же как в PDF.

Если оригиналы в графическом виде, то можно обработать, 20 Гиг в pdf …

Но ведь первоначальное распознавание велось из pdf без обработки изображений,  да общее количество по ВГВ ~2400, каждый pdf - несколько страниц.

Вот интересное решение по «Санктпетербургским Ведомостям»:

http://ved.infotec.ru/?r=201&id=509

 

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Примеры исходных сканов: http://dropmefiles.com/EfDLr Оцените качество. Если оно лучше, чем в PDF, можем взять в библиотеке.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

При выборочном попиксельном сравнении (увеличение в 30-40 раз, то есть 3000-4000%) различий не обнаружено - значит, промежуточной перекодировки не было. Скорее всего, в PDF были просто скомпанованы исходные данные "как есть" и это очень хорошо для обработки!!

s_rabbit
Аватар пользователя s_rabbit
Активист

Не в сети
Последнее посещение: 6 месяцев 1 неделя назад
Регистрация: 26.11.2014 - 13:04

Для распознавания, правки и полного перевода на современный язык нескольких тысяч номеров «Ведомостей», в короткие сроки (до одного года), нужны несколько сотен (я так думаю, да) участников. Напомню, что в обработке СНП-1939 приняло участие чуть больше 20 человек из всех пользователей сайта, заняло это времени пару месяцев, а объём работы не сопоставим. Полная правка в соответствии с дореформенной орфографией, те же валенки, только с другого боку. 

 Я, сейчас, также просматриваю "все номера подряд  в надежде найти упоминание родных мест и фамилий". Посему, эгоистично, предлагаю в распознанном тексте править, в соответствии с современной орфографией, только «географию» и «персоналии». Потому как согласен с Владимиром, что "не важно, как это писалось в оригинале". Я хочу получить результат на запрос Нолинский уезд, а не Нолинскiй уъзд. Результат обработки получить "в виде базы данных с механизмами поиска … со ссылками на файл первоисточника". Пусть это будет первый этап.

"...кто собственно готов участвовать в этом проекте?" С оговорками готов. 

Я интересуюсь фамилиями:
Молчанов Нелюбин Русских Машаров
Sash0k

Не в сети
Последнее посещение: 1 год 8 месяцев назад
Регистрация: 11.04.2015 - 22:55

Посему, эгоистично, предлагаю в распознанном тексте править, в соответствии с современной орфографией,только «географию» и «персоналии»

На практике не сталкивался ранее с подобными задачами, но план действий видится таким, что портить оригиналы необязательно.

Примерный план:

1) Распознать всё в дореформенной орфографии. Вчера читал, что ABBYY хорошо умеет справляться с этой задачей. Не корректировать распознанное. 

2) Правила перевода дореформенная <-> современная орфография известны, их можно запрограммировать. Суть в том, что пользователь вводит запрос на современном языке, далѣе языкъ транслируется въ дореформенное написаніе, и полученный запрос ищется в данных. Но по большому счету это вспомогательный механизм, потому что см. п.3.

3) Основная ценность данных, как было справедливо замечено - это фамилии и географические названия. Большинство из них уже систематизировано в "Родной Вятке". Вручную необходимо сделать только выверку их перевода на дореволюционный, далее создать морфологические словари (см. п.2, правила известны), при запросе в первую очередь пользоваться ими.

4) Дополнительно. Желательно держать в уме и оповещать пользователей о неочевидных на первый взгляд особенностях того времени. Например, нет смысла искать базе данные в километрах и килограммах, тогда мерили верстами и пудами.

Никогда не доводилось распознавать большие объемы данных. С базами данных и программированием немного знаком. Готов попробовать заняться п.2. Также интересно услышать критику описанной схемы

 

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

А что если сделать так - по той ссылке, что прислал Владимир (vbob) на "Санктпетербургские ведомости" получается, что к странице фактически просто прилинкована карточка, в которой есть ссылки на персоналии, НП и т.п. Я там не увидел ссылки на оригинал страницы, но это легко сделать же?

Никто не мешает сделать так, чтобы пользователи просто привязывали к странице такие объекты-ссылки, а уже после эти линки также использовались поисковой системой уже при поиске другими пользователями. А уж на странице найти про что идет речь - может потом каждый самостоятельно, главное знать на какую страницу идти. И даже первичную такую привязку НП можно сделать один раз при заливке - для тех НП, что совпадут, например?

Полная же выверка текста вручную - дело многих лет, объем информации здесь очень большой.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Во! Оставить оригинальный текст как есть с возможностью правки (оставляя в нем дореформенную орфографию), и поиск проводить как по тексту в дореволюционном виде, так и по прилинкованным объектам (с современной орфографией!) ?

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Денис, ещё вопрос по самому сайту - как показывают прикидки Тимофея (TKalinin), " в итоге общий объем распознанных данных только по ВЕВ оценивается около 200 Мб (если делать в текстовом виде в формате UTF-8, например)", и мой дилетанский опыт распозвания ВГВ - 100 МБ, т.е. 300 мег надо выделить, места свободного хватит?

Вот ещё один образец распознанных pdf со встроенным поиском (на закладке "поиск" пишется слово - и все результаты показаны в левом фрейме,

по щелчку открывается нужная страница. Тоже, кстати, хороший ресурс в плане поиска по фамилии и региону.
 

http://dlib.rsl.ru/viewer/01005447510#?page=39

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Дополнение: а если еще хранить оригинальные страницы (графика или PDF) - для их показа пользователям в каком-то окне, то ВЕВ без оптимизации занимает около 100 Гб, а ВГВ занимает около 20 Гб...

(допускаю оптимизацию изображений для просмотра - но даже в этом случае общий объем по ВЕВ и ВГВ оцениваю в 5 Гб (адаптивное разрешение в среднем 150 dpi)).

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

> места свободного хватит?
Места хватит
>Вчера читал, что ABBYY хорошо умеет справляться с этой задачей. Не корректировать распознанное.
Верно. Но есть особенность распознавания дореформенных текстов. OCR при распознавании использует словари. Словари русского языка в файнридере есть, а вот словарей дореформенного языка нет. Поэтому при распознавании текста в дореформенной орфографии гораздо больше ошибок, чем при распознавании современного русского текста.
>Никто не мешает сделать так, чтобы пользователи просто привязывали к странице такие объекты-ссылки, а уже после эти линки также использовались поисковой системой уже при поиске другими пользователями.
Что касается поиска как по тексту, так и по вручную привязанным ключевым словам - конечно можно, - я об этом тоже думал. Можно сделать добавление ключевых слов как при добавлении материалов, так и при редактировании.
> Суть в том, что пользователь вводит запрос на современном языке, далѣе языкъ транслируется въ дореформенное написаніе, и полученный запрос ищется в данных.
Что касается орфографии поиска. То, что предлагает Sash0k (переводить запрос и искать переведенный текст в распознанном) - на мой взгляд, плохая идея, потому что запрос может быть переведен неправильно. Мы не сможем при всем желании сделать безупречную машину по переводу на дореформенный язык. А вот обратное - более реально. Таким образом нужно либо при поиске производить замену в исходном тексте устаревших символов на современные буквы, или хранить оба варианта исходного текста (переведенный и нет).

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

> Дополнение: а если еще хранить оригинальные страницы (графика или PDF) - для их показа пользователям в каком-то окне
Вот на это ресурсов на текущий момент наверное не хватит.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Кстати, о птичках - а ведь на самом-то деле нет задачи выполнять функции библиотек! Для работы портала важно не читать издания, а иметь возможность найти НП и Фамилию - значит, просто достаточно будет указать ссылку на то место, где искать. Так ведь?

Может просто сделать заполняемую БД, в которой к номеру издания (к страницам) все будут по мере желания просто привязывать НП и фамилии?

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Словари русского языка в файнридере есть, а вот словарей дореформенного языка нет.

А вот уже сделали, оказывается: в состав ABBYY Firereader 12 включена словарная поддержка для русского языка старой орфографии: http://www.abbyy.ru/finereader-professional/recognition-languages/

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Если попробовать опираться на те ресурсы, которые у нас есть. Тимофей, как ты оцениваешь качество распознавания в автоматическом режиме имеющихся сканов с минимальными человеческими ресурсами? Есть ли способы пакетного распознавания? Можно поступить так: все распознать в автомате, но те выпуски, где много ошибок (выше какого-то порогового числа), перераспознать в интерактивном режиме.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Денис, как я смотрю в экспериментах за эти дни, ВЕВ распознаются гораздо лучше - по информации самого файнридера, количество неуверенно распознаваемых символов составляет в среднем 5% (при этом навскидку 90% из них распознаны верно, то есть в итоге получаем менее 1% ошибок). Для ВГВ исходные оригиналы имеют качество сканирования гораздо хуже - там уровено неуверенно распознанных символов около 15-20%, и ошибок в итоге примерно около 5% - и это чувствуется. В целом - тем не менее, похоже, и для ВЕВ и для ВГВ часто удается получить наиболее важную информацию.
Файнридер позволяет обрабатывать файлы группами - обработка года вручную (но целиком) занимает примерно 1 час на сервере средней мощности (2 или 4 Xeon'ов). Для такой обработки достаточно открыть файлы одной операцией (например, при открытии в папке нажать Ctrl+A для выделения всех файлов в ней), далее обработать, а при сохранении в меню сохранения в выпадающем меню выбрать Опции файла: Создавать отдельный файл для каждого входного файла.
При сохранении в формате текстовых файлов, как предлагал Владимир, можно отметить Параметр сохранения: разделять страницы символом начала страницы - это позволит при импорте в БД для поиска разделить страницы.
К сожалению, могу констатировать, что у меня сейчас нет в доступности специалистов по распознаванию, а было бы неплохо взять у них консультацию. По моему опыту последних дней, если проводить распознавание файлов "как есть", то оно идет дольше и похуже, чем если сперва открыть файлы, потом выделив все страницы, открыть режим редактировать страницы и назначить всем страницам разрешение от 600 до 1200 dpi для ВЕВ или 400-600 для ВГВ. Вероятно, есть еще способы улучшить качество, но похоже, мне эти варианты не подобрать.
Я согласен, что было бы хорошо пойти например таким образом: распознать "вчерновую" автоматически с разбиением на страницы, а потом уже по надобности редактировать. Но есть неккоторые тонкости, вот навскидку:

  1. В текстах часто использовались переносы слов на новую строку, и это надо как-то обработать, так как иначе получаем разделенные слова, например, Вят-ка (с переносом строки) - и тогда в поиске рискуем их не найти в результатах.
  2. В текстах есть таблицы, они распознаются гораздо хуже, и встает вопрос - а как редактировать потом вручную?
  3. В ВГВ много напечатано в 2 колонки - тоже распознается похуже, тем более что встречаются 2 колонки, разделенные еще горизонтальными линиями - там вообще с расположением блоков текста на странице становится непросто - и тоже непонятно, как это все потом редактировать.

Может, для "прикидки" начать с ВЕВ - они распознаются вполне прилично? Вчерную их целиком можно распознать до конца недели, но что дальше делать и в каком формате сохранить, пока не понимаю. Запихивать в SQL базу, как у меня, я не смогу (тут надо сидеть и писать код, что мне сейчас совсем нереально) - можно экспортировать в .txt - но тоже не знаю, что с ними делать потом.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20
  1. В текстах часто использовались переносы слов на новую строку, и это надо как-то обработать, так как иначе получаем разделенные слова, например, Вят-ка (с переносом строки) - и тогда в поиске рискуем их не найти в результатах.
  2. В текстах есть таблицы, они распознаются гораздо хуже, и встает вопрос - а как редактировать потом вручную?
  3. В ВГВ много напечатано в 2 колонки - тоже распознается похуже, тем более что встречаются 2 колонки, разделенные еще горизонтальными линиями - там вообще с расположением блоков текста на странице становится непросто - и тоже непонятно, как это все потом редактировать.

по п. 1 - возможен поиск по маске, как например в FARе: * - неск. символов, & - 1 символ, [c, x-z] - любой символ из находящихся в кв. скобках.

п.2 и 3 - нормально возможно только на этапе распознавания! -> "анализ макета страницы Ctrl-F", "Анализ структуры таблицы", подчистка. Это самый трудоёмкий процесс - т.к. общее кол-во страниц более 20 тыс.

По выходному формату - можно в html (xml) , тогда сохранится оформление страницы (таблицы, абзацы, шрифты).

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Попробовал "проиграть" вариант с редактированием вручную - это просто ужас-ужас. Дело в том, что ВЕВ, например, выложенный в библиотеке им. Герцена, в совокупности состоит примерно из 95 тыс. страниц. Если на одну страницу затрачивать всего 5 минут, то всего для сверки-редактирования потребуется примерно 4 человеко-года (при полном рабочем дне!!!). Но 5 минут едва хватает поправить основные опечатки, если же потребуется делать корректное оформление страницы, то потребуется по крайней мере в 3-5 раз больше времени (15-30 минут на страницу). В итоге грубая оценка трудозатрат составит не менее 10-15 человеко-лет, а это пока кажется нереальным (10-15 человек в течении года "забивают" на основную работу и занимаются только редактированием)!

Поэтому, мне кажется, наилучшим вариантом будет не добиваться идеального редактирования, а сосредоточиться на корректных "привязках" имен и НП, и поиск делать в том числе по ним. А уж исходные страницы все желающие и так могут посмотреть в библиотеке.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Сделано автоматическое распознавание всех ВЕВ (что выложены на сайте библиотеки) в текстовые файлы - тем способом, как Владимир тогда начинал, с отличием - использована кодировка UTF-8 при сохранении в файлы .txt, и перед распознаванием разрешение всех страниц устанавливалось в 600 dpi. Других видов обработки не проводилось, ручного редактирования и выделения таблиц и прочего - также не проводилось. Результат в итоге занял 250 Мб, в сжатом виде - чуть менее 70 Мб. Пока кажется не полезным выкладывать это в общий доступ, но если кого заинтересует (имеется в виду в применении к дальнейшей работе по этому проекту), готов выслать ссылку на файлы.

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Тимофей, пришли мне пожалуйста. 

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Отправил ссылку на то, что получилось. Делаю попытки распознавать ВГВ, но там ситуация гораздо труднее - почему-то встречаются и перевернутые страницы, и качество оригиналов гораздо хуже.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

По ВЕВ - очень хорошо получилось! Всё-таки техника и ПО не стоят на месте…

Попробую погонять поиск.

upd:
по буквам "Ихт" (село Ихта) - более 175 файлов, пока все не смотрел, но уже есть несколько очень интересных находок! в т.ч.:

vev_1875_05_10.txt

Утверждены въ должности церковнаго старосты: крестьяне— Павелъ Сѣдыхъ къ Войской церкви Яранскаго уѣзда, Петръ Братухинъ къ Макарьевской, Гавріилъ Булдаковъ къ Никулицкой, Михаилъ Сергіевъ къ Лубягинской, Иванъ Юркинъ къ Кстининской Вятскаго уѣзда—28 апрѣля, Иванъ Черепановъ къ Ихтинской Яранскаго уѣзда—1 мая и Ѳеодоръ Бобровъ къ церкви села Боровицы Орловскаго уѣзда—8 мая.

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Тимофей, распознавание выполнено хорошо. Для такого качества оригинала даже отлично. Будем думать.

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Посмотрел сайт электронной библиотеки Белинки (Екб) http://elib.uraic.ru/ - прикольно у них сделано. Выложены сканы в PDF, доступен полнотекстовый поиск. Распознавание сделано автоматически и тоже с ошибками, но зато можно искать книги по тексту! Порой надо изловчаться, искать по сокращению, или угадывать ошибки распознавания - но стократ лучше чем ничего. Надо пробовать сделать что-то подобное.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Спасибо за интересную ссылку. Сходу нашёл несколько интересных материалов. Единственное неудобство - для начинающих будет непросто, т.к. поиск надо проводить 2 раза, сначала на сайте, потом в скачанном pdf.

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Неплохо поиск сделан также на сайте Ленинки, например http://dlib.rsl.ru/viewer/01003186796#?page=1 (слева (правее от Эскизы) есть ссылка Поиск, можно задать слово "вятчан" - без кавычек, естественно). И получим сразу: слева видны кусочки текста с найденным фрагментом и справа - оригинал.

 

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Ура! В Вятской электронной библиотеке (при Герценке) в списке книг стали появляться Труды Вятской ученой архивной комиссии (ТВУАК) - и что самое ценное - уже содержащие распознанный слой текста, по ним легко будет делать поиск!

ru-danko
Аватар пользователя ru-danko
Администратор

Не в сети
Последнее посещение: 2 дня 7 часов назад
Регистрация: 12.03.2012 - 21:19

Удмурты тоже выкладывают: http://elibrary.unatlib.org.ru/handle/123456789/5212/search?query=%D0%A2...

TKalinin
Активист

Не в сети
Последнее посещение: 8 месяцев 1 неделя назад
Регистрация: 30.10.2014 - 23:08

Ссылку на удмуртскую библиотеку я знаю, но там нет распознанного слоя, да и копирование официально не разрешено, а в рамках проекта распознавания интересны случаи, когда есть возможность выполнять поиск по словам для поиска материала, используя компьютеры, а не вручную. Собственно, все материалы ТВУАК я уже распознал самостоятельно (получая из разных источников), но не все исходные материалы были хорошего качества, к тому же предпочитаю, чтобы они были где-то опубликованы, и предпочтительно централизовано, в библиотеках - тогда можно давать на них ссылки при исследованиях!

Татьяна Мельм
Активист

Не в сети
Последнее посещение: 8 часов 47 минут назад
Регистрация: 26.09.2015 - 13:26

Вятские Епархиальные Ведомости (ВЕВ) выходили последний год в 1917. Библиотеке Герцена большое спасибо, за доступ, за качество работы. Но приходиться самим составлять каталог статей, хотя часть до какого-то года есть в самой библиотеке.

Татьяна Мельм
Активист

Не в сети
Последнее посещение: 8 часов 47 минут назад
Регистрация: 26.09.2015 - 13:26

Спасибо, Владимир Николаевич за труд. Будем следовать вашим рекомендациям.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

Периодически люди обращаются за распознанными номерами Ведомостей. Старые ссылки устарели.

Представляет интерес в основном для краеведов - быстро найти все номера с интересующим н/п, кто интересуется церковнослужителями - по ним достаточно много информации.
Найти сведения о своих предках из крестьян практически нереально.

ВЕВ распознанны полностью с хорошими результатами. 3097 файлов, 51 Mб.
Ссылка: https://cloud.mail.ru/public/B1c2/o6gMXAZkA

ВГВ - сделано частично… с 1838 по 1841 г.г., остальное распознавание низкого качества. 2401 файл, 24 Мб.
Ссылка: https://cloud.mail.ru/public/ExBU/mXQUJc8DC

 

Перо

Не в сети
Последнее посещение: 5 месяцев 1 неделя назад
Регистрация: 24.09.2014 - 17:25

По вашей ссылке на распознавание ВЕВ у меня показывает, что скачивание может повредить ваш комп. Очень полезный ресурс для поиска моих предков (священнослужителей). Подскажите, что делать? Может кто-то уже скачивал и все нормально?

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

это политика безопасности, скачивание файлов с расширением rar потенциально опасно, т.к. там может быть вирус.

В данном случае архив содержит текстовые файлы , подготовлен лично мной, так что скачивайте и пользуйтесь. Надеюсь, архив сможете распаковать.

Татьяна Мельм
Активист

Не в сети
Последнее посещение: 8 часов 47 минут назад
Регистрация: 26.09.2015 - 13:26

Большая благодарность Владимиру Николаевичу, за труд и сэкономленное время читателей ВЕВ.

Перо

Не в сети
Последнее посещение: 5 месяцев 1 неделя назад
Регистрация: 24.09.2014 - 17:25

Благодаря ВЕВ нашла своих предков и продолжаю дальше искать. Огромное спасибо Владимиру Николаевичу.

vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

На сайте Герценки появились ВГВ за 1865-1901 года, распознанные, с возможностью полнотекстового поиска.

Для этого нужно скачать ведомости, допустим за 1 год в каталог на своём компьютере, открыть Adobe Reader -> Редактирование -> Поиск ( Shift+Crlf+А )

В появившемся окне поиска выбираем "Где искать - во всех документах PDF - Обзор..."  - выбираем каталог куда скачали ведомости. В поле Какое слово искать пишем критерий поиска.

Получаем список ведомостей, где встречается искомое слово:

 

Mshrm

Не в сети
Последнее посещение: 6 часов 59 минут назад
Регистрация: 04.02.2012 - 23:57

здравствуйте. реально обновить ссылки из этой темы?

Я интересуюсь фамилиями:
Перминов Кожинов Киселев Норин
vbob
Модератор

Не в сети
Последнее посещение: 1 месяц 15 часов назад
Регистрация: 30.04.2013 - 20:20

можно, только там не всё распознано...

на сайте Герценки все ведомости распознаны в pdf,с возможностью полнотекстового поиска. правда  для этого их надо скачать, что не так просто - нужен IE

Страницы