Зарегистрироваться
Восстановить пароль
FAQ по входу

Где сведения о текстовом слое в файлах PDF/DJVU?

  • Добавлена пользователем
  • Отредактирована
У меня в библиотеке есть 12-томный энциклопедический словарь Старчевского. Хотя исходники были не слишком качественные, но я все-таки однажды выполнил OCR, что так или иначе облегчило мне навигацию и пользование словарем.
Здесь этот словарь тоже представлен -- но сведения о том, содержат ли файлы текстовый слой, в описаниях, как ни странно, отсутствуют! Так что внесение предложения об их возможной замене на файлы с OCR осуществимо только после пробного скачивания -- то есть, неосновательного расходования баллов -- что кажется мне несправедливым.
Интересно, каково мнение на этот счет у других участников?

Комментарии

Поскольку тему пока нельзя - объективно - считать исчерпанной, приходится ее хотя бы кому-то продолжать. ™)
Ранее упоминалось, что известная программа индексации текстовых документов Архивариус-3000, создавая новый индекс, завершает процесс выводом журнала с перечислением всех файлов (с их полными путями), не содержащих текстового слоя, помечая их "File is empty". Полагаю, использование полученного списка в целях автоматизации маркировки книг в библиотеке доступно нормальному программисту.
А теперь уточнение, ради которого пишется пост: целесообразно ставить маркер не "OCR" - Архивариус иногда ошибается, принимая произвольные наборы знаков за осмысленные тексты - а "NO OCR", поскольку в этом случае ошибок не бывает или их значительно меньше.
В развитие темы пришла идея: каждому, кто скачал из библиотеки файл формата pdf и djvu, не содержащий текстового слоя (о чем описание умалчивало) - по его заявлению должны быть возвращены истраченные на скачивание 10 баллов. Именно по заявлению, поскольку некоторых невзыскательных читателей отсутствие OCR может и устраивать.
Пользовательское соглашение, с которым Вы и все остальные пользователи согласны постольку, поскольку зарегистрировали аккаунт и не удаляете его:
Содержание и безопасность материалов, размещенных на Ресурсе, не могут быть проконтролированы Администрацией Ресурса, поэтому последняя не несет ответственности:
за содержание материалов, полученных Пользователем в результате использования Ресурса
...
за возможное несоответствие результатов, полученных при использовании Ресурса, ожиданиям Пользователя;
Спасибо за внимание!
К сожалению, в разделе "Пользовательское соглашение" я не нашел ничего о баллах, из чего делаю предположение, что их система не подпадает под режим ответственности.
О них говорится в другом месте:
/about/faq/account/
Баллы - это своеобразная «валюта» внутри сайта.
Каждый файл на нашем сайте имеет цену 10 баллов.
Во-первых, они нужны для стимулирования развития нашего сайта его же пользователями...
На мой взгляд, совершенствование описания размещаемого материала, стимулируемое средствами балльной оценки, развитию сайта может только способствовать. Не находите?
ПС - это правоустанавливающий документ сайта, а FAQ - только практические правила пользования (инструкция).
должны быть возвращены
кем?
Средствами и возможностями Patris, Filii, или Spiritus Sancti (незлобивая шутка). Полагаю, о механизме говорить пока рано, прежде следовало бы рассмотреть конструктивность идеи в принципе.
следовало бы рассмотреть конструктивность идеи в принципе.
Что и делаю )
Ну, в данном случае я, скорее, технолог и за конструктив не отвечаю; когда идеи носятся в воздухе, их достаточно подхватить, а подхватить их может любой, было бы желание. ™)
следовало бы рассмотреть конструктивность идеи в принципе.
за конструктив не отвечаю
Вы уж определитесь)
Я уже определился: хотя ответственность за систему балльных оценок императивно и позитивно не определена, я предпочел бы ее конструктив лично на себя не брать, а справедливо разделить с другими. Всем сестрам по серьгам, всем братьям по бритьям! ™)
Второй раз попадаюсь) Дай бог, последний. Все забываю, что речь о - а поговорить? ))
внесение предложения об их возможной замене на файлы с OCR
По-любому не спешите с этим, т.к. OCR для замены должен быть вычитан. (FAQ по добавлению и редактированию файлов, п. 20.)
содержат ли файлы текстовый слой, в описаниях, как ни странно, отсутствуют!
Если Вы хотите, чтобы эта информация присутствовала, у Вас нет другого выхода, кроме как самостоятельно заняться её массовой простановкой во всех скановых файлах всего сайта.
неосновательного расходования баллов
Невозможно вносить полезные предложения и не расходовать баллы. Но 1) корректные предложения вознаграждаются баллами в ответ 2) предполагается, что Вы тем временем будете активно зарабатывать и другими способами.
Спасибо за разъяснения; я полностью согласен и с ними, и с правилами, положенными в их основу, и с тем, чтобы раз и навсегда определить свой вопрос риторическим. :))
Что касается стремления некоторых достичь аутентичности электронной копии книги и ее бумажного оригинала, - считаю это голым идеализмом и голимым перфекционизмом. По Потебне, "слушающий может гораздо лучше говорящего понимать, что скрыто за словом, и читатель может лучше самого поэта постигать идею его произведения", что выдвигает на передний план не только авторов книг, но и нас, читателей, правомочных перерабатывать книги в своих целях и интересах. Не человек для Книги, но книга для Человека! ™)
Когда я скачиваю пэдээфку без текстового слоя, то всегда выполняю OCR, даже если качество распознавания будет ниже среднего. После чего вливаю ее в свою индексированную базу Архивариуса-3000, что худо-бедно, но лучше чем никак, позволяет вести поиск по всем текстам базы. Цель достигнута, интерес удовлетворен. Да, нескорректированные ошибки распознавания делают поиск неоднозначным, но погрешность можно минимизировать вариацией поисковых запросов. Разве не так мы ведем себя в пространстве Яндекса или Гугла?
+ в научно-технической литературе бывает еще масса спец.символов, математических и химических формул. Технологии распознавания еще до этого уровня не дошли. Так что тем более никто не будет вычитывать ocr в таких книгах. Да и смысла для поиска в этом нет. А Архивариусом сам пользуюсь - это как гугл, по не в сброде информации, а в книгах.
Можно было бы понять требования к вычитке, если бы кто-то пытался выложить отлельно ocr, например doc-файл. Тогда да, без нее это мусор.
А если к изображениям ДОБАВЛЯЕТСЯ СЛОЙ ocr - то мне не понять смысл в требовании вычитки рисунков, таблиц и формул, и я полностью согласен с Вами).
При большом желании найти и/или сделать инструмент пакетной проверки файлов на наличие ocr возможно, как бы не иронизировали на этот счет. Проставлять вручную во всех файлах сайта незачем, можно ввести какой-нибудь значок. Все упирается в наличие времени и в желание этим заниматься.
Два дополнения.
1. Пакетную проверку на факт OCR сделать непросто, даже Архивариус-3000 совершает ошибки при индексации, включая в список "лажовые" pdf-файлы. В принципе, нужна дополнительная интеллектуальная надстройка, ориентированная на словарный корпус. Но и без нее эта программа могла бы сделать свое дело в автоматическом режиме, поскольку по завершении индексации она выводит список с "пустыми" файлами, который может быть в дальнейшем использован для селекции.
2. Перфекционистские требования к вычитке, сверке оторваны от жизни. Корректура - это особая трудоемкая работа, качество которой редко бывает идеальным. Следовательно, придется ставить вопрос о допустимом проценте пропущенных ошибок - а судьи кто? ™)
Корректура - это особая трудоемкая работа, качество которой редко бывает идеальным
Один наш модератор лично столкнулся с тем, что студенты скопипастили материал для работы из плохо распознанного учебника да так и сдали работу с кракозябрами.
На основании таких случаев исповедует нулевую терпимость к ошибкам распознавания, т.к. исходит из того, что проще идеально вычитать файл, чем переделать студентов.
Я его хорошо понимаю.
Кроме того, полное исключение труднораспознаваемых мест (формул, фрагментов текста на редких языках) из распознаваемой области тоже никто не отменял.
найти и/или сделать инструмент пакетной проверки файлов на наличие ocr возможно
Сделайте?
В этом разделе нет комментариев.