Tesseract OCR — это отличный движок распознавания текста, который в свое время (еще в 80-ых) был разработан HP, потом на длительное время заброшен, в позже выкуплен Google. Последняя принялась доводить его до совершенства, так что прогресс движется семимильными шагами, и программа уже вовсю способна составить конкуренцию какому-нибудь Fine Reader.
Установка
sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-rus
Использование
# Только русский язык
tesseract input.jpg output -l rus# Только английский язык
tesseract input.jpg output -leng# Русский и английский язык
tesseract input.jpg output -lrus+eng
Сперто тут.
Добавление текстового слоя на PDF
Используем .ocrmypdf
Установка
sudo apt update
sudo apt installocrmypdf
Использование
# Только русский язык
ocrmypdf-l rusinput.pdf output.pdf# Только английский язык
ocrmypdf-l enginput.pdf output.pdf# Русский и английский язык
ocrmypdf -l rus+enginput.pdf output.pdf
Сперто тут.
P.S. А все из-за того, что кто-то запретил в телеграмме копировать текст.