Логотип СканВТекст СканВТекст

Как правильно перевести фото в текст?

Советы для идеального результата

Освещение

Нейросеть может спутать резкие тени с буквами. Старайтесь избегать пересветов от вспышки прямо в центре текста.

Дневной свет или равномерная лампа
Тень от телефона, падающая на документ

Геометрия

Сильные искажения перспективы искривляют строки текста, что усложняет алгоритму сегментацию абзацев.

Камера держится параллельно листу
Съемка текста под сильным углом сбоку

Решение частых проблем

Текст "поплыл"

Причина: Смазанный снимок (дрогнули руки) или слишком низкое разрешение.
Решение: Переснимите фото, зафиксировав руки.

Не распознались таблицы

Причина: Сервис не поддерживает сложную разметку ячеек.
Решение: Мы выдаем простой текст. Таблицы будут представлены построчно.

Как работают современные системы распознавания?

В отличие от классических OCR-систем прошлого века, которые работали по методу "наложения шаблонов" (сравнивали каждый пиксель с буквой "А" или "Б"), современные инструменты используют нейросети глубокого обучения.

Это значит, что система не просто смотрит на контуры, она "читает" контекст.

  • Контекстный анализ: Если символ нечеткий, но стоит в слове "М_ЛОКО", алгоритм поймет, что это буква "О", а не цифра "0", основываясь на словаре.
  • Устойчивость к шуму: Нейросети обучены на миллионах примеров плохих фотографий, поэтому они умеют игнорировать пятна от кофе, сгибы бумаги и тени.
  • Мультиязычность: Современные модели не требуют ручного переключения языка. Они могут распознать английский термин посреди русского текста без ошибок.

Короткие вопросы

Нужно ли обрезать фото перед загрузкой?
Желательно, но не обязательно. Нейросеть сама находит текстовые блоки. Однако, обрезка лишнего фона поможет избежать появления "мусорных" слов, если на фото много посторонних предметов (например, надписи на кружке рядом с листом).
Влияет ли тень от телефона на результат?
Да, резкие тени создают перепад контраста. В затененной зоне буквы сливаются с фоном, и алгоритм может их "потерять". Старайтесь держать телефон так, чтобы не загораживать источник света.
Какое минимальное разрешение фото нужно?
Гнаться за мегапикселями не стоит — 1-2 Мп (разрешение около 1000x1000) вполне достаточно для страницы А4. Гораздо важнее резкость и фокус. Размытое фото в 48 Мп распознается хуже, чем четкое в 2 Мп.
Что делать, если на фото текст на двух языках?
Ничего специального делать не нужно. Современные OCR системы мультиязычны по умолчанию. Они прекрасно справляются со смешанным текстом (например, русская инструкция с английскими терминами).
Как лучше снимать глянцевые страницы (журналы, визитки)?
Обязательно отключите вспышку. Вспышка на глянце создает мощный белый блик, под которым буквы полностью стираются. Используйте рассеянный дневной свет из окна.
Можно ли фотографировать текст под углом?
Да, нейросеть умеет выпрямлять "заваленный" горизонт и исправлять перспективу. Но помните: чем сильнее угол, тем сильнее сжимаются буквы на заднем плане, что может привести к ошибкам в удаленных словах.

История