В этой статье мы рассмотрим реализацию и примеры работы ChatGPT с компьютерным зрением.
Я занимаюсь разработкой своего ChatGPT Telegram бота на Python. Мне пришла идея использовать компьютерное зрение для поиска текста на изображение, для составления запроса в ChatGPT.
Реализация
Tesseract — это популярный движок OCR с открытым исходным кодом, который был предварительно обучен для поддержки более 100 языков. В этой статье мы используем Python-tesseract (pytesseract), оболочку Python для Tesseract, которая позволяет использовать Tesseract с Python.
Прежде чем использовать Tesseract, его нужно установить. Не забудьте добавить русский язык в параметрах установки.
Вместе с ChatGPT получится что то такое
Примеры
Все примеры будут показаны в моем Telegram боте, так как это удобнее, чем через консоль, ну и ради продвижения, конечно же...
Бот бесплатный. Имеет большой функционал. Всю информацию найдете внутри.
Telegram бот может обрабатывать фотографию в двух режимах:
Получение текста с изображения без запроса в ChatGPT. Для этого нужно написать команду /text в подписи к изображению или оставить это поле пустым.
Обработка текста с использованием инструкции для ChatGPT. Инструкция (запрос) пишется в подписи к изображению.
Попробуем распознать текст с этой фотографии документа, сделанной на телефон.
Есть неточности, но в целом не плохо
Попробуем решить тестовое задание с применением ChatGPT.
Как насчет рукописного текста
Рукописный текст печатными буквами распознает крайне плохо, пропись нет смысла даже проверять.
Обработка теста с изображения
Текст с картинки можно озвучить, используя функцию озвучки бота в настройках
Как по мне, вполне себе применимая штука получилась. Может пригодится. Все примеры вы можете опробовать сами, воспользовавшись Telegram ботом.