История развития технического зрения
В 1950-х годах научный мир был охвачен спорами о возможности создания разумной машины, которая должна воспринимать окружающий мир. Первый шаг сделал профессор Массачусетского технологического института (MIT) Оливер Селфридж (Oliver Selfridge). В 1955 году он опубликовал статью «Распознавание образов и современные компьютеры». В ней была выдвинута идея о том, чтобы снабдить компьютеры видео и аудио системами. Это привело к появлению направления «компьютерное (техническое) зрение».
Специфика нового направления заключалась в том, что изображение — это двумерная проекция трехмерного мира. Это значит, что одной «фотографии» мало для получения полной информации об объекте, нужны дополнительные данные.
Для получения дополнительной информации применялись различные методы:
- Движение камеры;
- Многокамерные системы;
- Использование двух камер (стереопар);
- Различные алгоритмы обработки полученной картины;
- А так же множество других.
Большинство разработок были теоретическими, так как на тот момент техника и математический аппарат не были развиты настолько, насколько это требовалось для проведения экспериментов. Однако, современные технологии компьютерного зрения, такие как зрение Asimo, основываются на них.
В 1960-е годы появились первые системы обработки изображений. Большинство этих систем были созданы для удаления помех с фотоснимков. Появились первые исследования в области распознавания печатных символов. Развитие этой технологии привело к очень негативному результату – появлению капчей.
Бурный рост всего направления начался, когда была решена проблема нехватки мощных оптических систем и систем обработки информации. В то время развитие систем технического зрения (СТЗ) проходило в рамках космических исследований. Техническое зрение и сейчас активно используется в космосе, например телескоп Хаббл.
Следующий шаг был сделан в 70-е годы аспирантом MIT Лавренсом Робертсом (Lawrence Robberts). Он предположил, что машина может построить трёхмерные образы объектов на основе из двухмерных изображений.

Схема нарисована Оливером Тебоул (Oliver Teboul)
Это привело к развитию систем анализа изображений. Как результат появилась технология распознавания лиц в фотоаппаратах, iPhone и других новинках техники.
В 1979 году появилась теория анализа динамических сцен. Она позволяла распознавать движущиеся объекты. Ее основой стал труд Ганса-Гельмута Нагеля (Hans Hellmut Nagel), профессора Гамбургского университета. В конце 80-х появились первые роботы с СТЗ. В результате появились робоняни.
В 80-е – 90-е годы появилось новое поколение датчиков. Благодаря их распространению значительно уменьшились цены на оборудование.
Начало 90-х годов – время появления модульной парадигмы. Нейробиолог Дэвид Кортни Марр (David Courtney Marr) занимался изучением человеческого зрения. Он выделил четыре этапа обработки данных:
- Преобразование изображений;
- Сегментация;
- Выделение геометрической структуры;
- Определение относительной структуры и семантики.
Так же, он определил три уровня обработки данных:
- Низший уровень. На нем происходит фильтрация шумов.
- Средний уровень. На этом уровне происходит сегментация.
- Высший уровень. На этом уровне происходи соединение конкретных объектов с картиной мира.
На основе этой теории стали разрабатываться алгоритмы обработки изображений. Это привело к появлению камер, способных отслеживать перемещение объекта. В 2003 появились первые коммерческие системы распознавания лиц.
К настоящему моменту СТЗ – это полностью сформировавшийся раздел кибернетики. Изучению и разработке СТЗ посвящаются не один десяток симпозиумов и конференций ежегодно, не говоря о сотнях книг и статей, написанных на эту тему. СТЗ устанавливают на сотни роботов от домашних до военных.
-
Overleft
-
Pavel Bryzgalov
-