A visão computacional é um campo de estudo multidisciplinar que tenta ajudar os computadores a ler e compreender imagens digitais de forma semelhante ao sistema óptico humano. Em termos gerais, inclui inteligência computacional e aprendizado de máquina. Baseia-se na compreensão do contexto visual, não apenas no conteúdo escrito ou catalogado sobre uma imagem ou vídeo (como uma descrição de texto feita pelo homem embutida na imagem ou vídeo para ajudar a localizá-lo em um sistema de computador). A visão computacional tem sido discutida nas comunidades científicas desde 1960, mas tem lutado para fazer quaisquer avanços significativos, principalmente porque a análise e o contexto de imagens são muito complexos e o sistema óptico humano ultrapassa de longe qualquer habilidade computacional.
Recentemente, o aprendizado profundo permitiu que os sistemas de computador analisassem melhor as imagens, mostrando-lhes fotos. Com o tempo, o computador aprende a identificar detalhes das imagens que o ajudarão a perceber esses detalhes em outras imagens (reconhecimento de imagem). O objetivo geral da visão computacional é que um computador seja capaz de compreender os detalhes de uma imagem e interpretá-la ou explicá-la aos humanos. O aprendizado profundo ajuda a tornar esse objetivo mais realista, mas a visão computacional ainda está longe de onde os pesquisadores gostariam que estivesse.
Dois problemas principais com a visão computacional tornam sua implementação um desafio. O mundo visual inerentemente tem muitas mudanças e variedade. Também é muito complexo. Embora o cérebro humano seja projetado para analisar rápida e involuntariamente os menores detalhes sobre uma imagem ou outra peça de mídia visual, os computadores não são. Em segundo lugar, a visão computacional é geralmente baseada no sistema óptico humano, e mesmo os cientistas não a entendem bem o suficiente para tentar recriá-la adequadamente.