IBM em São Paulo cria aplicativo que permite a cegos “enxergar” conteúdo de placas e painéis
Exemplos de marcadores afixados nos objetos que se quer reconhecer -© LÉO RAMOS |
Parece mágica, mas a cena pode se tornar corriqueira dentro de alguns
anos. Em um aeroporto qualquer do planeta, um deficiente visual aponta
seu smartphone para o painel de voos e, imediatamente, o dispositivo narra a relação de partidas e chegadas apresentada no display.
A cena se repete em estações ferroviárias e pontos de ônibus dotados de
mostruários com os horários das linhas e em ambientes corporativos –
nesse caso, indivíduos cegos poderão saber quais são os produtos que
estão expostos em máquinas de venda automática de alimentos, como
refrigerantes, sucos, batatas e salgadinhos diversos. Isso será possível
com uma tecnologia gestada no IBM Research Brasil, o laboratório de
pesquisa da multinacional norte-americana de informática localizado em
São Paulo. Batizado de Reconhecimento de Conteúdo Dinâmico Assistido por
Marcadores, o aplicativo tem recursos de visão computacional,
inteligência artificial e de processamento de imagens para fazer o
reconhecimento de textos e objetos em ambientes públicos.
“A novidade em relação a aplicativos similares de reconhecimento de
imagem é o uso de marcadores”, diz Andréa Mattos, a jovem cientista da
IBM que liderou a criação do aplicativo. Os marcadores, um conjunto de
quatro adesivos com diferentes imagens gráficas, são posicionados nos
cantos superiores e inferiores do objeto-alvo. “Eles são pontos de
referência e facilitam que os objetos da cena sejam detectados e
identificados pelo aplicativo”, diz Andréa, de 28 anos.
Num aeroporto, por exemplo, um indivíduo cego só precisaria pedir
ajuda para localizar o painel de voos delimitado pelos marcadores.
Depois, apontando seu smartphone ou tablet para ele,
poderia checar se seu avião está ou não no horário. Caso tivesse
dificuldade para fazer o perfeito enquadramento do painel – condição
necessária para o programa funcionar e as informações visuais serem
lidas e transformadas em avisos sonoros –, escutaria instruções como
“desloque a câmera para a direita” ou “levante um pouco a câmera”. “Cada
marcador tem uma posição precisa em relação aos demais. A orientação
para correção do enquadramento é possível desde que pelo menos um dos
quatro marcadores tenha sido captado pela câmera do smartphone”, explica Andréa.
Para que o aplicativo funcione também é necessário que os objetos ou textos a serem reconhecidos sejam exibidos em um layout
com posições fixas. As mensagens no painel passam por alterações
constantes da mesma forma que os produtos nas máquinas de venda
automática. O indispensável é que as posições onde são mostrados os
produtos ou as informações sejam imutáveis. Depois, ele automaticamente
busca em sua memória pelo template daquela cena, espécie de
máscara com posições fixas no lugar em que estão posicionados os textos
ou as imagens a serem reconhecidas. Numa máquina de venda automática, o template nada mais é do que um diagrama mostrando os nichos onde os produtos ficam enfileirados; num painel de voos, o template mostra o espaço, dentro do display, em que as informações são exibidas.
Por fim, o programa parte para a identificação e a leitura do
conteúdo. No caso das máquinas, isso se dá por um método comparativo. O
aplicativo tem guardado em sua memória um banco de imagens com a
fotografia de todos os produtos vendidos por ela – lata do refrigerante
X, saco de batata frita Y, pacote de biscoito Z etc. Ele compara os
produtos captados pela câmera do usuário com as fotos armazenadas e
verbaliza a oferta de mercadorias. Numa placa ou painel com informações
escritas, o programa reconhece as letras e os números, e faz a leitura
do que encontrou para o usuário.
A pesquisadora realizou uma bateria de testes com máquinas de venda
automática para provar a viabilidade da técnica. Para conferir a
eficiência do aplicativo, foram feitas 60 fotografias, totalizando 240
marcadores, já que cada máquina possui quatro marcadores. O índice de
detecção foi de 99,16%. O reconhecimento dos produtos dentro das
máquinas foi de 89,85%, o que, segundo Andréa, é uma taxa elevada,
considerando os desafios do problema.
Cegos ou com visão reduzida
Uma das vantagens da inovação, cujo desenvolvimento também contou com a participação dos pesquisadores Carlos Cardonha, Diego Gallo, Priscilla Avegliano, Ricardo Herrmann e Sérgio Borger, todos da IBM, é conferir mais autonomia a pessoas cegas ou com visão reduzida. O trabalho foi premiado na 11ª Conferência Web for All, que reconhece os melhores projetos mundiais voltados à acessibilidade e internet, realizada em abril deste ano na Coreia do Sul. A tecnologia foi submetida ao United States Patent and Trademark Office (Uspto), o escritório norte-americano de patentes. Esta foi uma das 19 patentes solicitadas pela IBM Brasil ao Uspto somente nos seis primeiros meses deste ano.
Uma das vantagens da inovação, cujo desenvolvimento também contou com a participação dos pesquisadores Carlos Cardonha, Diego Gallo, Priscilla Avegliano, Ricardo Herrmann e Sérgio Borger, todos da IBM, é conferir mais autonomia a pessoas cegas ou com visão reduzida. O trabalho foi premiado na 11ª Conferência Web for All, que reconhece os melhores projetos mundiais voltados à acessibilidade e internet, realizada em abril deste ano na Coreia do Sul. A tecnologia foi submetida ao United States Patent and Trademark Office (Uspto), o escritório norte-americano de patentes. Esta foi uma das 19 patentes solicitadas pela IBM Brasil ao Uspto somente nos seis primeiros meses deste ano.
Essa não é a primeira nem a única tecnologia de visão computacional
para reconhecimento de imagens existente no mundo. O uso de códigos de
barras é uma técnica promissora. Afixados em produtos, eles podem ser
lidos pelo escâner instalado em um smartphone. Mas são limitados quando o conteúdo é dinâmico – como é o caso de painéis de voos, onde as informações sempre mudam.
“Vários grupos no mundo tentam criar dispositivos capazes de
reconhecer objetos, mas não encontramos na literatura que envolve visão
computacional nenhuma tecnologia como a nossa, capaz de reconhecer
produtos em ambientes não controlados, ou seja, sujeitos à variação de
iluminação e a interferências visuais diversas”, afirma Sérgio Borger,
gerente de pesquisas da área de Sistemas de Engajamento da IBM. “Vamos
fazer novos ensaios para avaliarmos questões ligadas à usabilidade da
nossa aplicação”, diz Borger.
Fonte: Revista Fapesp - edição on line 221
Por: Yuri Vasconcelos
Nenhum comentário:
Postar um comentário