Sistemas computacionales podrán interpretar imágenes de videos

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.

Agência FAPESP* –Por Elton Alisson  |  Agência FAPESP – En la ciudad de São Paulo hay más de un millón de cámaras de seguridad instaladas y en operación actualmente, según estima la Asociación Brasileña de Empresas de Sistemas Electrónicos de Seguridad (Abese).
Resulta imposible analizar las imágenes captadas por ese universo de cámaras de seguridad a los efectos de identificar incidentes o comportamientos anormales y emitir alertas en tiempo real, por ejemplo. Pero esto podría hacerse por computadora en un futuro cercano.
Con el fin de viabilizar esta idea, un grupo de investigadores del Departamento de Ciencia de la Computación del Instituto de Matemática y Estadística de la Universidad de São Paulo (IME-USP), en colaboración con colegas de la New York University y del IBM T. J. Watson Research Center, en Estados Unidos, pretende mejorar y desarrollar nuevas técnicas de visión computacional que permitan que sistemas computacionales sean capaces de interpretar imágenes capturadas por cámaras de video.
Para ello han desarrollado un software destinado a obtener imágenes de ambientes urbanos, capturadas por cámaras instaladas en las calles y subidas a internet por servicios tales como Camerite, y construir bancos de datos, en el marco del Proyecto Temático intitulado “Modelos y métodos de e-Science para ciencias de la vida y agrarias”, financiado por la FAPESP.
“Nuestra idea consiste en acumular imágenes de ambientes urbanos y generar bases de terabytes de datos que puedan emplearse para desarrollar algoritmos [secuencias de comandos que se pasan a una computadora con el fin de realizar una tarea] capaces de analizar esos grandes volúmenes de datos e identificar patrones de comportamientos a partir de los mismos”, declaró Roberto Marcondes Cesar Junior, docente del IME-USP y coordinador del proyecto, a Agência FAPESP.
De acuerdo con Marcondes Cesar Junior, los algoritmos de visión computacional desarrollados por diferentes grupos en el mundo, incluso los de los investigadores que toman parte en el proyecto, son capaces de identificar personas en una imagen de video, hallar dónde se encuentran partes de sus cuerpos, tales como las manos, por ejemplo, y captar movimientos.
Pero el objetivo de los científicos ahora consiste en mejorar o desarrollar nuevos algoritmos que detecten qué está haciendo una persona o un grupo de personas en una imagen de video.
“Pretendemos crear algoritmos que capaces de interpretar situaciones con un mayor grado de abstracción que el encontrar a una persona, un coche o un edificio en una imagen, y que muchas veces son semánticamente más complejos: detectar si la persona está parada o en movimiento, por ejemplo, o si está hablando por el celular, o si está acercándose o alejándose de un determinado grupo de personas”, dijo Cesar Junior.
Con base en la interpretación del comportamiento de personas en una imagen, los algoritmos serían capaces de inferir la ocurrencia de colisiones entre automóviles, atropellamientos e interrupción de pistas, ejemplificó el investigador.
“El monitoreo mediante algoritmos computacionales en tiempo real de las imágenes generadas por las cámaras de seguridad permitiría detectar más rápido accidentes de tránsito, por ejemplo, y accionar instantáneamente a agentes de tránsito y equipos de paramédicos para brindar la asistencia necesaria a las víctimas y desobstruir la pista”, sostuvo.
Situaciones de lluvia
Una de las posibles aplicaciones de visión computacional que los investigadores están vislumbrando es la detección de incidentes tales como colisiones de automóviles, caídas de árboles y anegamientos en situaciones de lluvia.
Según Marcondes Cesar Junior, los algoritmos de visión computacional existentes actualmente detectan personas, automóviles y edificios en una imagen de video en condiciones climáticas normales.
En tanto, cuando llueve, los algoritmos tienden a fallar al intentar detectar los elementos presentes en una imagen, afirmó.
“Cuando llueve, la calidad de las imágenes captadas por las cámaras instaladas en las calles se degrada muy rápidamente, pues cambian las condiciones de iluminación y de ruido y los algoritmos pasan a tener mayores dificultades para detectar personas, edificios y automóviles presentes en una determinada escena”, sostuvo el investigador.
“Por eso pretendemos mejorar no sólo la capacidad de esos algoritmos para detectar los elementos en una escena cuando está lloviendo, sino también para detectar colisiones de automóviles, por ejemplo, que tienden a producirse con mayor frecuencia en situaciones de lluvia”, afirmó.
Con el fin de crear y perfeccionar esos nuevos algoritmos, los investigadores programaron el software que desarrollaron para recabar imágenes de cámaras instaladas en las calles disponibles en internet cuando está lloviendo en São Paulo.
Para detectar si está lloviendo, el software se vale no sólo de las imágenes de las cámaras de las calles de Camerite y de otras aplicaciones, sino también de información de servicios de pronóstico del tiempo, tales como los del Centro de Pronóstico del Tiempo y Estudios Climáticos (CPTEC), del Instituto Nacional de Investigaciones Espaciales (Inpe) y de Climatempo.
Al detectar que está lloviendo en una determinada zona de la ciudad a través de la información de estos servicios de pronóstico del tiempo, el software empieza a recabar y almacenar imágenes de las cámaras de las calles de esa zona automáticamente, explicó Marcondes Cesar Junior.
“Sería imposible que seres humanos hicieran eso. Una persona lograría observar las imágenes capturadas por una cámara de la calle e identificar en qué momento llovió a lo sumo durante un día. Pero sería imposible monitorear las imágenes de miles de cámaras distribuidas por la ciudad y recabando imágenes durante un mes, por ejemplo”, comparó.
De acuerdo con el investigador, las técnicas de visión computacional dependen sobremanera de la acumulación de datos.
Sucede que los algoritmos aprenden estadísticamente. Por esa razón, cuanto mayor es el número de datos disponibles para analizar, mejor será su desempeño computacional.
“Los algoritmos que están en el estado del arte actualmente y que utilizan Facebook y Google, por ejemplo, tenían un desempeño muy malo hace 15 ó 20 años, porque no había muchos datos. Actualmente, en razón de la disponibilidad de dados, son imbatibles”, comparó.

<p><strong>Por Elton Alisson  |  Agência FAPESP</strong> – En la ciudad de São Paulo hay más de un millón de cámaras de seguridad instaladas y en operación actualmente, según estima la Asociación Brasileña de Empresas de Sistemas Electrónicos de Seguridad (Abese).</p>
<p>Resulta imposible analizar las imágenes captadas por ese universo de cámaras de seguridad a los efectos de identificar incidentes o comportamientos anormales y emitir alertas en tiempo real, por ejemplo. Pero esto podría hacerse por computadora en un futuro cercano.</p>
<p>Con el fin de viabilizar esta idea, un grupo de investigadores del Departamento de Ciencia de la Computación del Instituto de Matemática y Estadística de la Universidad de São Paulo (IME-USP), en colaboración con colegas de la New York University y del IBM T. J. Watson Research Center, en Estados Unidos, pretende mejorar y desarrollar nuevas técnicas de visión computacional que permitan que sistemas computacionales sean capaces de interpretar imágenes capturadas por cámaras de video.</p>
<p>Para ello han desarrollado un <em>software</em> destinado a obtener imágenes de ambientes urbanos, capturadas por cámaras instaladas en las calles y subidas a internet por servicios tales como <strong><a href="https://camerite.com/" target="_blank">Camerite</a></strong>, y construir bancos de datos, en el marco del Proyecto Temático intitulado “<strong><a href="http://www.bv.fapesp.br/pt/auxilios/46349/modelos-e-metodos-de-e-science-para-ciencias-da-vida-e-agrarias/" target="_blank">Modelos y métodos de e-Science para ciencias de la vida y agrarias</a></strong>”, financiado por la FAPESP.</p>
<p>“Nuestra idea consiste en acumular imágenes de ambientes urbanos y generar bases de terabytes de datos que puedan emplearse para desarrollar algoritmos [<i>secuencias de comandos que se pasan a una computadora con el fin de realizar una tarea</i>] capaces de analizar esos grandes volúmenes de datos e identificar patrones de comportamientos a partir de los mismos”, declaró Roberto Marcondes Cesar Junior, docente del IME-USP y coordinador del proyecto, a <strong>Agência FAPESP</strong>.</p>
<p>De acuerdo con Marcondes Cesar Junior, los algoritmos de visión computacional desarrollados por diferentes grupos en el mundo, incluso los de los investigadores que toman parte en el proyecto, son capaces de identificar personas en una imagen de video, hallar dónde se encuentran partes de sus cuerpos, tales como las manos, por ejemplo, y captar movimientos.</p>
<p>Pero el objetivo de los científicos ahora consiste en mejorar o desarrollar nuevos algoritmos que detecten qué está haciendo una persona o un grupo de personas en una imagen de video.</p>
<p>“Pretendemos crear algoritmos que capaces de interpretar situaciones con un mayor grado de abstracción que el encontrar a una persona, un coche o un edificio en una imagen, y que muchas veces son semánticamente más complejos: detectar si la persona está parada o en movimiento, por ejemplo, o si está hablando por el celular, o si está acercándose o alejándose de un determinado grupo de personas”, dijo Cesar Junior.</p>
<p>Con base en la interpretación del comportamiento de personas en una imagen, los algoritmos serían capaces de inferir la ocurrencia de colisiones entre automóviles, atropellamientos e interrupción de pistas, ejemplificó el investigador.</p>
<p>“El monitoreo mediante algoritmos computacionales en tiempo real de las imágenes generadas por las cámaras de seguridad permitiría detectar más rápido accidentes de tránsito, por ejemplo, y accionar instantáneamente a agentes de tránsito y equipos de paramédicos para brindar la asistencia necesaria a las víctimas y desobstruir la pista”, sostuvo.</p>
<p><strong>Situaciones de lluvia</strong></p>
<p>Una de las posibles aplicaciones de visión computacional que los investigadores están vislumbrando es la detección de incidentes tales como colisiones de automóviles, caídas de árboles y anegamientos en situaciones de lluvia.</p>
<p>Según Marcondes Cesar Junior, los algoritmos de visión computacional existentes actualmente detectan personas, automóviles y edificios en una imagen de video en condiciones climáticas normales.</p>
<p>En tanto, cuando llueve, los algoritmos tienden a fallar al intentar detectar los elementos presentes en una imagen, afirmó.</p>
<p>“Cuando llueve, la calidad de las imágenes captadas por las cámaras instaladas en las calles se degrada muy rápidamente, pues cambian las condiciones de iluminación y de ruido y los algoritmos pasan a tener mayores dificultades para detectar personas, edificios y automóviles presentes en una determinada escena”, sostuvo el investigador.</p>
<p>“Por eso pretendemos mejorar no sólo la capacidad de esos algoritmos para detectar los elementos en una escena cuando está lloviendo, sino también para detectar colisiones de automóviles, por ejemplo, que tienden a producirse con mayor frecuencia en situaciones de lluvia”, afirmó.</p>
<p>Con el fin de crear y perfeccionar esos nuevos algoritmos, los investigadores programaron el <em>software</em> que desarrollaron para recabar imágenes de cámaras instaladas en las calles disponibles en internet cuando está lloviendo en São Paulo.</p>
<p>Para detectar si está lloviendo, el <em>software </em>se vale no sólo de las imágenes de las cámaras de las calles de Camerite y de otras aplicaciones, sino también de información de servicios de pronóstico del tiempo, tales como los del Centro de Pronóstico del Tiempo y Estudios Climáticos (CPTEC), del Instituto Nacional de Investigaciones Espaciales (Inpe) y de Climatempo.</p>
<p>Al detectar que está lloviendo en una determinada zona de la ciudad a través de la información de estos servicios de pronóstico del tiempo, el <em>software</em> empieza a recabar y almacenar imágenes de las cámaras de las calles de esa zona automáticamente, explicó Marcondes Cesar Junior.</p>
<p>“Sería imposible que seres humanos hicieran eso. Una persona lograría observar las imágenes capturadas por una cámara de la calle e identificar en qué momento llovió a lo sumo durante un día. Pero sería imposible monitorear las imágenes de miles de cámaras distribuidas por la ciudad y recabando imágenes durante un mes, por ejemplo”, comparó.</p>
<p>De acuerdo con el investigador, las técnicas de visión computacional dependen sobremanera de la acumulación de datos.</p>
<p>Sucede que los algoritmos aprenden estadísticamente. Por esa razón, cuanto mayor es el número de datos disponibles para analizar, mejor será su desempeño computacional.</p>
<p>“Los algoritmos que están en el estado del arte actualmente y que utilizan Facebook y Google, por ejemplo, tenían un desempeño muy malo hace 15 ó 20 años, porque no había muchos datos. Actualmente, en razón de la disponibilidad de dados, son imbatibles”, comparó.</p>
<p> </p>