La inteligencia artificial convierte las cámaras de seguridad en sistemas de monitoreo activo

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.

Agência FAPESP* –Por Roseli Andrion  |  Agência FAPESP – La startup Noleak, con sede en la ciudad de São Paulo (Brasil), desarrolló una solución para optimizar el uso de cámaras de seguridad, transformando miles de horas de video en información útil. La herramienta, denominada Agatha, utiliza inteligencia artificial (IA) para aprender los patrones de comportamiento de los entornos monitoreados y emitir alertas cuando se produce alguna alteración. De este modo, el sistema convierte las cámaras pasivas en dispositivos de monitoreo activo, descarta imágenes que no requieren atención y permite que un solo profesional supervise miles de pantallas sin perderse entre notificaciones irrelevantes.

Para crear la solución, Rafael Libardi, fundador de la startup, cuestionó los límites de los sistemas tradicionales: ¿por qué las cámaras de seguridad siguen funcionando, en gran medida, como sofisticados sensores de movimiento, pero con poca inteligencia? La lógica de la plataforma fue probada inicialmente en el ámbito de la protección de datos digitales, cuando Libardi participaba en un proyecto de las Fuerzas Armadas de un país de América Latina. El objetivo era identificar comportamientos anómalos en redes internas de computadoras —una técnica común en la prevención de ataques cibernéticos— para detectar intrusiones de países extranjeros en la infraestructura digital local. Para ello, el sistema utilizaba el reconocimiento de patrones de comunicación inusuales en la red.

Libardi percibió que el método podía aplicarse a las imágenes de las cámaras de seguridad. Para ello, bastaba con sustituir los paquetes de datos por píxeles y los ataques cibernéticos por comportamientos fuera de lo habitual. “Lo que existía en el mercado era básicamente la detección de movimiento y, ante cualquier desviación, se generaba una alerta. Eso producía miles de notificaciones por hora y hacía que el sistema fuera poco útil”, afirma. “Decidí unir lo que sabía sobre ciberseguridad con la seguridad visual.”

En la transición hacia el monitoreo físico, en lugar de operar mediante reglas fijas programadas, la plataforma observa el entorno durante un período y establece qué se considera normal en ese contexto: qué lugares suelen tener vehículos estacionados, en qué horarios se registra mayor movimiento y en qué zonas el tránsito es frecuente. A partir de esa línea de base, cuando se producen desviaciones, el sistema emite alertas y las envía para evaluación humana.

Libardi cita estudios sobre vigilancia por video para ilustrar los límites de la atención humana en este tipo de tareas. Las investigaciones sobre monitoreo de CCTV (circuito cerrado de televisión) indican que la pérdida de concentración ocurre rápidamente. Un estudio clásico en esta área señala que, después de aproximadamente 12 minutos de observación continua, un operador puede dejar de percibir hasta el 45 % de la actividad en pantalla. Después de 22 minutos, hasta el 95 % de lo que ocurre pasa desapercibido, incluso cuando se muestran pocas cámaras.

En este contexto, un operador humano puede supervisar con calidad apenas algunas decenas de cámaras antes de que la fatiga comprometa la vigilancia. Con la clasificación automatizada, el profesional puede supervisar simultáneamente entre 1.000 y 2.000 cámaras, porque recibe únicamente los fragmentos que requieren análisis. En la práctica, la herramienta filtra más del 99,8 % de las imágenes irrelevantes y preserva la atención del analista para decidir sobre lo que realmente importa. “Solo ve lo que es extraño”, resume el investigador.

Avalancha de datos

El número de cámaras instaladas crece continuamente en condominios, empresas, vías públicas y eventos. La Asociación Brasileña de Empresas de Sistemas Electrónicos de Seguridad (Abese) estima que el sector facturó $14.000 millones de reales en 2024, lo que representa un crecimiento del 16,1 % en relación con el año anterior.

En este escenario, la diferencia entre simplemente grabarlo todo y comprender lo que se ha grabado puede determinar la eficiencia de las políticas de seguridad y de los procesos industriales. “Una cámara sin análisis es apenas un archivo enorme que rara vez se consulta de forma productiva”, evalúa Libardi.

Además del seguimiento en tiempo real, la tecnología hace posible el denominado análisis forense, que consiste en la revisión automatizada de grandes volúmenes de video para aislar rápidamente los momentos en los que se registró algún evento atípico.

Una distribuidora de energía del estado de Minas Gerais, por ejemplo, enfrentaba robos recurrentes en subestaciones y, después de cada incidente, el equipo técnico debía revisar semanas de grabaciones. Con la intervención de Agatha, horas de video se redujeron a los diez minutos exactos que contenían el momento de la intrusión. El procedimiento permitió identificar a un prestador de servicios dentro de un área restringida; conocía el lugar y actuaba bajo la premisa de que la enorme cantidad de material grabado haría inviable su rastreo en un plazo razonable.

Otras aplicaciones

La solución también se ha utilizado en contextos alejados de la seguridad tradicional. Entre sus aplicaciones se incluyen la identificación del uso correcto de equipos de protección individual (EPI) —como cascos, chalecos y gafas—, la detección de comportamientos que preceden accidentes laborales y el control de inventarios en almacenes.

El criterio es el mismo en todos los casos: si un operador humano puede percibir el problema al observar una pantalla, la tecnología también puede ser entrenada para detectarlo. “Cualquier proceso que dependa del ojo humano para analizar imágenes puede, en principio, automatizarse. Solo se necesita investigación, un contexto adecuado y una correcta ubicación de los dispositivos”, afirma Libardi.

Un ejemplo de esta versatilidad es la identificación del desgaste en cadenas de gran tamaño en una industria del sector agroindustrial en Belém, en el estado de Pará. Antes de adoptar la herramienta, las paradas no programadas de maquinaria ya acumulaban más de $100 millones de reales en pérdidas en un solo año. Con la tecnología, el sistema comenzó a emitir alertas preventivas a partir de la identificación de desviaciones sutiles en los patrones, como una vibración atípica, una inclinación irregular o un cambio visual en la textura de un componente.

Otro proyecto utilizó la tecnología para realizar el conteo en tiempo real de sacos de cemento, alimento para animales y granos en el Puerto de Santos, sustituyendo procesos manuales propensos a errores.

Período de aprendizaje

El tiempo de adaptación de la herramienta varía según la complejidad de la aplicación. El monitoreo del uso de EPI puede implementarse en menos de 24 horas, mientras que el conteo de sacos en puertos puede ajustarse en aproximadamente una semana. Por otro lado, aplicaciones industriales muy específicas pueden requerir meses de adecuación de los algoritmos.

En condominios residenciales y barrios monitoreados, la IA registra las placas de los vehículos de los residentes y señala cuando automóviles desconocidos permanecen en los alrededores durante un tiempo inusual. En un caso específico, la solución emitió una alerta cuando un niño se acercó al portón automático del garaje en el momento de su apertura. El sistema identificó que la combinación de variables —niño, movimiento del portón y proximidad— constituía una anomalía, permitiendo que el operador detuviera el mecanismo a tiempo.

Los eventos de gran magnitud también pueden ser supervisados por la herramienta. En festivales y celebraciones populares, la combinación del análisis conductual y la integración con sistemas públicos puede ampliar significativamente la capacidad de respuesta de los equipos de seguridad.

Iniciativas públicas, como el programa Smart Sampa, de la Alcaldía de São Paulo, utilizan el reconocimiento facial para localizar sospechosos en la vida cotidiana y en situaciones de aglomeración. Esta vigilancia constituye una tendencia importante en las llamadas ciudades inteligentes, un escenario en el que la plataforma desarrollada por la startup puede complementar el monitoreo al centrarse en el análisis conductual de las imágenes.

Los especialistas destacan que tecnologías como el reconocimiento facial presentan márgenes de error y exigen validación humana. Libardi coincide con esta visión: “Ninguna solución debe operar de forma aislada. Funcionan como filtros de precisión. Siempre debe existir una verificación posterior porque la herramienta no sustituye la mirada humana; en cambio, reorganiza las prioridades”.

El investigador también refuerza la necesidad de contar con una infraestructura básica adecuada. “Es necesario educar al cliente porque la tecnología no es magia. La cámara debe estar ubicada en el lugar correcto y ofrecer una calidad de imagen razonable. A veces, el cliente cree que podrá identificar algo a 200 metros de distancia utilizando una cámara de bajo costo”, ejemplifica.

Con el apoyo del Programa de Investigación Innovadora en Pequeñas Empresas (PIPE, por sus siglas en portugués), de la FAPESP, la startup pudo reestructurar su arquitectura de datos y perfeccionar los modelos matemáticos, haciendo posible el escalamiento de la solución. Libardi señala que este financiamiento fue determinante para el negocio: “El investigador domina la técnica, pero no siempre sabe cómo transformarla en un producto comercialmente viable”.

<p><strong>Por Roseli Andrion  |  Agência FAPESP</strong> – La <em>startup</em> Noleak, con sede en la ciudad de São Paulo (Brasil), desarrolló una solución para optimizar el uso de cámaras de seguridad, transformando miles de horas de video en información útil. La herramienta, denominada Agatha, utiliza inteligencia artificial (IA) para aprender los patrones de comportamiento de los entornos monitoreados y emitir alertas cuando se produce alguna alteración. De este modo, el sistema convierte las cámaras pasivas en dispositivos de monitoreo activo, descarta imágenes que no requieren atención y permite que un solo profesional supervise miles de pantallas sin perderse entre notificaciones irrelevantes.</p>

<p>Para crear la solución, <strong><a href="https://bv.fapesp.br/pt/pesquisador/668801/rafael-mira-de-oliveira-libardi" target="_blank">Rafael Libardi</a></strong>, fundador de la <em>startup</em>, cuestionó los límites de los sistemas tradicionales: ¿por qué las cámaras de seguridad siguen funcionando, en gran medida, como sofisticados sensores de movimiento, pero con poca inteligencia? La lógica de la plataforma fue probada inicialmente en el ámbito de la protección de datos digitales, cuando Libardi participaba en un proyecto de las Fuerzas Armadas de un país de América Latina. El objetivo era identificar comportamientos anómalos en redes internas de computadoras —una técnica común en la prevención de ataques cibernéticos— para detectar intrusiones de países extranjeros en la infraestructura digital local. Para ello, el sistema utilizaba el reconocimiento de patrones de comunicación inusuales en la red.</p>

<p>Libardi percibió que el método podía aplicarse a las imágenes de las cámaras de seguridad. Para ello, bastaba con sustituir los paquetes de datos por píxeles y los ataques cibernéticos por comportamientos fuera de lo habitual. “Lo que existía en el mercado era básicamente la detección de movimiento y, ante cualquier desviación, se generaba una alerta. Eso producía miles de notificaciones por hora y hacía que el sistema fuera poco útil”, afirma. “Decidí unir lo que sabía sobre ciberseguridad con la seguridad visual.”</p>

<p>En la transición hacia el monitoreo físico, en lugar de operar mediante reglas fijas programadas, la plataforma observa el entorno durante un período y establece qué se considera normal en ese contexto: qué lugares suelen tener vehículos estacionados, en qué horarios se registra mayor movimiento y en qué zonas el tránsito es frecuente. A partir de esa línea de base, cuando se producen desviaciones, el sistema emite alertas y las envía para evaluación humana.</p>

<p>Libardi cita estudios sobre vigilancia por video para ilustrar los límites de la atención humana en este tipo de tareas. Las investigaciones sobre monitoreo de CCTV (circuito cerrado de televisión) indican que la pérdida de concentración ocurre rápidamente. Un estudio clásico en esta área señala que, después de aproximadamente 12 minutos de observación continua, un operador puede dejar de percibir hasta el 45 % de la actividad en pantalla. Después de 22 minutos, hasta el 95 % de lo que ocurre pasa desapercibido, incluso cuando se muestran pocas cámaras.</p>

<p>En este contexto, un operador humano puede supervisar con calidad apenas algunas decenas de cámaras antes de que la fatiga comprometa la vigilancia. Con la clasificación automatizada, el profesional puede supervisar simultáneamente entre 1.000 y 2.000 cámaras, porque recibe únicamente los fragmentos que requieren análisis. En la práctica, la herramienta filtra más del 99,8 % de las imágenes irrelevantes y preserva la atención del analista para decidir sobre lo que realmente importa. “Solo ve lo que es extraño”, resume el investigador.</p>

<p><strong>Avalancha de datos</strong></p>

<p>El número de cámaras instaladas crece continuamente en condominios, empresas, vías públicas y eventos. La Asociación Brasileña de Empresas de Sistemas Electrónicos de Seguridad (Abese) estima que el sector facturó $14.000 millones de reales en 2024, lo que representa un crecimiento del 16,1 % en relación con el año anterior.</p>

<p>En este escenario, la diferencia entre simplemente grabarlo todo y comprender lo que se ha grabado puede determinar la eficiencia de las políticas de seguridad y de los procesos industriales. “Una cámara sin análisis es apenas un archivo enorme que rara vez se consulta de forma productiva”, evalúa Libardi.</p>

<p>Además del seguimiento en tiempo real, la tecnología hace posible el denominado análisis forense, que consiste en la revisión automatizada de grandes volúmenes de video para aislar rápidamente los momentos en los que se registró algún evento atípico.</p>

<p>Una distribuidora de energía del estado de Minas Gerais, por ejemplo, enfrentaba robos recurrentes en subestaciones y, después de cada incidente, el equipo técnico debía revisar semanas de grabaciones. Con la intervención de Agatha, horas de video se redujeron a los diez minutos exactos que contenían el momento de la intrusión. El procedimiento permitió identificar a un prestador de servicios dentro de un área restringida; conocía el lugar y actuaba bajo la premisa de que la enorme cantidad de material grabado haría inviable su rastreo en un plazo razonable.</p>

<p><strong>Otras aplicaciones</strong></p>

<p>La solución también se ha utilizado en contextos alejados de la seguridad tradicional. Entre sus aplicaciones se incluyen la identificación del uso correcto de equipos de protección individual (EPI) —como cascos, chalecos y gafas—, la detección de comportamientos que preceden accidentes laborales y el control de inventarios en almacenes.</p>

<p>El criterio es el mismo en todos los casos: si un operador humano puede percibir el problema al observar una pantalla, la tecnología también puede ser entrenada para detectarlo. “Cualquier proceso que dependa del ojo humano para analizar imágenes puede, en principio, automatizarse. Solo se necesita investigación, un contexto adecuado y una correcta ubicación de los dispositivos”, afirma Libardi.</p>

<p>Un ejemplo de esta versatilidad es la identificación del desgaste en cadenas de gran tamaño en una industria del sector agroindustrial en Belém, en el estado de Pará. Antes de adoptar la herramienta, las paradas no programadas de maquinaria ya acumulaban más de $100 millones de reales en pérdidas en un solo año. Con la tecnología, el sistema comenzó a emitir alertas preventivas a partir de la identificación de desviaciones sutiles en los patrones, como una vibración atípica, una inclinación irregular o un cambio visual en la textura de un componente.</p>

<p>Otro proyecto utilizó la tecnología para realizar el conteo en tiempo real de sacos de cemento, alimento para animales y granos en el Puerto de Santos, sustituyendo procesos manuales propensos a errores.</p>

<p><strong>Período de aprendizaje</strong></p>

<p>El tiempo de adaptación de la herramienta varía según la complejidad de la aplicación. El monitoreo del uso de EPI puede implementarse en menos de 24 horas, mientras que el conteo de sacos en puertos puede ajustarse en aproximadamente una semana. Por otro lado, aplicaciones industriales muy específicas pueden requerir meses de adecuación de los algoritmos.</p>

<p>En condominios residenciales y barrios monitoreados, la IA registra las placas de los vehículos de los residentes y señala cuando automóviles desconocidos permanecen en los alrededores durante un tiempo inusual. En un caso específico, la solución emitió una alerta cuando un niño se acercó al portón automático del garaje en el momento de su apertura. El sistema identificó que la combinación de variables —niño, movimiento del portón y proximidad— constituía una anomalía, permitiendo que el operador detuviera el mecanismo a tiempo.</p>

<p>Los eventos de gran magnitud también pueden ser supervisados por la herramienta. En festivales y celebraciones populares, la combinación del análisis conductual y la integración con sistemas públicos puede ampliar significativamente la capacidad de respuesta de los equipos de seguridad.</p>

<p>Iniciativas públicas, como el programa Smart Sampa, de la Alcaldía de São Paulo, utilizan el reconocimiento facial para localizar sospechosos en la vida cotidiana y en situaciones de aglomeración. Esta vigilancia constituye una tendencia importante en las llamadas ciudades inteligentes, un escenario en el que la plataforma desarrollada por la <em>startup</em> puede complementar el monitoreo al centrarse en el análisis conductual de las imágenes.</p>

<p>Los especialistas destacan que tecnologías como el reconocimiento facial presentan márgenes de error y exigen validación humana. Libardi coincide con esta visión: “Ninguna solución debe operar de forma aislada. Funcionan como filtros de precisión. Siempre debe existir una verificación posterior porque la herramienta no sustituye la mirada humana; en cambio, reorganiza las prioridades”.</p>

<p>El investigador también refuerza la necesidad de contar con una infraestructura básica adecuada. “Es necesario educar al cliente porque la tecnología no es magia. La cámara debe estar ubicada en el lugar correcto y ofrecer una calidad de imagen razonable. A veces, el cliente cree que podrá identificar algo a 200 metros de distancia utilizando una cámara de bajo costo”, ejemplifica.</p>

<p>Con el <strong><a href="https://bv.fapesp.br/pt/auxilios/116523" target="_blank">apoyo</a></strong> del Programa de Investigación Innovadora en Pequeñas Empresas (<strong><a href="https://fapesp.br/pipe" target="_blank">PIPE</a></strong>, por sus siglas en portugués), de la FAPESP, la <em>startup</em> pudo reestructurar su arquitectura de datos y perfeccionar los modelos matemáticos, haciendo posible el escalamiento de la solución. Libardi señala que este financiamiento fue determinante para el negocio: “El investigador domina la técnica, pero no siempre sabe cómo transformarla en un producto comercialmente viable”.</p>

<p> </p>