Cooperação e segurança em sistemas multiagentes

A inovação envolve explorações nas quais as perguntas são respondidas para testar os limites, descobrir novas possibilidades e perceções. Num cenário em que a Inteligência Artificial está cada vez mais presente de uma forma ou de outra nas nossas vidas, anteciparmo-nos e focarmo-nos em tópicos de grande impacto pode não só dar-nos uma vantagem competitiva, como também descobrir métodos em que podemos acrescentar valor. É importante alinhar estas explorações de forma rigorosa com uma formação que reflita o estado da arte na indústria: na Izertis, exploramos linhas tecnológicas e propomos Spikes que nos permitem estar na vanguarda. Parte disso, é a formação que depois adaptamos aos nossos projetos. Nos últimos meses, tive a oportunidade de dar formação sobre um dos desafios atuais mais fascinantes no mundo da inteligência artificial, o problema de alinhar a IA e a segurança dos sistemas que a acompanham.

Hoje vamos aprender sobre sistemas multiagentes na área da Aprendizagem por Reforço, e sobre questões importantes de segurança em ambientes complexos nos chamados mixed-motive games, ambientes em que coexistem competição e cooperação, e vamos aprofundar o dilema da tragédia dos bens comuns e simulações com a estrutura MeltingPot da Google Deepmind.

sistemas multiplexados

Figura 1. Animação das simulações do Meltingpot Framework da Deepmind com o dilema da tragédia dos comuns. Simulação treinada sob um conjunto de agentes em que cada um aprende de forma independente. Nesta simulação, os agentes devem recolher maçãs, garantindo a sustentabilidade do campo de maçãs. Se a última maçã desaparecer, o campo de maçãs está esgotado. Os agentes são capazes de eletrocutar outros agentes, permitindo a punição como norma social. Isto implica dinâmicas em que os esforços competitivos e cooperativos devem ser equilibrados, uma vez que os agentes devem recolher o maior número de maçãs (competitividade), mas também devem permitir que o campo de maçãs volte a crescer (cooperação).

Porquê sistemas multiagentes? Porquê a tragédia dos bens comuns como contexto?

Podemos usar a inteligência artificial para estudar as diferentes soluções

Cenários em que vários agentes coexistem automaticamente e as dinâmicas que deles decorrem, juntamente com os eventuais problemas de segurança, é uma realidade que implica desafios importantes do ponto de vista da segurança e do controlo. Mas este não ocorre somente nos modelos de linguagem que vemos todos os dias, mas também na indústria em vários casos de uso, como veículos autónomos, robótica colaborativa ou gestão de tráfego aéreo. Também tem um impacto na IoT, onde vários dispositivos e sensores autónomos podem comunicar e colaborar para executar tarefas como a monitorização ambiental e a gestão de recursos.

A tragédia dos bens comuns é um conceito económico que descreve uma situação em que os indivíduos, agindo de forma independente e racional de acordo com os seus próprios interesses, esgotam um recurso partilhado limitado, mesmo quando é evidente que isso não é do melhor interesse do grupo a longo prazo. Os sistemas multiagentes têm aqui um papel a desempenhar na coordenação, cooperação e implementação de estratégias de gestão sustentável. Podemos, portanto, falar de gestão e sustentabilidade a diferentes níveis, abstraindo do conceito mais puramente económico. Para compreender o problema, para além do artigo publicado na sua época por Hardin e do fascinante livro "Managing the commons", somos apresentados ao cenário em que podemos usar a inteligência artificial para estudar as diferentes soluções com as quais podemos trabalhar em relação a este desafio.

Em que consistiu a exploração e quais foram os resultados?

Se propone un cambio en las políticas y el entorno.

Ao escolher um framework técnico para investigar, estudamos o MeltingPot devido ao seu compromisso com a avaliação na generalização de sistemas multiagentes. Meltingpot propõe um sistema de avaliação em que a população treinada passa por avaliações com outros agentes durante a fase de avaliação, para ver como os agentes respondem a certas dinâmicas que nunca viram antes. Portanto, diferenciamos entre o que os atores chamam de população focal (que foi formada) e a população background (com a qual a avaliação é feita, diferente da população de formação). A exploração tem sido tida em conta em vários eixos: propõe-se uma mudança nas políticas e no ambiente.

A la hora de elegir un framework técnico para investigar, estudiamos MeltingPot debido a su apuesta por la evaluación en la generalización de los sistemas multiagente. MeltingPot propone un sistema de evaluación en el que la población que ha sido entrenada se somete a evaluaciones con otros agentes durante la fase de evaluación, para ver cómo los agentes responden a ciertas dinámicas que no han visto anteriormente. Diferenciamos, por tanto, entre lo que los actores llaman la población focal (que ha sido entrenada) y la población background (con la cual se hace la evaluación, distinta a la población de entrenamiento). La exploración se ha tenido en cuenta en varios ejes: se propone un cambio en las políticas y el entorno.

Detalhes técnicos e principais resultados da experiência

As experiências centraram-se em várias configurações e definições no ambiente de simulação, com o objetivo de observar como as diferentes políticas afetam o comportamento dos agentes. Eis alguns destaques:

Taxas de regeneração de recursos: As taxas de regeneração foram ajustadas para observar como os agentes modificam as suas estratégias de recolha face à abundância ou escassez. As experiências mostraram que:
- Taxas de regeneração mais baixas incentivam os agentes a adotar estratégias mais conservadoras.
- Taxas mais altas incentivam uma competição mais agressiva, aumentando o risco de esgotamento dos recursos.
Capacidade de penalidade do agente: a capacidade de os agentes imporem sanções aos outros foi manipulada para avaliar o seu impacto na cooperação e na concorrência.
- A eliminação da capacidade de punir resultou num aumento, em alguns casos, do comportamento cooperativo.
- A presença de penalizações incentivou a concorrência regulada, onde os agentes equilibraram o seu comportamento para evitar sanções.
Sinais de recompensa durante o treino: experimentámos modificar as pistas de recompensa para alinhar ou desalinhar os incentivos com os objetivos de sustentabilidade.
- Agentes treinados com incentivos alinhados mostraram maior propensão para comportamentos que favoreceram a regeneração do recurso.
- Agentes com incentivos desalinhados tendem a se comportar de forma mais egoísta, priorizando a acumulação de recursos de curto prazo em detrimento da sustentabilidade a longo prazo.

Implicações para a Segurança e a Cooperação na IA

Estas experiências realçam a importância de desenhar sistemas multiagentes com mecanismos bem pensados que não só promovam a eficiência individual de cada agente, mas também garantam a gestão eficaz e sustentável dos recursos partilhados. As implicações vão para além da teoria, oferecendo orientações práticas para o desenvolvimento de políticas em sistemas de IA que interagem em ambientes partilhados.

Conclusão: Rumo à Inteligência Artificial Colaborativa

A investigação em sistemas multiagentes e a aprendizagem por reforço são cruciais para avançar para uma era de inteligência artificial que não só é capaz de realizar tarefas complexas de forma independente, como também pode colaborar eficazmente em ambientes partilhados para resolver problemas à escala global. Esta exploração técnica fornece uma base sólida para futuras inovações no domínio da IA, em que a cooperação e a sustentabilidade são tão importantes como a autonomia e a eficiência.

Digital Transformation Business Solutions Data Science & IA Blog

< Voltar

Nó: portalesizertis-webapp-6896d4b56c-9mdpz:8080

Nome	Descrição	Tipo	Fornecedor
COOKIE_SUPPORT	Este cookie determina se o seu navegador aceita cookies.	HTTP	izertis.com
INGRESSCOOKIE	Grava a piscina que serve o visitante. Isto é usado em relação ao equilíbrio de carga para otimizar a experiência do utilizador.	HTTP	izertis.com
JSESSIONID	Preserva os estados dos utilizadores em todos os pedidos da página.	HTTP	izertis.com
LFR_SESSION_STATE_20103	Cookie utilizado pelo portal web para controlo de tempo de sessão.	HTTP	izertis.com

Nome	Descrição	Tipo	Fornecedor	com.cookies.table.life
GUEST_LANGUAGE_ID	Os cookies preferenciais permitem ao site lembrar informações que alteram a forma como a página se comporta ou como parece, como o seu idioma preferido ou a região em que está localizada. ...	HTTP	izertis.com
lang	Lembre-se do idioma selecionado por um utilizador para ver uma página web	HTTP	ads.linkedin.com

Nome	Descrição	Tipo	Fornecedor
_ga	Regista uma identificação única que é usada para gerar dados estatísticos sobre como a visita utiliza o website.	HTTP	izertis.com
_gat	Usado pelo Google Analytics para controlar a taxa de pedidos.	HTTP	izertis.com
_gid	Regista uma identificação única que é usada para gerar dados estatísticos sobre como o visitante utiliza o site.	HTTP	izertis.com
bounce	Determina se um visitante sai imediatamente do site - Esta informação é utilizada para estatísticas internas e análise pelo operador web.	Pixel	adnxs.com
cb	Recoge información de la dirección de IP del visitante, localización geográfica y navegación. Esta información se utiliza para la optimización interna y estadísticas para el operador de la web.	Pixel	pixel.prfct.co
cb	Recolher informações sobre o endereço IP do visitante, localização geográfica e navegação. Esta informação é utilizada para otimização interna e estatísticas para o operador web.	Pixel	pixel-geo.prfct.co
personalization_id	Definido pelo Twitter - O cookie permite ao visitante partilhar conteúdo sonoro no seu perfil de Twitter.	HTTP	twitter.com
seg	Regista dados estatísticos do comportamento dos visitantes na web. Isto é usado para análise interna pelo operador web.	Pixel	adnxs.com
seg	Regista dados estatísticos do comportamento dos visitantes na web. Isto é usado para análise interna pelo operador web.	Pixel	pixel-geo.prfct.co

Nome	Descrição	Tipo	Fornecedor
__ss	Recoge información del comportamiento del visitante en múltiples webs - Esta información se utiliza dentro de la web para optimizar la relevancia de la publicidad. La cookie también ayuda a determinar cómo el visitante accede a la web	HTTP	izertis.com
__ss_referrer	Recolher informações sobre o comportamento do visitante em vários sites - Esta informação é usada dentro da web para otimizar a relevância da publicidade. O cookie também ajuda a determinar como o visitante acede ao site.	HTTP	izertis.com
__ss_tk	Recolher informações sobre o comportamento do visitante em vários sites - Esta informação é usada dentro da web para otimizar a relevância da publicidade. O cookie também ajuda a determinar como o visitante acede ao site	HTTP	izertis.com
_fbp	Usado pelo Facebook para fornecer uma série de produtos publicitários, como licitação em tempo real de anunciantes de terceiros.	HTTP	izertis.com
A3	Recoge información del comportamiento del visitante en múltiples webs - Esta información se utiliza dentro de la web para optimizar la relevancia de la publicidad.	HTTP	yahoo.com
ads/ga-audiences	Recolher informações sobre o comportamento do visitante em vários sites - Esta informação é usada dentro da web para otimizar a relevância da publicidade.	Pixel	google.com
anj	Registra una identificación única que identifica el dispositivo de un usuario que vuelve. La identificación se utiliza para los anuncios específicos.	HTTP	adnxs.com
bcookie	Regista um ID único que identifica o dispositivo de um utilizador de retorno. A identificação é usada para anúncios específicos.	HTTP	linkedin.com
bscookie	Utilizado pelo serviço de redes sociais LinkedIn para acompanhar a utilização de serviços embutidos	HTTP	linkedin.com
cs	Esta cookie se utiliza para mejorar la relevancia de anuncios por medio de recoger datos del visitante en múltiples sitios web. Este intercambio de datos de visitante lo ofrece habitualmente un in tercambio de anuncios o centro de datos de terceros.	Pixel	pixel-geo.prfct.co
d/px	Este cookie é usado para melhorar a relevância dos anúncios, recolhendo dados de visitantes em vários sites. Esta troca de dados de visitantes é geralmente oferecida por uma troca de anúncios ou por um centro de dados de terceiros.	Pixel	adsymptotic.com
fr	Usado pelo Facebook para fornecer uma série de produtos publicitários, como licitação em tempo real de anunciantes de terceiros.	HTTP	facebook.com
getuid	O gestor de audiências configura este cookie para determinar a hora e a frequência de nenhum tempo de dados do visitante. Sincronizar o cookie de dados é usado para sincronizar e recolher dados de visitantes de vários websites.	Pixel	adnxs.com
i	O gestor de audiências configura este cookie para determinar a hora e a frequência de nenhum tempo de dados do visitante. Sincronizar o cookie de dados é usado para sincronizar e recolher dados de visitantes de vários websites. ...	HTTP	openx.net
i/adsct	Regista dados anónimos de utilizadores, tais como o seu endereço IP, localização geográfica, websites visitados e quais anúncios o utilizador clicou, de forma a otimizar a exibição de anúncios com base no movimento do utilizador em websites que utilizam a mesma rede de anúncios. ...	Pixel	twitter.com
IDE	Utilizada por Google DoubleClick para registrar e informar sobre las acciones del usuario en el sitio web tras visualizar o hacer clic en uno de los anuncios del anunciante con el propósito de medir la eficacia de un anuncio y presentar anuncios específicos para el usuario.	HTTP	doubleclick.net
koitk	Utilizado pelo Google DoubleClick para gravar e reportar ações de utilizador no site após visualizar ou clicar num dos anúncios do anunciante com o propósito de medir a eficácia de um anúncio e apresentar anúncios específicos do utilizador.	HTTP	marketingautomation.services
lang	Definido pelo LinkedIn quando uma página web contém um painel incorporado Siga-nos.	HTTP	linkedin.com
lidc	Utilizado pelo serviço de redes sociais LinkedIn para acompanhar o uso de serviços incorporados.	HTTP	linkedin.com
lissc	Utilizado pelo serviço de redes sociais LinkedIn para acompanhar o uso de serviços incorporados.	HTTP	linkedin.com
na_id	Costumava reconhecer o visitante na sua reentrada. Isto permite que o site registem o comportamento do visitante e facilitem a funcionalidade de partilha de redes sociais fornecida por Addthis.com.	HTTP	addthis.com
ouid	Define uma cadeia de identificação para um visitante específico. Isto é usado para reconhecer o visitante na sua reentrada. Além disso, permite ao site registar o comportamento do visitante e facilita a função de partilha nas redes sociais fornecidas por Addthis.com.	HTTP	addthis.com
pa_#_ts	Usado em sites que usam a mesma rede de anúncios para mostrar anúncios a outros para nunciants de rede.	HTTP	prfct.co
pa_uid	Utilizada en sitios web que utilizan la misma red publicitaria para mostrar anuncios a los otros anunciantes de la red.	HTTP	prfct.co
test_cookie	Usado em sites que usam a mesma rede de anúncios para mostrar anúncios a outros anunciantes na rede.	HTTP	doubleclick.net
tr	Usado pelo Facebook para fornecer uma série de produtos publicitários, como licitação em tempo real de anunciantes de terceiros.	Pixel	facebook.com
uid	Cria um ID de utilizador único gerado por uma máquina. AddThis, que é um anúncio da Clearspring Technologies, utiliza a identificação do utilizador para permitir que o utilizador partilhe conteúdos em várias redes sociais, fornecendo estatísticas detalhadas a vários fornecedores.	HTTP	addthis.com
usermap	Utilizada para presentar al visitante contenido y publicidad relevante - El servicio está provisto por grupos de proveedores de publicidad externos, que facilitan ofertas en tiempo real a los anunciantes.	Pixel	pixel-geo.prfct.co
UserMatchHistory	Utilizado para apresentar ao visitante conteúdo e publicidade relevantes - O serviço é fornecido por grupos de fornecedores de publicidade de terceiros, que fornecem ofertas em tempo real aos anunciantes.	HTTP	linkedin.com
uuid2	Regista um ID único que identifica o dispositivo de um utilizador de retorno. A identificação é usada para anúncios específicos.	HTTP	adnxs.com
VISITOR_INFO1_LIVE	Tente calcular a largura de banda do utilizador em páginas com vídeos incorporados no YouTube.	HTTP	youtube.com
w/1.0/sd	Registem dados de visitantes como o seu endereço IP, localização geográfica e envolvimento publicitário. Esta informação é usada para otimizar a publicidade em sites que utilizam OpenX.net.	Pixel	openx.net
YSC	Grave um ID único para manter as estatísticas dos vídeos do YouTube que o utilizador viu.	HTTP	youtube.com
yt-remote-cast-installed	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTML	youtube.com
yt-remote-connected-devices	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTML	youtube.com
yt-remote-device-id	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTML	youtube.com
yt-remote-fast-check-period	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTML	youtube.com
yt-remote-session-app	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTML	youtube.com
yt-remote-session-name	Registra las preferencias del reproductor de vídeo del usuario al ver vídeos incrustados de YouTube.	HTML	youtube.com
li_sugr	Grava as preferências dos jogadores de vídeo do utilizador ao ver vídeos incorporados no YouTube.	HTTP	linkedin.com