Cooperação e segurança em sistemas multiagentes
A inovação envolve explorações nas quais as perguntas são respondidas para testar os limites, descobrir novas possibilidades e perceções. Num cenário em que a Inteligência Artificial está cada vez mais presente de uma forma ou de outra nas nossas vidas, anteciparmo-nos e focarmo-nos em tópicos de grande impacto pode não só dar-nos uma vantagem competitiva, como também descobrir métodos em que podemos acrescentar valor. É importante alinhar estas explorações de forma rigorosa com uma formação que reflita o estado da arte na indústria: na Izertis, exploramos linhas tecnológicas e propomos Spikes que nos permitem estar na vanguarda. Parte disso, é a formação que depois adaptamos aos nossos projetos. Nos últimos meses, tive a oportunidade de dar formação sobre um dos desafios atuais mais fascinantes no mundo da inteligência artificial, o problema de alinhar a IA e a segurança dos sistemas que a acompanham.
Hoje vamos aprender sobre sistemas multiagentes na área da Aprendizagem por Reforço, e sobre questões importantes de segurança em ambientes complexos nos chamados mixed-motive games, ambientes em que coexistem competição e cooperação, e vamos aprofundar o dilema da tragédia dos bens comuns e simulações com a estrutura MeltingPot da Google Deepmind.
Figura 1. Animação das simulações do Meltingpot Framework da Deepmind com o dilema da tragédia dos comuns. Simulação treinada sob um conjunto de agentes em que cada um aprende de forma independente. Nesta simulação, os agentes devem recolher maçãs, garantindo a sustentabilidade do campo de maçãs. Se a última maçã desaparecer, o campo de maçãs está esgotado. Os agentes são capazes de eletrocutar outros agentes, permitindo a punição como norma social. Isto implica dinâmicas em que os esforços competitivos e cooperativos devem ser equilibrados, uma vez que os agentes devem recolher o maior número de maçãs (competitividade), mas também devem permitir que o campo de maçãs volte a crescer (cooperação).
Porquê sistemas multiagentes? Porquê a tragédia dos bens comuns como contexto?
Podemos usar a inteligência artificial para estudar as diferentes soluções
Cenários em que vários agentes coexistem automaticamente e as dinâmicas que deles decorrem, juntamente com os eventuais problemas de segurança, é uma realidade que implica desafios importantes do ponto de vista da segurança e do controlo. Mas este não ocorre somente nos modelos de linguagem que vemos todos os dias, mas também na indústria em vários casos de uso, como veículos autónomos, robótica colaborativa ou gestão de tráfego aéreo. Também tem um impacto na IoT, onde vários dispositivos e sensores autónomos podem comunicar e colaborar para executar tarefas como a monitorização ambiental e a gestão de recursos.
A tragédia dos bens comuns é um conceito económico que descreve uma situação em que os indivíduos, agindo de forma independente e racional de acordo com os seus próprios interesses, esgotam um recurso partilhado limitado, mesmo quando é evidente que isso não é do melhor interesse do grupo a longo prazo. Os sistemas multiagentes têm aqui um papel a desempenhar na coordenação, cooperação e implementação de estratégias de gestão sustentável. Podemos, portanto, falar de gestão e sustentabilidade a diferentes níveis, abstraindo do conceito mais puramente económico. Para compreender o problema, para além do artigo publicado na sua época por Hardin e do fascinante livro "Managing the commons", somos apresentados ao cenário em que podemos usar a inteligência artificial para estudar as diferentes soluções com as quais podemos trabalhar em relação a este desafio.
Em que consistiu a exploração e quais foram os resultados?
Se propone un cambio en las políticas y el entorno.
Ao escolher um framework técnico para investigar, estudamos o MeltingPot devido ao seu compromisso com a avaliação na generalização de sistemas multiagentes. Meltingpot propõe um sistema de avaliação em que a população treinada passa por avaliações com outros agentes durante a fase de avaliação, para ver como os agentes respondem a certas dinâmicas que nunca viram antes. Portanto, diferenciamos entre o que os atores chamam de população focal (que foi formada) e a população background (com a qual a avaliação é feita, diferente da população de formação). A exploração tem sido tida em conta em vários eixos: propõe-se uma mudança nas políticas e no ambiente.
A la hora de elegir un framework técnico para investigar, estudiamos MeltingPot debido a su apuesta por la evaluación en la generalización de los sistemas multiagente. MeltingPot propone un sistema de evaluación en el que la población que ha sido entrenada se somete a evaluaciones con otros agentes durante la fase de evaluación, para ver cómo los agentes responden a ciertas dinámicas que no han visto anteriormente. Diferenciamos, por tanto, entre lo que los actores llaman la población focal (que ha sido entrenada) y la población background (con la cual se hace la evaluación, distinta a la población de entrenamiento). La exploración se ha tenido en cuenta en varios ejes: se propone un cambio en las políticas y el entorno.
Detalhes técnicos e principais resultados da experiência
As experiências centraram-se em várias configurações e definições no ambiente de simulação, com o objetivo de observar como as diferentes políticas afetam o comportamento dos agentes. Eis alguns destaques:
- Taxas de regeneração de recursos: As taxas de regeneração foram ajustadas para observar como os agentes modificam as suas estratégias de recolha face à abundância ou escassez. As experiências mostraram que:
- Taxas de regeneração mais baixas incentivam os agentes a adotar estratégias mais conservadoras.
- Taxas mais altas incentivam uma competição mais agressiva, aumentando o risco de esgotamento dos recursos.
- Capacidade de penalidade do agente: a capacidade de os agentes imporem sanções aos outros foi manipulada para avaliar o seu impacto na cooperação e na concorrência.
- A eliminação da capacidade de punir resultou num aumento, em alguns casos, do comportamento cooperativo.
- A presença de penalizações incentivou a concorrência regulada, onde os agentes equilibraram o seu comportamento para evitar sanções.
- Sinais de recompensa durante o treino: experimentámos modificar as pistas de recompensa para alinhar ou desalinhar os incentivos com os objetivos de sustentabilidade.
- Agentes treinados com incentivos alinhados mostraram maior propensão para comportamentos que favoreceram a regeneração do recurso.
- Agentes com incentivos desalinhados tendem a se comportar de forma mais egoísta, priorizando a acumulação de recursos de curto prazo em detrimento da sustentabilidade a longo prazo.
Implicações para a Segurança e a Cooperação na IA
Estas experiências realçam a importância de desenhar sistemas multiagentes com mecanismos bem pensados que não só promovam a eficiência individual de cada agente, mas também garantam a gestão eficaz e sustentável dos recursos partilhados. As implicações vão para além da teoria, oferecendo orientações práticas para o desenvolvimento de políticas em sistemas de IA que interagem em ambientes partilhados.
Conclusão: Rumo à Inteligência Artificial Colaborativa
A investigação em sistemas multiagentes e a aprendizagem por reforço são cruciais para avançar para uma era de inteligência artificial que não só é capaz de realizar tarefas complexas de forma independente, como também pode colaborar eficazmente em ambientes partilhados para resolver problemas à escala global. Esta exploração técnica fornece uma base sólida para futuras inovações no domínio da IA, em que a cooperação e a sustentabilidade são tão importantes como a autonomia e a eficiência.