Zephyrnet Logo

Microsoft lança essas ferramentas de segurança para Azure AI

Data:

A Microsoft introduziu um conjunto de ferramentas supostamente para ajudar a tornar os modelos de IA mais seguros para uso no Azure.

Desde que o negócio da nuvem e do código começou a investir fundos na OpenAI e a infundir capacidades de chatbot no seu império de software – um drama encenado com igual fervor pelos rivais no meio de promessas grandiosas sobre produtividade – a Microsoft teve de reconhecer que a IA generativa traz riscos.

A perigos são amplamente conhecidos e às vezes alegremente deixados de lado. Há uma década, Elon Musk alertou que a IA poderia apenas destruir a humanidade. No entanto, essa preocupação não o impediu de disponibilizar a IA em carros, em seu megafone de mídia social, e talvez em breve robôs.

A emergência de grandes modelos de linguagem que alucinam e oferecem respostas incorrectas ou prejudiciais levou a um regresso à prancheta, mas à sala de reuniões para mais financiamento. Em vez de produzir um produto seguro e ético, a indústria tecnológica está a tentar domar modelos ferozes, ou pelo menos mantê-los suficientemente longe dos clientes para que possam enlouquecer sem ferir ninguém.

E se isso não funcionar, sempre haverá indenização de reclamações legais, sujeitas a determinados termos, de fornecedores.

Os compromissos da indústria com a segurança da IA ​​coincidem com as exigências governamentais correspondentes. Nos EUA, na quinta-feira, o Escritório de Gestão e Orçamento da Casa Branca (OMB) emitido a sua primeira política governamental para abordar os riscos da IA.

A política exige que as agências federais “implementem salvaguardas concretas ao usar IA de uma forma que possa impactar os direitos ou a segurança dos americanos”, até 1º de dezembro. transparência para aplicações de IA relacionadas à saúde, educação, habitação e emprego.

Assim, a Microsoft divulga as suas mais recentes medidas de segurança de IA através de Sarah Bird, diretora de produto de IA responsável, um título que implica a existência de IA irresponsável – se é que você pode imaginar isso.

Bird afirma que os líderes empresariais estão a tentar equilibrar a inovação e a gestão de riscos, para lhes permitir utilizar a IA generativa sem serem afetados por ela.

“Os ataques de injeção imediata surgiram como um desafio significativo, onde atores mal-intencionados tentam manipular um sistema de IA para fazer algo fora da finalidade pretendida, como produzir conteúdo prejudicial ou exfiltrar dados confidenciais”, explica Bird em um comunicado. no blog.

“Além de mitigar esses riscos de segurança, as organizações também estão preocupadas com a qualidade e a confiabilidade. Eles querem garantir que seus sistemas de IA não gerem erros ou adicionem informações que não sejam fundamentadas nas fontes de dados do aplicativo, o que pode minar a confiança do usuário.”

Como a segurança e a precisão não estão incluídas na taxa de assinatura da IA, a Microsoft vê uma oportunidade para vendê-los como complemento.

Os clientes que usam o Azure AI Studio para ajudá-los a criar aplicativos generativos de IA podem contar com quatro novas ferramentas.

Primeiro, há Escudos de alerta, que prometem ajudar na defesa contra ataques imediatos de injeção. Anteriormente conhecido como Jailbreak Risk Detection e agora em versão prévia pública, é uma forma de mitigar o risco de interferência direta e indireta nos modelos básicos.

Os ataques diretos envolvem prompts (entradas) projetados para fazer o modelo ignorar seu treinamento de segurança. Os ataques indiretos referem-se a esforços para inserir informações em um modelo. Uma maneira de fazer isso pode ser incluir texto oculto em um e-mail com o conhecimento de que um modelo de IA agindo em nome do destinatário por meio, digamos, do Copilot no Outlook, analisará a mensagem, interpretará o texto oculto como um comando e, esperançosamente, siga as instruções, fazendo algo como responder silenciosamente com dados confidenciais.

O segundo é Detecção de aterramento, um sistema para detectar quando os modelos de IA têm alucinações ou inventam coisas. Ele oferece aos clientes diversas opções quando uma reclamação falsa é detectada, incluindo o envio da resposta de volta para revisão antes da exibição. A Microsoft diz que conseguiu isso construindo um modelo de linguagem personalizado que avalia afirmações infundadas com base em documentos originais. Portanto, a resposta para a segurança do modelo de IA é, você adivinhou, outro modelo.

Embora este seja um passo maravilhoso em direção a uma IA confiável, o problema ainda não foi resolvido

Terceiro, nós temos Avaliações de segurança assistidas por IA no AI Studio, que fornece uma estrutura de teste para apresentar modelos de prompt e parâmetros para modelar que testa diversas interações adversárias com o aplicativo do cliente. Novamente, é a IA para testar a IA.

E finalmente, há “monitoramento de riscos e segurança”, um recurso do serviço Azure OpenAI que fornece métricas de conteúdo prejudicial.

Vinu Sankar Sadasivan, estudante de doutorado na Universidade de Maryland que ajudou a desenvolver o Ataque BESTA em LLMs, disse O registro Embora seja emocionante ver o Azure construindo ferramentas para tornar a IA mais segura, adicionar mais modelos ao mix expande a superfície de ataque potencial.

“As avaliações de segurança e as ferramentas de monitoramento de risco e segurança do Azure são importantes para investigar a confiabilidade dos modelos de IA”, disse ele. “Embora este seja um passo maravilhoso em direção a uma IA confiável, o problema ainda não foi resolvido. Por exemplo, os Prompt Shields introduzidos provavelmente usam outro modelo de IA para detectar e bloquear ataques imediatos indiretos. Este modelo de IA pode ser vulnerável a ameaças como ataques adversários.

“Os adversários poderiam aproveitar essas vulnerabilidades para contornar os Prompt Shields. Embora as mensagens do sistema de segurança tenham se mostrado eficazes em alguns casos, os ataques existentes, como o BEAST, podem atacar de forma adversa os modelos de IA para desbloqueá-los rapidamente. Embora seja benéfico implementar defesas para sistemas de IA, é essencial permanecer consciente das suas potenciais desvantagens.” ®

local_img

Inteligência mais recente

local_img