Тысячи открытых репозиториев GitHub, теперь закрытых, по-прежнему доступны через Copilot

Исследователи в области безопасности предупреждают, что данные, попавшие в Интернет даже на мгновение, могут сохраняться в онлайн-чат-ботах с искусственным интеллектом, таких как Microsoft Copilot, еще долгое время после того, как они станут конфиденциальными.
Согласно новым выводам Lasso, израильской компании по кибербезопасности, специализирующейся на новых угрозах генеративного ИИ, пострадали тысячи некогда публичных репозиториев GitHub некоторых крупнейших компаний мира, включая Microsoft.
Соучредитель Lasso Офир Дрор рассказал TechCrunch, что компания обнаружила, что контент из ее собственного репозитория GitHub появился в Copilot, поскольку он был проиндексирован и кэширован поисковой системой Microsoft Bing. Дрор сказал, что репозиторий, который по ошибке был открыт для общего доступа в течение короткого периода времени, с тех пор стал закрытым, и доступ к нему на GitHub возвращал ошибку «страница не найдена».
«На Copilot, как ни странно, мы нашли один из наших собственных частных репозиториев», — сказал Дрор. «Если бы я просматривал веб-страницы, я бы не увидел этих данных. Но любой человек в мире мог бы задать Copilot правильный вопрос и получить эти данные».
После того, как специалисты Lasso поняли, что любые данные на GitHub, даже кратковременно, могут быть потенциально раскрыты такими инструментами, как Copilot, они продолжили расследование.
Lasso извлек список репозиториев, которые были публичными в любой момент в 2024 году, и определил репозитории, которые с тех пор были удалены или сделаны приватными. Используя механизм кэширования Bing, компания обнаружила, что более 20 000 приватных репозиториев GitHub по-прежнему имели данные, доступные через Copilot, что затронуло более 16 000 организаций.
По данным Lasso, затронутые организации включают Amazon Web Services, Google, IBM, PayPal, Tencent и саму Microsoft. Для некоторых затронутых компаний Copilot может быть предложено вернуть конфиденциальные архивы GitHub, содержащие интеллектуальную собственность, конфиденциальные корпоративные данные, ключи доступа и токены, заявила компания.
Lasso отметила, что использовала Copilot для извлечения содержимого репозитория GitHub (который впоследствии был удален Microsoft), в котором размещался инструмент, позволяющий создавать «оскорбительные и вредоносные» изображения ИИ с использованием облачного сервиса ИИ Microsoft.
Дрор сообщил, что Lasso связалась со всеми пострадавшими компаниями, которые «серьезно пострадали» от утечки данных, и посоветовала им заменить или отозвать все скомпрометированные ключи.
Ни одна из затронутых компаний, названных Lasso, не ответила на вопросы TechCrunch. Microsoft также не ответила на запрос TechCrunch.
Lasso проинформировала Microsoft о своих выводах в ноябре 2024 года. Microsoft сообщила Lasso, что классифицирует проблему как «низкую степень серьезности», заявив, что такое поведение кэширования «приемлемо». Microsoft больше не включает ссылки на кэш Bing в свои результаты поиска с декабря 2024 года.
Однако Лассо утверждает, что, хотя функция кэширования была отключена, Copilot по-прежнему имел доступ к данным, хотя они и не были видны через традиционные веб-поиски, что указывает на временное решение.
techcrunch