srcset="https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?quality=50&strip=all 6000w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/03/shutterstock_2450854311.jpg?resize=444%2C250&quality=50&strip=all 444w" width="1024" height="576" sizes="(max-width: 1024px) 100vw, 1024px">Forscher haben Anmeldeinformationen in den Trainingsdaten von Large Language Models entdeckt.
BOY ANTHONY – Shutterstock.com
Beliebte LLMs wie DeepSeek werden mitCommon Crawl trainiert, einem riesigen Datensatz mit Website-Informationen. Forscher von Truffle Security haben kürzlich einen Datensatz des Webarchives analysiert, der über 250 Milliarden Seiten umfasst und Daten von 47,5 Millionen Hosts enthält. Dabei stellten sie fest, dass rund 12.000 hartcodierte Live-API-Schlüssel und Passwörter dazu zählen.
Der Analyse zufolge enthält das Datenpaket von Common Crawl insgesamt 219 verschiedene Geheimnistypen. Darunter Amazon Web Services (AWS) Root-Schlüssel, Slack-Webhooks und Mailchimp-API-Schlüssel. Da man sich mit diesen Anmeldedaten erfolgreich authentifizieren kann, stellen sie sowohl für Benutzer als auch für Organisationen ein erhebliches Sicherheitsrisiko dar.
„Dies verdeutlicht ein wachsendes Problem: LLMs, die mit unsicherem Code trainiert wurden, können versehentlich unsichere Ausgaben generieren“, warnen die Forscher. Demnach können LLMs während des Trainings nicht zwischen gültigen und ungültigen Geheimnissen unterscheiden. „Das bedeutet, dass beide gleichermaßen zur Bereitstellung unsicherer Codebeispiele beitragen“, heißt es im Forschungsbericht.