Name der Teilnehmerin: Neha Deshpande
Projekttitel: Untersuchung von komplexen Bewertungstechniken für LLM-generierte Zusammenfassungen deutscher Nachrichtenartikel
Beschreibung des IT-Forschungsprojektes: In einem Zeitalter von Informationsüberfluss haben KI-generierte Nachrichtenzusammenfassungen das Potenzial, den Leser*innen zu helfen, die wichtigsten Punkte schnell zu erfassen, ohne sich dabei überwältigt zu fühlen. Es ist jedoch eine große Herausforderung sicherzustellen, dass diese Zusammenfassungen korrekt, verständlich und frei von irreführenden Inhalten sind. Dieses Projekt zielt darauf ab, einen umfassenden, automatisierten Bewertungsrahmen für die Beurteilung von Large Language Model (LLM)-generierten Zusammenfassungen von deutschen Nachrichtenartikeln zu entwickeln und dabei wichtige Aspekte wie sachliche Richtigkeit, Kohärenz und Relevanz zu gewährleisten.
Angesichts zunehmender Fehlinformationen und voreingenommene Berichterstattungen ist die Zuverlässigkeit automatisierter Nachrichtenzusammenfassungen wichtiger denn je. Viele bestehende Bewertungsmethoden stützen sich auf von Menschen erstellte Referenzzusammenfassungen, welche Voreingenommenheit und Unstimmigkeiten widerspiegeln können. Die manuelle Auswertung bietet zwar tiefergehende Erkenntnisse, ist aber zeitaufwändiger und schwieriger zu skalieren. Dieses Projekt versucht, diese Herausforderungen zu überwinden, indem es die Abhängigkeit von menschlichen Bewertungen verringert und wissensbasierte Techniken wie Wissensgraphen und LLM-basierte Bewertungen wirksam einsetzt.
Einer der Hauptschwerpunkte ist die Ermittlung der wichtigsten Metriken für die Bewertung von Zusammenfassungen, die Aspekte wie grammatikalische Korrektheit, Prägnanz und sachliche Konsistenz abdecken. Durch das Sammeln von Nutzer*innenbewertungen und das Analysieren von Leser*innenpräferenzen zielt das Projekt auf eine detaillierte Verbesserung von Bewertungsmodellen ab, die sich stark an die menschliche Beurteilung anlehnen. In diesem Forschungsprojekt wird ebenfalls untersucht wie LLMs im Vergleich zu kleineren, individuell trainierten Modellen abschneiden und ob sie genaue, skalierbare Bewertungen bereitstellen können.
Ein weiterer ausschlaggebender Aspekt ist das Problem der KI-„Halluzinationen“ – Fälle, in denen Modelle irreführende oder erfundene Informationen erzeugen. Im Rahmen dieser Arbeit werden Mechanismen zur Erkennung und Korrektur solcher Ungenauigkeiten berücksichtigt, um weiterhin vertrauenswürdige Zusammenfassungen sicherstellen zu können. Ziel des Projekts ist es, eine erhebliche Forschungslücke im Bereich NLP zu schließen, indem es sich speziell auf die Komplexität der deutschen Sprache konzentriert und nicht wie die meisten Studien auf englischsprachige Modelle.
Da das Framework auf Universalität ausgelegt ist, wird es auf verschiedene LLMs wie GPT-4, Vicuna und Mistral anwendbar sein, wodurch es zu einem vielseitigen Werkzeug für Forscher*innen, Nachrichtenorganisationen und KI-Entwickler*innen wird. Diese Erkenntnisse werden nicht nur die Qualität von KI-generierten Nachrichtenzusammenfassungen verbessern, sondern auch zu umfassenderen Fortschritten in der Verarbeitung natürlicher Sprache beitragen, insbesondere bei Sprachen mit geringen Ressourcen.
Durch den Aufbau eines skalierbaren, zuverlässigen und anpassungsfähigen Bewertungssystems soll dieses Projekt das Vertrauen in KI-generierte Inhalte stärken und so eine besser informierte Öffentlichkeit und ein gesünderes digitales Nachrichtenökosystem unterstützen.
Software Campus-Partner: Technische Universität Berlin und Holtzbrinck Publishing Group
Umsetzungszeitraum: 01.01.2025 – 31.12.2026