Warum wir eine eigene Nährwert-Datenbasis bauen

Wir fragen die KI nicht, was in deiner Karotte steckt.

Klingt komisch für 2026 – wir bauen schließlich an einer App, die KI an etlichen Stellen einsetzt. Aber sobald es um den konkreten Nährwert geht, der bei dir im Tagebuch landet, fragen wir bewusst kein Sprachmodell.

Plausibel, aber falsch.

Frag ein Sprachmodell heute, wie viel Eisen in 100 g Vollkorn-Haferflocken steckt. Frag es morgen nochmal. Frag es übermorgen mit einem leicht anderen Wortlaut. Du bekommst drei Antworten, die alle überzeugend klingen – und sich um mehrere Milligramm unterscheiden.

Das ist kein Eindruck, das ist messbar. Eine Studie aus Anfang 2025 hat ChatGPT Mahlzeiten-Fotos vorgelegt und die Schätzungen gegen Referenzwerte verglichen. Das Ergebnis:

Calcium 27,8 % unter dem realen Wert
Kalium 49,5 % unter dem realen Wert
Folat 38,6 % unter dem realen Wert
selbst Vitamin D im Median auf null geschätzt
Portionsgewicht in 76,3 % der Fälle unterschätzt – und alle Mikronährstoff-Schätzungen bauen darauf auf

Eine weitere Studie aus 2025 vergleicht drei Sprachmodelle und kommt bei ChatGPT und Claude auf rund 36 % mittleren absoluten Fehler bei Gewicht und Energie – bei den Makronährstoffen sind es 40 bis 73 %, bei Gemini je nach Nährstoff sogar 64 bis 110 %. Die Autoren sehen darin durchaus Potenzial für grobe Tracking-Szenarien, halten die Modelle für präzise Werte aber explizit für ungeeignet.

Das Grundproblem ist nicht „die KI ist noch nicht gut genug" – es ist strukturell. Sprachmodelle generieren plausibel klingende Werte ohne belastbare Quelle dahinter. Es gibt keinen Datensatz, auf den sich die Antwort eindeutig zurückführen lässt, und beim nächsten Würfeln kommt ein anderer Wert raus.

Für eine Tracking-App ist das untauglich. Eine 4.6 darf nicht morgen 6.7 sein, nur weil das Modell anders gewürfelt hat. Wenn dir deine Eisenwerte etwas bedeuten sollen, müssen sie reproduzierbar sein.

Crowdsourced ist großartig – aber als alleinige Quelle nicht genug.

Die offensichtliche Alternative wäre OpenFoodFacts. Über 100.000 Freiwillige haben dort über 4 Millionen Produkte aus 150 Ländern eingetragen, die Datenbank ist offen, frei nutzbar, und das Projekt verfolgt eine Mission, die wir respektieren. Ohne OFF wäre die ganze Diskussion um öffentliche Lebensmitteldaten ärmer.

Was OFF gut kann: Reichweite, Offenheit, ein riesiger Pool an Produkten, die sonst nirgendwo digital erfasst sind. Was OFF strukturell nicht kann: garantieren, dass die einzelnen Werte vor Veröffentlichung verifiziert wurden. Die Plattform sagt das selbst in den Nutzungsbedingungen sinngemäß – es gebe keine Zusicherung, dass die Daten korrekt, vollständig oder verlässlich seien. Review heißt dort Community-Moderation: andere Contributor können korrigieren, automatische Pipelines lesen Werte aus Fotos und suchen Anomalien. Aber ein verbindlicher, formaler Prüfprozess vor der Veröffentlichung existiert nicht. Über die API kommen am Ende dieselben ungeprüften Werte raus, in denen sie eingetragen wurden.

Das ist kein Vorwurf an OFF – das ist die ehrliche Konsequenz aus dem Modell. Crowdsourced funktioniert für Reichweite. Für eine App, der du beim Tracken deiner Ernährung vertraust, reicht es als alleinige Quelle nicht.

Was uns übrig bleibt: rechnen.

Wir nehmen also den unbequemen Weg. Für Grundzutaten – Hafer, Karotten, Linsen, Tofu, Olivenöl, die paar hundert Bausteine, aus denen die meisten Produkte bestehen – verlassen wir uns auf den Bundeslebensmittelschlüssel. Standardreferenz vom Max-Rubner-Institut, Werte mit nachvollziehbarer Herkunft.

Für konkrete Marken-Produkte gilt das Hersteller-Label als Primärquelle. Was draufsteht, kommt rein. Wenn ein Hersteller seine Mikronährstoffe nicht angibt – und das ist die Regel, nicht die Ausnahme – wird interessant, was passiert.

An der Stelle, an der typische Apps eine KI fragen würden, rechnen wir. Aus der Zutatenliste eines Produkts und den bekannten BLS-Werten der einzelnen Zutaten lässt sich der Gesamtnährwert deterministisch hochrechnen. Das ist Arbeit – wir müssen Mengenanteile abschätzen, Verarbeitungsschritte mitdenken, plausibilisieren – aber es ist Arbeit, die jedes Mal dasselbe Ergebnis liefert. Wenn morgen jemand denselben Input gibt, kommt morgen derselbe Output raus. Wenn ein BLS-Update kommt, ist klar, welche Werte sich warum verändern. Das, was hochgerechnet wurde, taucht bei dir als berechnet am Wert auf – nicht als magische Wahrheit, sondern als das, was es ist.

Konkrete Algorithmen lassen wir hier bewusst draußen. Wichtig ist nicht, wie clever die Hochrechnung ist – wichtig ist, dass sie deterministisch und nachvollziehbar ist. Eine KI ist das von Natur aus nicht.

Mehr Arbeit für uns, weniger Magie für dich.

Das Ergebnis ist eine kuratierte, eigene Datenbasis, die wir selbst verantworten. Kleiner als OFF, langsamer wachsend, deutlich weniger spektakulär. Dafür darf eine 4.6 in zwei Wochen immer noch eine 4.6 sein – und wenn nicht, sehen wir, warum.

Das ist der Deal: Wir nehmen die Arbeit, du bekommst eine Zahl, der du vertrauen kannst.

Quellen

O'Hara C. et al. (2025): An Evaluation of ChatGPT for Nutrient Content Estimation from Meal Photographs. Nutrients 17(4):607. doi.org/10.3390/nu17040607
Fridolfsson J. et al. (2025): Performance Evaluation of 3 Large Language Models for Nutritional Content Estimation from Food Images. Curr. Dev. Nutr. 2025;9(10):107556. doi.org/10.1016/j.cdnut.2025.107556