Was ist Texterkennung (OCR)?
OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Diese Technologie wandelt Text in Bildern in editierbaren, durchsuchbaren Text um. Statt Buchstaben zu lesen wie ein Mensch, erkennt die Software Muster und Formen und ordnet sie bekannten Zeichen zu.
Formidex nutzt Tesseract.js, eine der leistungsfähigsten Open-Source-OCR-Engines. Die Texterkennung läuft vollständig in deinem Browser. Die Sprachdaten werden beim ersten Aufruf heruntergeladen und lokal gespeichert.
Wie funktioniert die Texterkennung?
Die OCR-Engine zerlegt das Bild zunächst in einzelne Zeilen und Wörter. Dann analysiert sie jedes Zeichen anhand von gelernten Mustern. Durch die Einbeziehung von Wörterbüchern und Sprachmodellen werden auch schwer lesbare Zeichen korrekt erkannt.
Die Qualität der Erkennung hängt stark vom Eingabebild ab. Gedruckter Text auf weißem Hintergrund wird sehr zuverlässig erkannt. Handschrift, verzerrter Text oder Bilder mit niedrigem Kontrast sind deutlich schwieriger.
Tipps für beste Ergebnisse
Achte auf eine gute Auflösung. Text sollte mindestens 12 Pixel hoch sein, damit die Erkennung zuverlässig funktioniert. Bilder mit 300 DPI oder mehr liefern die besten Ergebnisse.
Wähle die richtige Sprache aus. Die OCR-Engine nutzt sprachspezifische Wörterbücher, die die Erkennung deutlich verbessern. Für gemischte Texte kannst du auch mehrere Sprachen gleichzeitig aktivieren.
Stelle sicher, dass der Text gerade ausgerichtet ist. Stark gedrehte oder verzerrte Texte werden schlechter erkannt. Wenn nötig, drehe das Bild vorher mit dem Drehen-Tool.
Häufige Anwendungsfälle
Dokumente digitalisieren: Rechnungen, Verträge, Briefe oder Notizen abfotografieren und den Text extrahieren. So sparst du dir das Abtippen und kannst den Text direkt weiterverarbeiten.
Screenshots auswerten: Text aus Screenshots, Fehlermeldungen oder App-Oberflächen kopieren, ohne alles von Hand abtippen zu müssen.
Visitenkarten erfassen: Kontaktdaten von Visitenkarten automatisch auslesen statt manuell einzutippen. Besonders praktisch nach Konferenzen und Messen.