Kontextbestimmende Abfragen

Kontextbezogene Abfragen (Bilderkennung)

In diesem 2020 erteilten Patent geht es darum, Abfragen von Nutzern die Bilder beinhalten, anhand des Kontextes zu bewerten und korrekt zu beantworten.

Das Verfahren soll Bildergebnisse liefern, die Objekte auf Fotos und in Videos identifizieren. Eine Suchmaschine kann jedoch Schwierigkeiten haben, eine natürlichsprachliche Anfrage zu verstehen. Dieses Patent konzentriert sich deshalb auf die Konkretisierung von Bildanfragen.

Das Patent enthält das folgende Beispiel: Ein Benutzer kann eine Frage zu einem Foto stellen, das er auf seinem Computer anschaut, z. B. „Was ist das?“

Das Patent besagt, dass es für Bild-, Text- oder Videoabfragen oder eine beliebige Kombination davon funktionieren kann.

Als Antwort auf eine Suchanfrage zur Identifizierung von Bildanfragen kann ein Computergerät ein entsprechendes Bild erfassen, das der Nutzer gerade betrachtet, die Frage transkribieren (verschriftlichen) und die Transkription sowie das Bild an einen Server Übermitteln, auf welchem diese dann verarbeitet werden.

Hintergrund

Im Patent heißt es:

Im Allgemeinen umfasst eine Suchanfrage einen oder mehrere Begriffe, die einer Suchmaschine auf Anfrage zur Ausführung einer Suche übermittelt werden. Beispielsweise kann ein Benutzer die Suchbegriffe einer Suchanfrage eingeben, indem er sie auf einer Tastatur eintippt, oder im Falle einer Sprachabfrage, indem er die Suchbegriffe in das Mikrofon eines Computergeräts spricht. Sprachabfragen können mit Hilfe von Spracherkennungstechnologie verarbeitet werden.

Daraus lässt sich schließen, dass mit dem Verfahren versucht wird, Bildinhalte und Textverläufe zu kombinieren und bei der Beantwortung von Spracheingaben mit einzubeziehen.

Patentinformationen

Titel deutsch: Kontextbezogene Abfragen
Titel englisch: Contextually disambiguating queries

Erfinder: Ibrahim Badr, Nils Grimsmo, Gokhan H. Bakir, Kamil Anikiej, Aayush Kumar und Viacheslav Kuznetsov
Zessionar: Google LLC
US-Patent: 10,565,256
Eingereicht: 20.03.2017
Erteilt: 18.02.2020

Abstraktion

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for contextually disambiguating queries are disclosed. In an aspect, a method includes receiving an image being presented on a display of a computing device and a transcription of an utterance spoken by a user of the computing device, identifying a particular sub-image that is included in the image, and based on performing image recognition on the particular sub-image, determining one or more first labels that indicate a context of the particular sub-image. The method also includes, based on performing text recognition on a portion of the image other than the particular sub-image, determining one or more second labels that indicate the context of the particular sub-image, based on the transcription, the first labels, and the second labels, generating a search query, and providing, for output, the search query.

Quelle: https://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=10,565,256.PN.&OS=PN/10,565,256&RS=PN/10,565,256

Erklärung

Die Abstraktion beschreibt Verfahren, Systeme und Vorrichtungen, einschließlich auf einem Speichermedium kodierter Programme, zur kontextbezogenen Bestimmung von Abfragen.

In einem Aspekt umfasst ein Verfahren:

  • das Empfangen eines Bildes, das auf der Anzeige eines Mobiltelefons dargestellt wird,
  • die Verschriftlichung einer Äußerung, die von einem Benutzer des Mobiltelefons gesprochen wird,
  • das Identifizieren eines bestimmten Teilbildes, das in dem Bild enthalten ist,
  • und, basierend auf der Durchführung der Bilderkennung an dem bestimmten Teilbild, das Bestimmen einer oder mehrerer erster Kennzeichnungen, die einen Kontext des bestimmten Teilbildes anzeigen.

Das Verfahren beinhaltet auch das Bestimmen einer oder mehrerer Kennzeichnungen, die den Kontext des hauptsächlichen Bildabschnitts angeben. Dies basiert auf der Durchführung von Texterkennung an einem anderen Teil des Bildes als dem hauptsächlichen Bildabschnitt, der Verschriftlichung der Spracheingabe sowei den Kennzeichnungen. Anschließend wird damit eine Suchanfrage und das Bereitstellen der Suchanfrage für die Ausgabe erzeugt.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert