Making decisions is hard. When you choose a restaurant, do you fall back on favorites or try something new? With the regular spots you know what you’re getting, so you’re lowering your chance of regret. But you could be missing out on something better. On the other hand, exploring a new restaurant increases your risk of suffering through sad and soggy scallion pancakes. We call the former behavior “exploitation” and the latter “exploration” -- essentially, exploiting the information you have versus exploring for new data. Exploitation and exploration have to be balanced for you to have a decent shot at sustainable, successful decision-making.
In der Online-Werbung stehen wir möglicherweise vor dem Problem, zwischen verschiedenen Gebotsmodellen oder Strategien für eine Werbekampagne zu wählen. Wie sollte man ein Gleichgewicht zwischen Ausbeutung und Exploration herstellen, um die beste Leistung zu erzielen?
We recently published a paper on how to address this problem with our Automatic Model Selector (AMS). It’s a system for scalable online selection of bidding strategies based on live performance metrics. Yes, a human can set up multiple bidding strategies -- but AMS can choose the right one at the right time as needed to maximize performance. It automatically balances explore-exploit.
Das System verwendet Multi-Armed Bandits (MAB), um mehrere Modelle kontinuierlich gegen den Live-Datenverkehr laufen zu lassen und zu evaluieren, wobei der meiste Datenverkehr dem Modell mit der besten Leistung zugewiesen wird, während der Datenverkehr für die Modelle mit schlechterer Leistung verringert wird. Es erforscht, indem es allen Modellen Verkehr ungleich Null zuweist, so dass jedes Modell evaluiert werden kann, und nutzt es aus, indem es den meisten Verkehr dem Modell zuweist, das am besten abschneidet. Das Ausmaß der Ausnutzung nimmt mit der Zeit zu, wenn das System mehr Vertrauen in die beste Leistung des Modells gewinnt. Diese Abbildung gibt einen Überblick über die Komponenten des AMS-Systems:
Im Vergleich zum traditionellen Modellbewertungsprozess, der stark von Menschen abhängig ist, hat AMS einige Vorteile:
- AMS evaluiert regelmäßig und automatisch die Modellleistungen mit Online-Daten unter Verwendung Ihrer Medienmetriken (z. B. CTR, CPC, etc.). Dies vermeidet die Möglichkeit, sich auf alte oder veraltete Daten zu verlassen, sowie die Inkonsistenz zwischen Medienmetriken und Metriken des maschinellen Lernens.
- AMS ist flexibel. Es führt die Modellauswahl für jede Kampagne einzeln durch, anstatt ein Modell auszuwählen und es auf alle Kampagnen anzuwenden. Einfachere Modelle können für kleine Kampagnen besser funktionieren, während komplexe Modelle für größere Kampagnen erforderlich sein können. AMS kann das Modell finden, das für jede Kampagne am besten funktioniert, abhängig von der spezifischen Werbekunden- oder Marktsituation.
- AMS ist skalierbar. Es spart Zeit, indem es selbständig kontrollierte Experimente durchführt und erlaubt es den Mitarbeitern, sich auf die Strategie auf hoher Ebene zu konzentrieren. AMS bewertet Modellkandidaten von Fall zu Fall und wendet die Erkenntnisse systematisch auf Schichtmodelle an.
Dieses System hat sich in ersten Online-Experimenten als effektiv erwiesen. Während AMS sich noch nicht in unserem Live-Produkt widerspiegelt, treibt diese Forschung unseren Denkprozess für zukünftige Innovationen voran. Wenn Sie mehr über die Details von AMS oder die Ergebnisse der Online-Experimente erfahren möchten, können Sie die Informationen in unserem veröffentlichten Papier finden: Online und skalierbare Modellauswahl mit mehrarmigen Banditen.