Nachdem die Zielfunktion so wesentlich ist für ein selbstlernendes System wollen wir diese genauer anschauen.
Die typischen heute verfügbaren Systeme machen dass dann beispielsweise mithilfe der Spielregeln für Schach oder Go. Ganz stark vereinfacht: Das System bekommt als Maßstab definiert, schließlich den gegnerischen König zu schlagen. Dann spielt es Millionen Partien gegen sich selbst. Die ersten Partien sind grottenschlecht, aber das System lernt von „Null“ an und bildet anhand dieses Lernprozesses seinen eigenen Stil.
Während früher Spielprogramme für ein bestimmtes Spiel (Schach, Poker, Go…) konzipiert wurden, wurde das System AlphaZero für beliebige Brettspiele konzipiert. Das konkrete Spiel mit sinen Spielregeln und Siegbedingungen wird ihm dann eingegeben und in Übungspartien wird dann die Spielstrategie ermittelt. Auf diese Art konnte AlphaZero die besten verfügbaren Schach und Go Programme mit einigen Stunden Lernzeit besiegen.
Hier zeigt sich, der Ansatz zur Verallgemeinerung vom System für ein spezielles Spiel hin zu einem generischen System für Brettspiele.
