[03] Einstellungen, Einstellungen überall!
Aktie
Ja, es gibt viele Einstellungen, aber die gute Nachricht ist, dass sie gespeichert und wiederverwendet werden können.
Wir haben CPD persönlich auf eine Vielzahl von Zeitreihen in einer Reihe von Branchen angewendet. Die Methodik hat sich im Laufe der Zeit weiterentwickelt und berücksichtigt nun die meisten Muster, auf die wir gestoßen sind. Daher sind jetzt viele Einstellungen verfügbar. Sie hat ein Stadium erreicht, in dem Grenzfälle nur noch selten vorkommen. Sie werden feststellen, dass der Algorithmus nachsichtig ist und großartige Ergebnisse erzielt werden können, selbst wenn die Einstellungen nicht unbedingt optimal sind.
Kurztipp Es ist durchaus möglich, dass Sie CPD für Ihre Daten ausführen können, indem Sie einfach (i) eine Quelldatei auf die Registerkarte „Eingabedaten“ ziehen und (ii) sicherstellen, dass auf der Registerkarte „Zeitreihen“ die richtige Periodizität ausgewählt ist. Darüber hinaus reichen möglicherweise die Standardeinstellungen aus. |
In diesem Beitrag geben wir Ihnen Hinweise zur Verwendung der optimalen Einstellungen für Ihre Daten, beginnend mit der Registerkarte „Eingabedaten“ .
In das Feld „Quelldaten“ können Sie per Drag & Drop entweder eine CSV- oder eine Excel-Datei ziehen. In beiden Fällen muss die Datei drei beschriftete Spalten enthalten:
- Serie - der Name der Zeitreihe
- Zeitraum - das Datum der Beobachtung (normalerweise der Beginn des Zeitraums, wenn es sich nicht um einen täglichen Zeitraum handelt) oder eine numerische Folge, wenn Ihre Daten geordnet sind, aber kein Datum haben
- Menge - ein numerischer Wert
Ihre Quelldaten können andere Spalten enthalten, aber die oben genannten drei Spalten müssen darin enthalten sein.
Wenn Ihre Daten datiert sind, muss der Zeitraum als erkennbares Datum in Excel formatiert werden, wenn dies die Quelle ist, oder entweder als TT/MM/JJJJ oder TT/MM/JJJJ, wenn es sich um eine CSV-Datei handelt. Der folgende Auszug stellt ein akzeptables CSV-Format dar, aber in diesem Fall wird der CPD-Assistent unruhig, ob es sich um tägliche Daten im europäischen Stil oder monatliche Daten im US-Stil handelt.
Sie können dabei helfen, indem Sie sicherstellen, dass auf der Registerkarte „Eingabedaten“ der richtige Datumsstil und auf der Registerkarte „Zeitreihe“ die richtige Periodizität ausgewählt ist. Der CPD-Assistent kann derzeit tägliche, wöchentliche, monatliche und vierteljährliche Daten verarbeiten. Wenn Ihre Daten eine andere Periodizität aufweisen (z. B. stündlich), können Sie stattdessen eine Zahlenfolge anwenden.
Mehrere Reihen können im Langformat in einer CSV-Datei oder auf einer Excel-Registerkarte enthalten sein, müssen aber durchgehend die gleiche Periodizität aufweisen (d. h. wöchentliche und monatliche Daten dürfen nicht in derselben Tabelle enthalten sein). Sie können jedoch unterschiedliche Periodizitäten auf verschiedenen Excel-Registerkarten angeben.
Nachdem Sie eine Excel-Datei in das Feld „Quelldaten“ gezogen haben, werden die Eingabeoptionen automatisch erweitert, sodass Sie die erforderliche Excel-Registerkarte aus dem Dropdown-Menü auswählen können.
Wenn Ihre Daten veraltet sind und Geldbeträge darstellen, besteht die Möglichkeit, Ihre Zeitreihe an die Inflation anzupassen und konstante Preise zu verwenden. Wir haben eine Tabelle mit CPI-Daten (Verbraucherpreisindex) für eine begrenzte Anzahl von Ländern bereitgestellt und werden auf Anfrage der Benutzer weitere hinzufügen.
Die letzte Einstellung auf der Registerkarte „Eingabedaten“ ist die Auswahl der Währung, die bei Bedarf auf Ihren CPD-Diagrammen angezeigt werden soll. Sie können entweder eine der angebotenen Optionen auswählen oder Ihr eigenes Währungssymbol eingeben.
Und weiter zur Registerkarte Zeitreihen .
Die richtige Periodizität Ihrer Daten muss angegeben werden. Die Optionen sind derzeit Tage , Wochen , Monate , Quartale und Undeklariert . Letzteres wird verwendet, wenn Ihre Daten undatiert sind oder einer anderen Periodizität entsprechen (in diesem Fall ist eine numerische Folge erforderlich).
Wenn in Ihren Daten Datensätze fehlen, besteht die Möglichkeit, fehlende Werte mit dem zuletzt beobachteten Wert oder einem festen Wert (normalerweise Null) zu füllen. Diese Option funktioniert nur für datierte Reihen und nur, wenn ein ganzer Datensatz fehlt (d. h. sie füllt keine NA- oder Nullwerte).
Wenn Ihre Daten datiert sind und Geldbeträge aus bestimmten Ländern darstellen, besteht die Möglichkeit, Ihre Zeitreihe an die Inflation anzupassen. Eine Inflationsanpassung sollte nur in Betracht gezogen werden, wenn die Reihe lang genug ist, um eine Anpassung zu rechtfertigen (normalerweise mehr als zwei Jahre).
Wenn Sie den Maßstab Ihrer Rohdaten reduzieren möchten, steht eine Einstellung für Anzeigeeinheiten zur Verfügung. Sie können die Menge entweder durch Tausend (K) oder durch eine Million (M) teilen und auch eine Währungseinheit (sofern auf der Registerkarte Eingabedaten angegeben) in die CPD-Diagrammbeschriftungen aufnehmen.
Die verbleibenden drei Einstellungen für die Ausschlussstufen werden verwendet, um Reihen mit nur wenigen oder wenigen Beobachtungen bzw. Reihen ohne aktuelle Beobachtungen von der Betrachtung auszuschließen.
Die Registerkarte „Änderungspunkt“ bietet Einstellungen, die vom CPD-Algorithmus verwendet werden.
Die erste Einstellung gibt die Anzahl der Reihen an, die in die CPD-Ausführung einbezogen werden sollen. CPD kann entweder für alle Reihen in Ihren Quelldaten oder für eine zufällige Stichprobe ausgeführt werden. Die Angabe einer Stichprobengröße ist eine gute Option, wenn Sie Ihre Daten untersuchen und sich noch nicht für die gewünschten Optionen entschieden haben. Wenn Sie bereit sind, den Prozess in die Produktion zu überführen, können Sie „Alle Reihen“ auswählen und CPD für Hunderte oder sogar Tausende von Zeitreihen ausführen.
Die Anzahl der Shuffles gibt die Anzahl der Bootstrapping-Iterationen an, die verwendet werden, um die Wahrscheinlichkeit zu ermitteln, dass die identifizierte Änderung auf dem erforderlichen Konfidenzniveau signifikant ist. Wenn eine sehr große Anzahl von Reihen berücksichtigt wird, kann es erforderlich sein, die Anzahl der Shuffles unter den Standardwert von 1.000 zu reduzieren.
CPD-Iterationen geben die Anzahl der Iterationen an, die zum Identifizieren mehrerer Änderungspunkte in einer Reihe verwendet werden sollen. Bei der ersten Iteration wird die gesamte Reihe getestet, während nachfolgende Iterationen die Reihe sukzessive an den Punkten signifikanter Änderungen aufteilen, um weitere Änderungen zu erkennen.
Die restlichen Einstellungen auf dieser Registerkarte wurden in einem separaten aussagekräftigen und ausführlichen Beitrag beschrieben.
Und schließlich gibt die Registerkarte „Ausgabedaten“ an, welche Ausgaben erzeugt werden und wie die Einstellungen gespeichert und verwendet werden sollen.
Das Anzeigen der CPD-Diagramme ist eine wertvolle Übung, wenn Sie Ihre Daten untersuchen und die entsprechenden Einstellungen festlegen. Sie können entweder „Alle Serien “ oder eine zufällige Stichprobe der Stichprobengröße anzeigen, wenn Sie über viele Daten verfügen. Bei der Durchführung von Produktionsläufen können Sie „Keine“ anzeigen, um die Ausführung zu beschleunigen.
Was die CPD-Ausgabe betrifft, können Sie in eine CSV-Datei mit einem Namen Ihrer Wahl schreiben (die Erweiterung .csv muss nicht angegeben werden) und/oder Sie können zusammengefasste Ergebnisse auf dem Bildschirm anzeigen .
Eine sehr nützliche Funktion ist die Möglichkeit, alle Ihre Einstellungen in einer Einstellungsdatei zu speichern. Nachdem Sie Ihre Einstellungen mit der Schaltfläche „Speichern “ gespeichert haben, können Sie sie jederzeit durch Klicken auf die Schaltfläche „Laden “ laden oder Sie können festlegen, dass sie beim Programmstart automatisch geladen werden. Es besteht auch die Möglichkeit, das Programm beim Start automatisch mit Ihren gespeicherten Einstellungen auszuführen. Dies ist eine praktische Option bei der Durchführung von Produktionsläufen. Möglicherweise können Sie sogar eine Aufrufroutine einrichten, um die ausführbare CPD-Datei automatisch aufzurufen.