Glossar

Schauen Sie sich unser praktisches Glossar an, in dem wir den ganzen Fachjargon aus den Bereichen Daten, KI und ML für Sie aufschlüsseln!

A-D

Approximate Bayesian Computation

Die approximative Bayes'sche Berechnung (ABC) ist eine statistische Methode, die zur Schätzung der Parameter komplexer Modelle verwendet wird, wenn die Wahrscheinlichkeitsfunktion des Modells nur schwer oder mit hohem Rechenaufwand zu bewerten ist. Die Grundidee hinter ABC ist die Annäherung an die wahre Posterior-Verteilung mit Hilfe von simulierten Daten, die aus dem Modell mit einer Reihe von vorgeschlagenen Parameterwerten erzeugt werden. Die vorgeschlagenen Parameterwerte werden akzeptiert oder abgelehnt, je nachdem, wie ähnlich die simulierten Daten den beobachteten Daten sind.

Die ABC-Methode kann als eine Möglichkeit angesehen werden, den rechenintensiven Schritt der Auswertung der Likelihood-Funktion des Modells zu umgehen. Stattdessen konzentriert sich die Methode auf den Vergleich der beobachteten Daten mit simulierten Daten, die aus dem Modell mit unterschiedlichen Parameterwerten erzeugt wurden. Die Parameterwerte, die simulierte Daten erzeugen, die den beobachteten Daten am ähnlichsten sind, werden als die wahrscheinlichsten Werte der wahren Parameter angesehen.

Die Methode ist in Situationen nützlich, in denen die Likelihood-Funktion komplex und schwer zu berechnen ist, wie z. B. bei Modellen mit latenten Variablen oder Modellen mit hochdimensionalen Parameterräumen. Sie wurde in einer Reihe von Bereichen wie Genetik, Epidemiologie und Ökologie eingesetzt, um die Parameter von Modellen mit komplexer Dynamik zu schätzen.

ARIMA

ARIMA (AutoRegressive Integrated Moving Average) ist eine Art statistisches Modell für Zeitreihendaten. Es ist eine Kombination aus drei Komponenten:
  1. Autoregression (AR): ein Modell, das die vergangenen Werte der Zeitreihe verwendet, um den aktuellen Wert vorherzusagen.
  2. Integration (I): ein Modell, das die Nicht-Stationarität der Zeitreihe durch Differenzierung der Daten berücksichtigt, um Trends oder Saisonalität zu entfernen.
  3. Gleitender Durchschnitt (GMA): Ein Modell, das vergangene Fehler oder Residuen der Zeitreihe verwendet, um den aktuellen Wert vorherzusagen.
Durch die Kombination dieser drei Komponenten kann ein ARIMA-Modell sowohl lineare als auch nichtlineare Beziehungen in den Daten berücksichtigen und ein breites Spektrum unterschiedlicher Zeitreihenmuster wie Trend, Saisonalität und Rauschen behandeln. Das ARIMA-Modell wird durch drei Parameter spezifiziert: (p,d,q), wobei p die Ordnung der Autoregressionskomponente, d die Ordnung der Differenzierungskomponente und q die Ordnung der Komponente des gleitenden Durchschnitts ist. Um ein ARIMA-Modell zu verwenden, muss man zunächst die Werte von (p,d,q) bestimmen, die am besten zu den Daten passen, und dann die geschätzten Parameter verwenden, um Vorhersagen über zukünftige Werte der Zeitreihe zu machen. ARIMA-Modelle werden in vielen Bereichen wie Wirtschaft, Finanzen und Technik eingesetzt. Sie gelten als leistungsfähiges Instrument für die Zeitreihenprognose, erfordern aber auch ein gewisses Maß an Fachwissen und Erfahrung, um effektiv eingesetzt werden zu können.

Auto-encoder

Ein Autoencoder ist eine Art neuronales Netz, das so trainiert wird, dass es seine Eingabe rekonstruiert. Es besteht aus zwei Hauptkomponenten: einem Encoder und einem Decoder. Der Encoder bildet die Eingabedaten auf eine niedriger dimensionale Darstellung ab, die als Engpass oder latente Darstellung bezeichnet wird. Der Decoder bildet diese latente Repräsentation dann wieder auf den ursprünglichen Eingaberaum ab. Das Ziel des Trainings eines Autoencoders ist es, die Differenz zwischen der ursprünglichen Eingabe und der Ausgabe des Decoders zu minimieren.

Eine Hauptfunktion des Autoencoders ist die Dimensionalitätsreduktion, bei der der Encoder eine kompakte Darstellung der Eingabedaten lernt, die für Aufgaben wie Datenkompression, Merkmalsextraktion und Anomalieerkennung verwendet werden kann.

Eine weitere Funktion ist die generative Modellierung, bei der der Decoder dazu verwendet werden kann, neue Daten zu erzeugen, die den Trainingsdaten ähnlich sind.

Darüber hinaus kann der Autoencoder zur Entrauschung eingesetzt werden, indem er den Eingabedaten Rauschen hinzufügt und dann den Autoencoder darauf trainiert, die ursprünglichen, sauberen Daten aus der verrauschten Eingabe zu rekonstruieren.

Insgesamt ist der Autoencoder ein leistungsfähiges Werkzeug für unüberwachte Lernaufgaben, da er nützliche Repräsentationen der Daten lernen kann, ohne dass markierte Beispiele erforderlich sind.

Bayessche Statistik

Die Bayes'sche Statistik ist ein Zweig der Statistik, der auf der Bayes'schen Interpretation der Wahrscheinlichkeit beruht, die die Wahrscheinlichkeit als Maß für den Grad des Glaubens an ein Ereignis betrachtet. In der Bayes'schen Statistik wird die Wahrscheinlichkeit eines Ereignisses aktualisiert, wenn neue Daten beobachtet werden. Dies steht im Gegensatz zur klassischen Statistik, bei der die Wahrscheinlichkeit eines Ereignisses als feststehend betrachtet wird und sich nicht ändert, wenn neue Daten beobachtet werden.

Eines der Schlüsselkonzepte der Bayes'schen Statistik ist die Verwendung von Prioritätsverteilungen, d. h. Wahrscheinlichkeitsverteilungen, die unsere anfänglichen Überzeugungen über die Parameter eines Modells darstellen, bevor Daten beobachtet werden. Wenn neue Daten beobachtet werden, werden die prioren Verteilungen mit Hilfe des Bayes'schen Theorems aktualisiert, um posteriore Verteilungen zu erstellen, die unsere aktualisierten Annahmen über die Parameter des Modells darstellen.

Die Bayes'sche Statistik wird in vielen Bereichen eingesetzt, z. B. in den Wirtschafts-, Ingenieur-, Natur- und Sozialwissenschaften. Sie ist besonders nützlich bei Problemen, bei denen die Anzahl der Parameter groß oder die Daten verrauscht sind, und sie kann auch in Fällen verwendet werden, in denen die zugrunde liegenden Wahrscheinlichkeitsverteilungen nicht gut verstanden werden oder schwer zu spezifizieren sind.

Bayes' theorem

Das Bayes-Theorem ist ein grundlegendes Ergebnis der Wahrscheinlichkeitstheorie, das die Wahrscheinlichkeit eines Ereignisses mit der bedingten Wahrscheinlichkeit dieses Ereignisses in Abhängigkeit von einem anderen Ereignis in Beziehung setzt. Benannt ist es nach Reverend Thomas Bayes, einem Statistiker und Theologen des 18. Jahrhunderts. Das Theorem wird wie folgt formuliert:

P(A|B) = P(B|A) * P(A) / P(B)

wobei:

  • P(A|B) ist die bedingte Wahrscheinlichkeit des Ereignisses A unter der Voraussetzung, dass das Ereignis B eingetreten ist, auch bekannt als die posteriore Wahrscheinlichkeit.
  • P(B|A) ist die bedingte Wahrscheinlichkeit des Ereignisses B unter der Voraussetzung, dass das Ereignis A eingetreten ist, auch bekannt als Wahrscheinlichkeit (likelihood).
  • P(A) ist die vorherige Wahrscheinlichkeit des Ereignisses A, die unsere anfängliche Überzeugung über die Wahrscheinlichkeit von A darstellt, bevor irgendwelche Daten beobachtet wurden.
  • P(B) ist die Randwahrscheinlichkeit des Ereignisses B, die die Summe oder das Integral der Wahrscheinlichkeit über alle möglichen Werte von A ist.


Das Theorem besagt, dass die Posteriorwahrscheinlichkeit proportional zum Produkt aus Wahrscheinlichkeit und Priorwahrscheinlichkeit ist und dass diese Proportionalität durch die Randwahrscheinlichkeit der Daten bestimmt wird.

Es ist wichtig zu wissen, dass das Bayes-Theorem eine grundlegende Regel der Wahrscheinlichkeitstheorie ist und dazu dient, unseren Glauben an ein Ereignis zu aktualisieren, wenn neue Daten vorliegen. Es wird in vielen Bereichen verwendet, z. B. in der Statistik, dem maschinellen Lernen, der künstlichen Intelligenz, der Verarbeitung natürlicher Sprache und vielen anderen.

Bayesian Linear Regression

Die lineare Regression nach Bayes ist eine Art der linearen Regressionsanalyse, bei der die statistische Analyse im Rahmen der Bayes'schen Inferenz durchgeführt wird. Bei diesem Ansatz werden die Parameter des linearen Regressionsmodells als Zufallsvariablen behandelt, und es werden Prioritätsverteilungen für diese Parameter festgelegt. Die Daten werden dann verwendet, um die Prior-Verteilungen zu aktualisieren, was zu Posterior-Verteilungen für die Parameter führt. Diese Posterior-Verteilungen können verwendet werden, um probabilistische Vorhersagen über die Antwortvariable zu machen, anstatt nur Punktschätzungen. Dies ermöglicht die Quantifizierung der Unsicherheit im Modell und die Erstellung von Vorhersagen, die dieser Unsicherheit Rechnung tragen.

Bayesian inference

Die Bayes'sche Inferenz ist eine Methode der statistischen Inferenz, bei der das Bayes'sche Theorem verwendet wird, um die Wahrscheinlichkeit für eine Hypothese zu aktualisieren, wenn mehr Beweise oder Informationen verfügbar werden. Das Bayes'sche Theorem beschreibt die Wahrscheinlichkeit einer Hypothese (H) bei Vorliegen eines Beweises (E), P(H|E), in Form der vorherigen Wahrscheinlichkeit der Hypothese (P(H)) und der Wahrscheinlichkeit des Beweises (P(E|H)) bei Vorliegen der Hypothese. Bei der Bayes'schen Inferenz wird die Vorabwahrscheinlichkeit aktualisiert, wenn neue Beweise berücksichtigt werden, und die aktualisierte Wahrscheinlichkeit wird als Nachfolgewahrscheinlichkeit bezeichnet. Der Prozess der Aktualisierung der Vorabwahrscheinlichkeit im Lichte neuer Beweise wird als "Bayes'sche Aktualisierung" bezeichnet.

Cox's theorem

Das Cox'sche Theorem, auch bekannt als Cox-Jaynes-Theorem, ist ein theoretisches Ergebnis der Wahrscheinlichkeitstheorie, das den Begriff der Wahrscheinlichkeit mit dem Begriff der Logik verbindet. Es besagt, dass jedes kohärente System von Wahrscheinlichkeitszuweisungen aus einer Reihe von plausiblen Argumentationsregeln, den so genannten "Kohärenzpostulaten", abgeleitet werden kann.

Bei den Kohärenzpostulaten handelt es sich um eine Reihe von mathematischen Bedingungen, die jedes System von Wahrscheinlichkeitszuweisungen erfüllen muss, damit es als "kohärent" gilt. Dazu gehört die Anforderung, dass Wahrscheinlichkeiten nicht negativ sein dürfen, dass die Summe der Wahrscheinlichkeiten aller möglichen Ergebnisse gleich 1 sein muss und dass Wahrscheinlichkeiten mit den Gesetzen der Logik übereinstimmen müssen.

Das Cox'sche Theorem zeigt, dass jede Wahrscheinlichkeitszuweisung, die diese Postulate erfüllt, aus einer Reihe von logischen Schlussfolgerungsregeln abgeleitet werden kann, die auf dem Konzept der plausiblen Argumentation beruhen. Das bedeutet, dass das Konzept der Wahrscheinlichkeit als eine Verallgemeinerung der Logik betrachtet werden kann und nicht als etwas, das von ihr unabhängig ist.

Dieses Theorem bietet auch eine mathematische Grundlage für die subjektive Interpretation der Wahrscheinlichkeit und ist eine Möglichkeit, die subjektive Wahrscheinlichkeit zu formalisieren.

Es wurde 1946 von Richard T. Cox entwickelt und später 1957 von Edwin T. Jaynes erweitert.

Conjugate Prior

Ein konjugierter Prior ist eine prioritäre Wahrscheinlichkeitsverteilung, die so gewählt wird, dass sie zur gleichen Familie gehört wie die Wahrscheinlichkeitsfunktion. Wenn die Likelihood-Funktion in einer bekannten Familie liegt, ist es oft möglich, eine Prior-Verteilung zu finden, die in derselben Familie liegt, was die Berechnung der Posterior-Verteilung wesentlich vereinfacht. Der konjugierte Prior ist ein leistungsfähiges Werkzeug für die Bayes'sche Inferenz, da er geschlossene Lösungen für die Posterior-Verteilung ermöglicht, ohne dass eine numerische Integration erforderlich ist.

Croston's method

Die Croston-Methode ist eine Prognosetechnik, die bei intermittierender Nachfrage eingesetzt wird. Intermittierende Nachfrage bezieht sich auf Situationen, in denen die Nachfrage nach einem Produkt nicht über einen längeren Zeitraum hinweg konstant ist, sondern eher in sporadischen Schüben auftritt. Beispiele für Produkte, die eine intermittierende Nachfrage aufweisen, sind Saisonartikel, Modeprodukte und Produkte, die zur Wartung oder Reparatur verwendet werden.

Die Croston-Methode ist ein zweistufiger Prozess. Zunächst wird die durchschnittliche Nachfragerate geschätzt, und anschließend wird die durchschnittliche Größe der Nachfrageschübe geschätzt. Die Methode verwendet historische Daten, um diese beiden Parameter zu schätzen, und verwendet sie dann, um Prognosen zu erstellen.

Die Methode verwendet zwei verschiedene Gleichungen zur Schätzung der durchschnittlichen Rate und der durchschnittlichen Größe von Nachfragebursts. Die erste Gleichung schätzt die durchschnittliche Nachfragerate, bezeichnet als "a", als das Verhältnis der Gesamtnachfrage über einen bestimmten Zeitraum zur Anzahl der Nachfrageereignisse in diesem Zeitraum. Die zweite Gleichung schätzt die durchschnittliche Größe der Nachfragebursts, bezeichnet als "b", als das Verhältnis der Gesamtnachfrage in einem bestimmten Zeitraum zur Anzahl der Zeiträume mit einer Nachfrage ungleich Null.

Sobald die durchschnittliche Rate und die durchschnittliche Größe der Nachfrageausbrüche geschätzt sind, kann die Croston-Methode zur Erstellung von Prognosen für zukünftige Zeiträume verwendet werden. Die Methode prognostiziert die Wahrscheinlichkeit des Auftretens von Nachfrageschüben in der nächsten Periode und die Größe der Nachfrageschübe, wenn sie auftreten.

Die Croston-Methode hat sich bei der Vorhersage intermittierender Nachfrage als wirksam erwiesen und wird als Alternative zu herkömmlichen Vorhersagemethoden wie gleitenden Durchschnitten oder exponentieller Glättung betrachtet, die bei dieser Art von Nachfrage möglicherweise nicht wirksam sind.

Demand Forecasting

Bei der Nachfrageprognose werden historische Daten und andere Faktoren verwendet, um die zukünftige Nachfrage nach einem Produkt oder einer Dienstleistung vorherzusagen. Im Rahmen des Lieferkettenmanagements kann die Nachfrageprognose zur Optimierung der Lagerbestände, zur Planung von Produktionsplänen und für fundierte Entscheidungen über Preise und Werbeaktionen genutzt werden. Mit einer genauen Bedarfsprognose können Unternehmen die Verschwendung reduzieren und die Kundenzufriedenheit verbessern, indem sie die richtigen Produkte zur richtigen Zeit auf Lager haben.

E-H

Fourier Transformation

Eine Fourier-Transformation ist eine mathematische Technik, mit der eine Zeitfunktion in eine Frequenzfunktion umgewandelt wird. Auf diese Weise lassen sich die Frequenzkomponenten eines Signals, z. B. eines Tons oder Bildes, analysieren und bei Bedarf manipulieren oder filtern. Die Fourier-Transformation ist ein leistungsfähiges Werkzeug in vielen Bereichen der Wissenschaft und Technik, einschließlich Signalverarbeitung, Bildverarbeitung und Telekommunikation.

Fast Fourier Transform

Die schnelle Fourier-Transformation (FFT) ist ein effizienter Algorithmus zur Berechnung der diskreten Fourier-Transformation (DFT) einer Sequenz oder ihrer Umkehrung. Die DFT ist eine Methode zur Darstellung eines Signals im Frequenzbereich, indem es als Summe komplexer Exponentiale bei verschiedenen Frequenzen ausgedrückt wird. Der FFT-Algorithmus reduziert die Berechnungskomplexität der DFT von O(n^2) auf O(n log n) und ist damit für große Sequenzen wesentlich schneller. Dies macht ihn zu einem sehr nützlichen Werkzeug in vielen Anwendungen, in denen die DFT benötigt wird, wie z. B. in der Signal- und Bildverarbeitung und im wissenschaftlichen Rechnen. Es gibt mehrere verschiedene Algorithmen zur Berechnung der FFT, der gängigste ist jedoch der Cooley-Tukey-Algorithmus.

I-L

M-P

Markov Chain Monte Carlo

Markov Chain Monte Carlo (MCMC) ist eine Methode zur Stichprobenziehung aus einer hochdimensionalen Verteilung, insbesondere wenn eine direkte Stichprobenziehung schwierig oder unmöglich ist. Es funktioniert durch die Konstruktion einer Markov-Kette, einer Folge von Stichproben, die so erzeugt werden, dass die nächste Stichprobe nur vom aktuellen Zustand und nicht von den vorherigen Zuständen abhängt. Wenn man diese Kette über eine große Anzahl von Schritten laufen lässt, konvergieren die erzeugten Stichproben zu einer Stichprobe aus der Zielverteilung.

MCMC-Methoden werden zur Annäherung an komplexe mehrdimensionale Verteilungen verwendet, indem Stichproben daraus erzeugt werden. Die bekanntesten MCMC-Methoden sind Metropolis-Hastings und der Gibbs-Sampler.

Der Metropolis-Hastings-Algorithmus erzeugt eine Vorschlagsprobe auf der Grundlage der aktuellen Probe und der Vorschlagsverteilung. Die Vorschlagsstichprobe wird dann auf der Grundlage ihrer Wahrscheinlichkeit und der Akzeptanzwahrscheinlichkeit angenommen oder abgelehnt.

Der Gibbs-Sampler ist ein Spezialfall des Metropolis-Hastings-Algorithmus, der eine neue Stichprobe erzeugt, indem er aus den bedingten Verteilungen der einzelnen Variablen unter Berücksichtigung der aktuellen Werte der anderen Variablen eine Stichprobe zieht.

Beide Methoden werden verwendet, um den Zustandsraum einer Zielverteilung zu erforschen und ihre Eigenschaften zu schätzen, indem eine große Anzahl von Stichproben daraus erzeugt wird.

ML (Machine Learning)

Maschinelles Lernen (ML) ist ein Teilbereich der KI, der sich mit der Entwicklung von Algorithmen und statistischen Modellen befasst, die es Maschinen ermöglichen, ihre Leistung mit zunehmender Erfahrung zu verbessern. In der Lieferkette und bei Prognosen kann ML für Nachfrageprognosen, Bestandsoptimierung und die Erkennung von Anomalien eingesetzt werden. Ein maschinelles Lernmodell kann zum Beispiel historische Verkaufsdaten analysieren und die Lagerbestände einbeziehen, um die künftige Nachfrage vorherzusagen und intelligente Entscheidungen über die Lagerhaltung zu treffen.

Q-T

Strong Prior

Ein starker Prior, der auch als informativer Prior bezeichnet wird, ist eine Wahrscheinlichkeitsverteilung, die eine erhebliche Menge an Vorabinformationen oder Annahmen über den wahren Wert eines Parameters enthält. Sie wird bei der Bayes'schen Inferenz verwendet, um vorhandenes Wissen oder Expertenmeinungen in die Analyse einzubeziehen.

Ein starker Prior kann in verschiedenen Formen spezifiziert werden, z. B. als Punktschätzung, als spezifische Verteilung oder als eine Reihe von Beschränkungen für den Parameter. Sie kann auf früheren Forschungsergebnissen, externen Daten oder dem Urteil von Experten beruhen.

Wenn ein Forscher beispielsweise über frühere Forschungsergebnisse verfügt, die darauf hindeuten, dass ein Parameter eines Modells um einen bestimmten Wert herum liegt, kann er diesen Wert als Punktschätzung für den Prior verwenden. Ähnlich verhält es sich, wenn ein externer Datensatz vorliegt, der eine grobe Schätzung des Parameterwerts liefert, dann kann dieser Datensatz zur Schätzung des Priors verwendet werden.

Wenn ein starker Prior verwendet wird, kann er einen erheblichen Einfluss auf das Endergebnis der Analyse haben, da er die möglichen Werte des Parameters einschränken und die Unsicherheit der Posterior-Verteilung verringern kann.

Es ist wichtig zu bedenken, dass starke Prioren zu einer Verzerrung der Analyse führen können, wenn die Prior-Informationen nicht genau oder nicht relevant sind. Daher ist es wichtig, einen Prior zu wählen, der gut begründet ist und durch die verfügbare Evidenz unterstützt wird.

U-Z

Uninformative Priors

Uninformative Prioritäten, auch bekannt als objektive oder nicht-informative Prioritäten, sind Wahrscheinlichkeitsverteilungen, die keine Vorinformationen oder Annahmen über den wahren Wert eines Parameters enthalten. Sie werden bei der Bayes'schen Inferenz verwendet, um zu vermeiden, dass Verzerrungen oder Vorannahmen in die Analyse einfließen.

Es gibt verschiedene Möglichkeiten, uninformative Prioritäten zu konstruieren, je nach dem spezifischen Problem und der Art der Daten. Einige gängige Beispiele sind:

Der improper prior, wie eine flache oder gleichmäßige Verteilung über den gesamten Parameterraum, die allen möglichen Werten des Parameters die gleiche Wahrscheinlichkeit zuweist.
Der Jeffreys-Prior, der die Quadratwurzel aus der Determinante der Fisher-Informationsmatrix ist und aus den asymptotischen Eigenschaften des Maximum-Likelihood-Schätzers abgeleitet wird.
Der Referenzprior, der aus den Symmetrien und Invarianzeigenschaften der Likelihood-Funktion abgeleitet wird und einen neutralen Ausgangspunkt für die Analyse bieten soll.

Der Grundgedanke hinter den nicht-informativen Prioritäten ist, dass sie das Endergebnis der Analyse nicht beeinflussen und nur als normalisierende Konstante dienen sollten. Die Daten sollten die einzige Informationsquelle sein, die für die Ableitung des interessierenden Parameters verwendet wird.

Es ist erwähnenswert, dass der Begriff "uniformativ" nicht bedeutet, dass es sich bei dem Prior immer um eine Gleichverteilung handelt, sondern dass es sich um einen Begriff handelt, der darauf hinweist, dass der Prior außer der Einschränkung, dass es sich um eine Wahrscheinlichkeitsverteilung handelt, keine nützlichen Informationen über den Parameter von Interesse enthält.

XGBoost

XGBoost ist eine Open-Source-Softwarebibliothek für Gradient Boosting auf Entscheidungsbäumen. Es handelt sich um eine Implementierung des Gradient-Boosting-Frameworks für verteiltes und paralleles Rechnen. XGBoost ist für seine hohe Leistung und Effizienz bei Aufgaben des maschinellen Lernens wie Klassifizierung und Regression bekannt. Es ist besonders beliebt bei Kaggle-Wettbewerben und hat schon viele von ihnen gewonnen. Zu den Hauptmerkmalen von XGBoost gehören die Fähigkeit, fehlende Werte zu verarbeiten, die Unterstützung für paralleles und verteiltes Rechnen sowie die integrierte Regularisierung, die eine Überanpassung verhindert. Außerdem verfügt es über zahlreiche Hyperparameter, die zur Verbesserung der Leistung und zur Vermeidung von Overfitting angepasst werden können.