Auteurs:
(1) Xiao-Yang Liu, Hongyang Yang, Université de Columbia (xl2427,[email protected]) ;
(2) Jiechao Gao, Université de Virginie ([email protected]) ;
(3) Christina Dan Wang ( auteur correspondant ), Université de New York à Shanghai ([email protected]).
2 Travaux connexes et 2.1 Algorithmes d'apprentissage par renforcement profond
3 Le cadre FinRL proposé et 3.1 Aperçu du cadre FinRL
3.5 Pipeline de formation, de test et d’échange
4 didacticiels pratiques et performances de référence et module de backtesting 4.1
4.2 Stratégies de base et mesures de trading
4.4 Cas d'utilisation I : négociation d'actions
5 Écosystème de FinRL et conclusions et références
L'apprentissage par renforcement profond (DRL) a été envisagé pour avoir un avantage concurrentiel dans la finance quantitative. Cependant, il existe une courbe de développement abrupte pour les traders quantitatifs pour obtenir un agent qui se positionne automatiquement pour gagner sur le marché, à savoir décider où négocier, à quel prix et quelle quantité, en raison d'une programmation sujette aux erreurs et d'un débogage ardu. Dans cet article, nous présentons le premier framework open source FinRL comme un pipeline complet pour aider les traders quantitatifs à surmonter la courbe d'apprentissage abrupte. FinRL se présente avec simplicité, applicabilité et extensibilité selon les principes clés, le cadre full-stack, la personnalisation, la reproductibilité et le tutorat pratique.
Incarné sous la forme d'une architecture à trois couches avec des structures modulaires, FinRL implémente des algorithmes DRL de pointe et des fonctions de récompense communes, tout en allégeant les charges de travail de débogage. Ainsi, nous aidons les utilisateurs à canaliser la conception de la stratégie à un taux de rotation élevé. À plusieurs niveaux de granularité temporelle, FinRL simule divers marchés en tant qu'environnements de formation à l'aide de données historiques et d'API de trading en direct. Étant hautement extensible, FinRL réserve un ensemble d'interfaces d'importation utilisateur et intègre des contraintes commerciales telles que les frictions du marché, la liquidité du marché et l'aversion au risque des investisseurs. De plus, servant de tremplin aux praticiens, les tâches de trading typiques sont fournies sous forme de didacticiels étape par étape, par exemple la négociation d'actions, l'allocation de portefeuille, le trading de cryptomonnaies, etc.
L’apprentissage par renforcement profond (DRL), qui équilibre l’exploration (de territoires inexplorés) et l’exploitation (des connaissances actuelles), est une approche prometteuse pour automatiser le trading en finance quantitative [50][51][47][54][21][13 ]. Les algorithmes DRL sont puissants pour résoudre des problèmes de prise de décision dynamique en apprenant grâce à des interactions avec un environnement inconnu et offrent deux avantages majeurs : l'évolutivité du portefeuille et l'indépendance du modèle de marché [6]. En finance quantitative, le trading algorithmique consiste essentiellement à prendre des décisions dynamiques, à savoir décider où négocier, à quel prix et en quelle quantité, sur un marché financier hautement stochastique et complexe. En intégrant de nombreux facteurs financiers, comme le montre la figure 1, un agent commercial DRL construit un modèle multifactoriel pour négocier automatiquement, ce qui est difficile à réaliser pour les traders humains [4, 53]. Par conséquent, DRL a été envisagé pour avoir un avantage concurrentiel en matière de finance quantitative.
De nombreux travaux existants ont appliqué le DRL à des tâches financières quantitatives. Les chercheurs et les praticiens de l'industrie conçoivent activement des stratégies commerciales alimentées par le DRL, car les réseaux de neurones profonds sont très puissants pour estimer le retour attendu d'une certaine action dans un état donné. Moody et Saffell [33] ont utilisé une recherche de politiques pour les transactions boursières ; Deng et coll. [9] ont montré que le DRL peut obtenir plus de profits que les méthodes conventionnelles. D'autres applications incluent le trading d'actions [35, 47, 51, 54], les contrats à terme [54], les données alternatives (sentiments d'actualité) [22, 35], le trading à haute fréquence [15], l'analyse de stratégie de liquidation [3] et la couverture [ 6]. Le DRL est également activement exploré sur le marché des cryptomonnaies, par exemple dans le cadre du trading automatisé, de l'allocation de portefeuille et de la tenue de marché.
Cependant, concevoir une stratégie de trading DRL n’est pas facile. La programmation est sujette aux erreurs avec un débogage fastidieux. Le pipeline de développement comprend le prétraitement des données de marché, la création d'un environnement de formation, la gestion des états commerciaux et le backtest des performances commerciales. Ces étapes sont standard pour la mise en œuvre mais prennent du temps, surtout pour les débutants. Par conséquent, il existe une demande urgente pour une bibliothèque open source pour aider les chercheurs et les traders quantitatifs à surmonter la courbe d’apprentissage abrupte.
Dans cet article, nous présentons un cadre FinRL qui rationalise automatiquement le développement de stratégies de trading, afin d'aider les chercheurs et les traders quantitatifs à itérer leurs stratégies à un taux de rotation élevé. Les utilisateurs spécifient les configurations, telles que la sélection des API de données et des algorithmes DRL, et analysent les performances des résultats de trading. Pour y parvenir, FinRL introduit un cadre à trois niveaux. En bas se trouve une couche d'environnement qui simule les marchés financiers à l'aide de données historiques réelles, telles que le cours de clôture, les actions, le volume des transactions et les indicateurs techniques. Au milieu se trouve la couche agent qui implémente des algorithmes DRL affinés et des fonctions de récompense communes. L'agent interagit avec l'environnement à travers des fonctions de récompense correctement définies sur l'espace d'état et l'espace d'action. La couche supérieure comprend des applications de trading automatisé, où nous démontrons plusieurs cas d'utilisation, à savoir le trading d'actions, l'allocation de portefeuille, le trading de cryptomonnaies, etc. Nous fournissons des stratégies de trading de base pour alléger les charges de travail de débogage.
Dans le cadre du cadre à trois niveaux, FinRL est développé selon trois principes principaux :
• Cadre complet. Fournir un cadre DRL complet avec des optimisations orientées finance, y compris des API de données de marché, le prétraitement des données, des algorithmes DRL et des backtests automatisés. Les utilisateurs peuvent utiliser de manière transparente un tel pipeline de développement.
• Personnalisation. Maintenir la modularité et l'extensibilité dans le développement en incluant des algorithmes DRL de pointe et en prenant en charge la conception de nouveaux algorithmes. Les algorithmes DRL peuvent être utilisés pour construire des stratégies de trading par des configurations simples.
• Reproductibilité et tutorat pratique. Fournir des didacticiels tels que des blocs-notes Jupyter étape par étape et un guide de l'utilisateur pour aider les utilisateurs à parcourir le pipeline et à reproduire les cas d'utilisation.
Cela conduit à un cadre unifié dans lequel les développeurs sont en mesure d'explorer efficacement des idées grâce à des configurations et des spécifications de haut niveau, et de personnaliser leurs propres stratégies à la demande.
Nos contributions sont résumées comme suit :
• FinRL est le premier framework open source qui démontre le grand potentiel de l'application des algorithmes DRL en finance quantitative. Nous construisons un écosystème autour du framework FinRL, qui alimente la communauté AI4Finance en croissance rapide.
• La couche application fournit des interfaces permettant aux utilisateurs de personnaliser FinRL en fonction de leurs propres tâches de trading. Un module de backtesting automatisé et des mesures de performance sont fournis pour aider les traders quantitatifs à itérer des stratégies de trading à un taux de rotation élevé. Les stratégies de trading rentables sont reproductibles et des didacticiels pratiques sont proposés de manière conviviale pour les débutants. Il est également possible d'adapter les modèles formés aux marchés en évolution rapide.
• La couche agent fournit des algorithmes DRL de pointe adaptés à la finance avec des hyperparamètres affinés. Les utilisateurs peuvent ajouter de nouveaux algorithmes DRL.
• La couche d'environnement comprend non seulement une collection d'API de données historiques, mais également des API de trading en direct. Ils sont reconfigurés dans des environnements standard de style salle de sport OpenAI [5]. De plus, il intègre les frictions du marché et permet aux utilisateurs de personnaliser la granularité du temps de négociation.
Le reste de cet article est organisé comme suit. La section 2 passe en revue les travaux connexes. La section 3 présente le cadre FinRL. La section 4 présente les tâches de trading de référence à l'aide de FinRL. Nous concluons cet article dans la section 5.
Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.