লেখক:
(1) Xiao-Yang Liu, Hongyang Yang, Columbia University (xl2427,[email protected]);
(2) জিচাও গাও, ভার্জিনিয়া বিশ্ববিদ্যালয় ([email protected]);
(3) ক্রিস্টিনা ড্যান ওয়াং ( সংশ্লিষ্ট লেখক ), নিউ ইয়র্ক ইউনিভার্সিটি সাংহাই ([email protected])।
2 সম্পর্কিত কাজ এবং 2.1 গভীর শক্তিবৃদ্ধি শেখার অ্যালগরিদম
2.2 ডিপ রিইনফোর্সমেন্ট লার্নিং লাইব্রেরি এবং 2.3 ডিপ রিইনফোর্সমেন্ট লার্নিং ইন ফাইন্যান্স
3 প্রস্তাবিত FinRL ফ্রেমওয়ার্ক এবং 3.1 FinRL ফ্রেমওয়ার্কের ওভারভিউ
3.5 ট্রেনিং-টেস্টিং-ট্রেডিং পাইপলাইন
4 হ্যান্ডস-অন টিউটোরিয়াল এবং বেঞ্চমার্ক পারফরম্যান্স এবং 4.1 ব্যাকটেস্টিং মডিউল
4.2 বেসলাইন কৌশল এবং ট্রেডিং মেট্রিক্স
4.4 কেস I ব্যবহার করুন: স্টক ট্রেডিং
4.5 ইউজ কেস II: পোর্টফোলিও বরাদ্দ এবং 4.6 ইউজ কেস III: ক্রিপ্টোকারেন্সি ট্রেডিং
5 FinRL এর ইকোসিস্টেম এবং উপসংহার, এবং রেফারেন্স
ডিপ রিইনফোর্সমেন্ট লার্নিং (ডিআরএল) পরিমাপমূলক অর্থায়নে প্রতিযোগিতামূলক অগ্রগতির জন্য কল্পনা করা হয়েছে। যাইহোক, পরিমাণগত ব্যবসায়ীদের জন্য একটি এজেন্ট পাওয়ার জন্য একটি খাড়া বিকাশ বক্ররেখা রয়েছে যা স্বয়ংক্রিয়ভাবে বাজারে জয়লাভের জন্য অবস্থান করে, যেমন ত্রুটি-প্রবণ প্রোগ্রামিং এবং কঠিন ডিবাগিংয়ের কারণে কোথায় বাণিজ্য করতে হবে, কী দামে এবং কী পরিমাণে বাণিজ্য করতে হবে তা নির্ধারণ করা। এই কাগজে, আমরা প্রথম ওপেন-সোর্স ফ্রেমওয়ার্ক FinRL-কে একটি সম্পূর্ণ পাইপলাইন হিসাবে উপস্থাপন করি যাতে পরিমাণগত ব্যবসায়ীদের খাড়া শেখার বক্ররেখা অতিক্রম করতে সহায়তা করা যায়। ফিনআরএল মূল নীতি, ফুল-স্ট্যাক ফ্রেমওয়ার্ক, কাস্টমাইজেশন, প্রজননযোগ্যতা এবং হ্যান্ডস-অন টিউটরিংয়ের অধীনে সরলতা, প্রযোজ্যতা এবং এক্সটেনসিবিলিটি সহ বৈশিষ্ট্যযুক্ত।
মডুলার স্ট্রাকচার সহ একটি থ্রি-লেয়ার আর্কিটেকচার হিসাবে মূর্ত, ফিনআরএল ডিবাগিং কাজের চাপ কমানোর সাথে সাথে সূক্ষ্ম-টিউনড স্টেট-অফ-দ্য-আর্ট ডিআরএল অ্যালগরিদম এবং সাধারণ পুরষ্কার ফাংশন প্রয়োগ করে। এইভাবে, আমরা ব্যবহারকারীদের একটি উচ্চ টার্নওভার হারে কৌশল ডিজাইন পাইপলাইন করতে সহায়তা করি। টাইম গ্রানুলারিটির একাধিক স্তরে, FinRL ঐতিহাসিক ডেটা এবং লাইভ ট্রেডিং API ব্যবহার করে প্রশিক্ষণের পরিবেশ হিসাবে বিভিন্ন বাজারকে অনুকরণ করে। অত্যন্ত সম্প্রসারণযোগ্য হওয়ায়, FinRL ব্যবহারকারী-আমদানি ইন্টারফেসের একটি সেট সংরক্ষণ করে এবং বাজারের ঘর্ষণ, বাজারের তারল্য এবং বিনিয়োগকারীদের ঝুঁকি-বিমুখতার মতো ব্যবসায়িক সীমাবদ্ধতাগুলিকে অন্তর্ভুক্ত করে। অধিকন্তু, অনুশীলনকারীদের স্টেপিং স্টোন হিসাবে পরিবেশন করা, সাধারণ ট্রেডিং কাজগুলি ধাপে ধাপে টিউটোরিয়াল হিসাবে সরবরাহ করা হয়, যেমন, স্টক ট্রেডিং, পোর্টফোলিও বরাদ্দ, ক্রিপ্টোকারেন্সি ট্রেডিং ইত্যাদি।
ডিপ রিইনফোর্সমেন্ট লার্নিং (ডিআরএল), যা অন্বেষণ (অপরিচিত অঞ্চলের) এবং শোষণের (বর্তমান জ্ঞানের) ভারসাম্য বজায় রাখে, এটি পরিমাণগত অর্থায়নে স্বয়ংক্রিয় বাণিজ্যের জন্য একটি প্রতিশ্রুতিশীল পদ্ধতি [50][51][47][54][21][13] ]। ডিআরএল অ্যালগরিদমগুলি একটি অজানা পরিবেশের সাথে মিথস্ক্রিয়াগুলির মাধ্যমে শেখার মাধ্যমে গতিশীল সিদ্ধান্ত গ্রহণের সমস্যাগুলি সমাধান করতে শক্তিশালী এবং পোর্টফোলিও স্কেলেবিলিটি এবং বাজারের মডেল স্বাধীনতা [6] এর দুটি প্রধান সুবিধা প্রদান করে। পরিমাণগত অর্থায়নে, অ্যালগরিদমিক ট্রেডিং মূলত গতিশীল সিদ্ধান্ত গ্রহণ করে, যথা, একটি অত্যন্ত স্টোকাস্টিক এবং জটিল আর্থিক বাজারে কোথায়, কী মূল্যে এবং কী পরিমাণে বাণিজ্য করতে হবে তা নির্ধারণ করা। চিত্র 1-এ দেখানো অনেকগুলি আর্থিক কারণকে অন্তর্ভুক্ত করে, একজন DRL ট্রেডিং এজেন্ট স্বয়ংক্রিয়ভাবে বাণিজ্য করার জন্য একটি মাল্টি-ফ্যাক্টর মডেল তৈরি করে, যা মানব ব্যবসায়ীদের পক্ষে সম্পন্ন করা কঠিন [4, 53]। তাই, ডিআরএলকে পরিমাপমূলক অর্থায়নে একটি প্রতিযোগিতামূলক অগ্রগতির কল্পনা করা হয়েছে।
অনেক বিদ্যমান কাজ পরিমাণগত আর্থিক কাজে DRL প্রয়োগ করেছে। গবেষক এবং শিল্প অনুশীলনকারী উভয়ই সক্রিয়ভাবে DRL দ্বারা চালিত ট্রেডিং কৌশলগুলি ডিজাইন করছেন, যেহেতু গভীর নিউরাল নেটওয়ার্কগুলি একটি রাজ্যে একটি নির্দিষ্ট পদক্ষেপ নেওয়ার প্রত্যাশিত রিটার্ন অনুমান করার ক্ষেত্রে উল্লেখযোগ্যভাবে শক্তিশালী। মুডি এবং স্যাফেল [৩৩] স্টক ট্রেডিংয়ের জন্য একটি নীতি অনুসন্ধান ব্যবহার করেছে; ডেং এট আল। [৯] দেখিয়েছে যে ডিআরএল প্রচলিত পদ্ধতির চেয়ে বেশি মুনাফা পেতে পারে। আরও অ্যাপ্লিকেশনের মধ্যে রয়েছে স্টক ট্রেডিং [35, 47, 51, 54], ফিউচার চুক্তি [54], বিকল্প ডেটা (সংবাদ অনুভূতি) [22, 35], উচ্চ ফ্রিকোয়েন্সি ট্রেডিং [15], লিকুইডেশন কৌশল বিশ্লেষণ [3], এবং হেজিং [ 6]। DRL সক্রিয়ভাবে ক্রিপ্টোকারেন্সি বাজারে অন্বেষণ করা হচ্ছে, যেমন, স্বয়ংক্রিয় ট্রেডিং, পোর্টফোলিও বরাদ্দ এবং বাজার তৈরি করা।
যাইহোক, একটি DRL ট্রেডিং কৌশল ডিজাইন করা সহজ নয়। প্রোগ্রামিং ক্লান্তিকর ডিবাগিং সহ ত্রুটি-প্রবণ। ডেভেলপমেন্ট পাইপলাইনে প্রিপ্রসেসিং মার্কেট ডেটা, প্রশিক্ষণের পরিবেশ তৈরি করা, ট্রেডিং স্টেট পরিচালনা করা এবং ব্যাকটেস্টিং ট্রেডিং পারফরম্যান্স অন্তর্ভুক্ত রয়েছে। এই পদক্ষেপগুলি বাস্তবায়নের জন্য আদর্শ কিন্তু এখনও বিশেষ করে নতুনদের জন্য সময় সাপেক্ষ৷ অতএব, গবেষক এবং পরিমাণগত ব্যবসায়ীদের খাড়া শেখার বক্ররেখা কাটিয়ে উঠতে সাহায্য করার জন্য একটি ওপেন-সোর্স লাইব্রেরির জরুরী চাহিদা রয়েছে।
এই কাগজে, আমরা একটি FinRL ফ্রেমওয়ার্ক উপস্থাপন করি যা ট্রেডিং কৌশলগুলির বিকাশকে স্বয়ংক্রিয়ভাবে প্রবাহিত করে, যাতে গবেষক এবং পরিমাণগত ব্যবসায়ীদের তাদের কৌশলগুলি উচ্চ টার্নওভার হারে পুনরাবৃত্তি করতে সহায়তা করে। ব্যবহারকারীরা কনফিগারেশন নির্দিষ্ট করে, যেমন ডেটা API এবং DRL অ্যালগরিদম বাছাই, এবং ট্রেডিং ফলাফলের কার্যক্ষমতা বিশ্লেষণ করে। এটি অর্জনের জন্য, FinRL একটি তিন-স্তর কাঠামো প্রবর্তন করে। নীচে একটি পরিবেশ স্তর রয়েছে যা প্রকৃত ঐতিহাসিক ডেটা ব্যবহার করে আর্থিক বাজারের অনুকরণ করে, যেমন বন্ধ মূল্য, শেয়ার, ট্রেডিং ভলিউম এবং প্রযুক্তিগত সূচক। মাঝখানে রয়েছে এজেন্ট স্তর যা সূক্ষ্ম-টিউনড ডিআরএল অ্যালগরিদম এবং সাধারণ পুরস্কার ফাংশন প্রয়োগ করে। রাষ্ট্রীয় স্থান এবং অ্যাকশন স্পেসে যথাযথভাবে সংজ্ঞায়িত পুরস্কার ফাংশনের মাধ্যমে এজেন্ট পরিবেশের সাথে যোগাযোগ করে। শীর্ষ স্তরে স্বয়ংক্রিয় ট্রেডিং-এর অ্যাপ্লিকেশন অন্তর্ভুক্ত রয়েছে, যেখানে আমরা বিভিন্ন ব্যবহারের ক্ষেত্রে প্রদর্শন করি, যথা স্টক ট্রেডিং, পোর্টফোলিও বরাদ্দকরণ, ক্রিপ্টোকারেন্সি ট্রেডিং, ইত্যাদি। আমরা ডিবাগিং কাজের চাপ কমাতে বেসলাইন ট্রেডিং কৌশল প্রদান করি।
তিন-স্তর কাঠামোর অধীনে, ফিনআরএল তিনটি প্রাথমিক নীতির সাথে তৈরি করা হয়েছে:
• ফুল-স্ট্যাক ফ্রেমওয়ার্ক। মার্কেট ডেটা এপিআই, ডেটা প্রিপ্রসেসিং, ডিআরএল অ্যালগরিদম এবং স্বয়ংক্রিয় ব্যাকটেস্টিং সহ ফিনান্স-ভিত্তিক অপ্টিমাইজেশন সহ একটি সম্পূর্ণ-স্ট্যাক ডিআরএল ফ্রেমওয়ার্ক প্রদান করা। ব্যবহারকারীরা স্বচ্ছভাবে এই ধরনের একটি উন্নয়ন পাইপলাইন ব্যবহার করতে পারেন.
• কাস্টমাইজেশন। অত্যাধুনিক ডিআরএল অ্যালগরিদম এবং নতুন অ্যালগরিদমের সমর্থনকারী নকশা অন্তর্ভুক্ত করে উন্নয়নে মডুলারিটি এবং এক্সটেনসিবিলিটি বজায় রাখা। ডিআরএল অ্যালগরিদমগুলি সহজ কনফিগারেশনের মাধ্যমে ট্রেডিং কৌশলগুলি তৈরি করতে ব্যবহার করা যেতে পারে।
• প্রজননযোগ্যতা এবং হাতে-কলমে টিউটরিং। ধাপে ধাপে জুপিটার নোটবুক এবং ব্যবহারকারীদের গাইডের মতো টিউটোরিয়াল সরবরাহ করা যাতে ব্যবহারকারীদের পাইপলাইনের মধ্য দিয়ে যেতে এবং ব্যবহারের ক্ষেত্রে পুনরুত্পাদন করতে সহায়তা করে।
এটি একটি ইউনিফাইড ফ্রেমওয়ার্কের দিকে নিয়ে যায় যেখানে বিকাশকারীরা উচ্চ-স্তরের কনফিগারেশন এবং স্পেসিফিকেশনগুলির মাধ্যমে দক্ষতার সাথে ধারণাগুলি অন্বেষণ করতে এবং অনুরোধে তাদের নিজস্ব কৌশলগুলি কাস্টমাইজ করতে সক্ষম হয়।
আমাদের অবদান নিম্নরূপ সংক্ষিপ্ত করা হয়:
• FinRL হল প্রথম ওপেন সোর্স ফ্রেমওয়ার্ক যা পরিমাণগত অর্থায়নে DRL অ্যালগরিদম প্রয়োগ করার বিশাল সম্ভাবনা প্রদর্শন করে৷ আমরা FinRL কাঠামোর চারপাশে একটি ইকোসিস্টেম তৈরি করি, যা দ্রুত বর্ধনশীল AI4Finance সম্প্রদায়ের বীজ বপন করে।
• অ্যাপ্লিকেশন স্তর ব্যবহারকারীদের তাদের নিজস্ব ট্রেডিং কাজের জন্য FinRL কাস্টমাইজ করার জন্য ইন্টারফেস প্রদান করে। স্বয়ংক্রিয় ব্যাকটেস্টিং মডিউল এবং পারফরম্যান্স মেট্রিক্স সরবরাহ করা হয়েছে পরিমাণগত ব্যবসায়ীদের উচ্চ টার্নওভার হারে ট্রেডিং কৌশলগুলি পুনরাবৃত্তি করতে সহায়তা করার জন্য। লাভজনক ট্রেডিং কৌশলগুলি পুনরুত্পাদনযোগ্য এবং হাতে-কলমে টিউটোরিয়ালগুলি শিক্ষানবিস-বান্ধব ফ্যাশনে সরবরাহ করা হয়। দ্রুত পরিবর্তনশীল বাজারে প্রশিক্ষিত মডেলগুলিকে সামঞ্জস্য করাও সম্ভব।
• এজেন্ট স্তরটি অত্যাধুনিক ডিআরএল অ্যালগরিদম সরবরাহ করে যা ফাইন-টিউনড হাইপারপ্যারামিটারের সাথে অর্থায়নের জন্য অভিযোজিত হয়। ব্যবহারকারীরা নতুন DRL অ্যালগরিদম যোগ করতে পারেন।
• এনভায়রনমেন্ট লেয়ারে শুধুমাত্র ঐতিহাসিক ডেটা API-এর সংগ্রহই নয়, লাইভ ট্রেডিং API-এর অন্তর্ভুক্ত। এগুলি স্ট্যান্ডার্ড ওপেনএআই জিম-স্টাইলের পরিবেশে পুনরায় কনফিগার করা হয়েছে [5]। অধিকন্তু, এটি বাজারের ঘর্ষণকে অন্তর্ভুক্ত করে এবং ব্যবহারকারীদের ট্রেডিং টাইম গ্রানুলারিটি কাস্টমাইজ করতে দেয়।
এই কাগজের অবশিষ্টাংশ নিম্নরূপ সংগঠিত হয়. বিভাগ 2 সম্পর্কিত কাজ পর্যালোচনা. বিভাগ 3 ফিনআরএল ফ্রেমওয়ার্ক উপস্থাপন করে। বিভাগ 4 ফিনআরএল ব্যবহার করে বেঞ্চমার্ক ট্রেডিং কাজগুলি প্রদর্শন করে। আমরা এই কাগজটি সেকশন 5 এ শেষ করি।
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।