ผู้แต่ง:
(1) วิเจย์ เอกบาราม จาก IBM Research;
(2) อรินดัม จาติ จาก IBM Research;
(3) Nam H. Nguyen, ฝ่ายวิจัย IBM;
(4) Pankaj Dayama, ฝ่ายวิจัย IBM;
(5) จันทรา เรดดี้, ฝ่ายวิจัย IBM;
(6) เวสลีย์ เอ็ม. กิฟฟอร์ด, ฝ่ายวิจัย IBM;
(7) Jayant Kalagnanam, ฝ่ายวิจัย IBM
หมายเหตุของบรรณาธิการ: นี่คือส่วนที่ 1 จาก 5 ของการศึกษาวิจัยที่ให้รายละเอียดเกี่ยวกับการพัฒนาโมเดล AI ขนาดเล็กที่รวดเร็วและให้ความแม่นยำที่ยอดเยี่ยม อ่านส่วนที่เหลือด้านล่าง
เวิร์กโฟลว์ TTM 3 รายการและเวิร์กโฟลว์ก่อนการฝึกอบรม 3.1 รายการ
5 บทสรุปและงานในอนาคตและเอกสารอ้างอิง
โมเดลขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้าสำหรับการเรียนรู้แบบ zero/few-shot นั้นโดดเด่นในโดเมนภาษาและวิสัยทัศน์ แต่พบกับความท้าทายในไทม์ซีรีส์หลายตัวแปร (TS) เนื่องจากลักษณะที่หลากหลายและขาดแคลนข้อมูลก่อนการฝึกอบรมที่เผยแพร่สู่สาธารณะ ดังนั้น จึงเกิดการเพิ่มขึ้นอย่างรวดเร็วในช่วงไม่นานนี้ในการใช้โมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้า (LLM) ที่มีการดัดแปลงโทเค็นสำหรับการพยากรณ์ TS แนวทางเหล่านี้ใช้การเรียนรู้การถ่ายโอนข้ามโดเมนและให้ผลลัพธ์ที่น่าประทับใจอย่างน่าประหลาดใจ อย่างไรก็ตาม โมเดลเหล่านี้มักจะช้ามากและมีขนาดใหญ่ (∼พันล้านพารามิเตอร์) และไม่พิจารณาความสัมพันธ์ข้ามช่องทาง เพื่อแก้ไขปัญหานี้ เราจึงนำเสนอ Tiny Time Mixers (TTM) ซึ่งเป็นโมเดลขนาดเล็กมากที่อิงตามสถาปัตยกรรม TSMixer น้ำหนักเบา TTM ถือเป็นความสำเร็จครั้งแรกในการพัฒนาโมเดลที่ผ่านการฝึกอบรมล่วงหน้าทั่วไปที่รวดเร็วและมีขนาดเล็ก (≤1M พารามิเตอร์) ซึ่งฝึกอบรมเฉพาะบนชุดข้อมูล TS สาธารณะ โดยมีความสามารถในการเรียนรู้การถ่ายโอนที่มีประสิทธิภาพสำหรับการพยากรณ์ เพื่อจัดการกับความซับซ้อนของการฝึกอบรมล่วงหน้าบนชุดข้อมูลหลายชุดที่มีความละเอียดตามเวลาที่หลากหลาย เราได้แนะนำการปรับปรุงใหม่หลายอย่าง เช่น การแพตช์แบบปรับตัว การเพิ่มชุดข้อมูลผ่านการดาวน์แซมพลิง และการปรับค่าพรีฟิกซ์ นอกจากนี้ เรายังใช้กลยุทธ์การสร้างแบบจำลองหลายระดับเพื่อสร้างแบบจำลองความสัมพันธ์ของช่องสัญญาณอย่างมีประสิทธิภาพ และแทรกสัญญาณภายนอกในระหว่างการปรับแต่ง ซึ่งเป็นความสามารถที่สำคัญที่ขาดหายไปในเกณฑ์มาตรฐานที่มีอยู่ TTM แสดงให้เห็นถึงความแม่นยำที่เพิ่มขึ้นอย่างมีนัยสำคัญ (12-38%) เมื่อเทียบกับเกณฑ์มาตรฐานยอดนิยมในการพยากรณ์แบบไม่กี่ช็อต/ศูนย์ช็อต นอกจากนี้ยังช่วยลดความต้องการในการคำนวณอย่างมากเมื่อเทียบกับวิธี LLM-TS โดยลดพารามิเตอร์ที่เรียนรู้ได้ 14 เท่า ลดพารามิเตอร์ทั้งหมด 106 เท่า และลดการปรับแต่งอย่างละเอียด (65 เท่า) และเวลาอนุมาน (54 เท่า) ลงอย่างมาก ในความเป็นจริง การวัดแบบศูนย์ช็อตของ TTM มักจะดีกว่าผลลัพธ์แบบไม่กี่ช็อตในเกณฑ์มาตรฐานยอดนิยมหลายรายการ ซึ่งเน้นย้ำถึงประสิทธิภาพของแนวทางของเรา โมเดลและซอร์สโค้ดมีอยู่ใน https://huggingface.co/ibm/TTM
การพยากรณ์อนุกรมเวลาหลายตัวแปร (TS) เกี่ยวข้องกับการทำนายค่าในอนาคตของอนุกรมเวลาหลายชุดที่เชื่อมโยงกันโดยอิงจากข้อมูลในอดีต สาขานี้ได้รับการพัฒนาอย่างมากโดยนำวิธีการทางสถิติและการเรียนรู้ของเครื่องจักร (ML) [Hyndman และ Athanasopoulos, 2021] มาใช้กับโดเมนต่างๆ เช่น สภาพอากาศ การจราจร การค้าปลีก และพลังงาน โดยทั่วไป อนุกรมเวลาแต่ละชุดจะแสดงถึงตัวแปรหรือช่องทาง[1] ในแอปพลิเคชันบางประเภท ตัวแปรที่ไม่พยากรณ์ ซึ่งจัดอยู่ในประเภทปัจจัยภายนอกที่ควบคุมได้และควบคุมไม่ได้ จะส่งผลกระทบต่อตัวแปรที่ต้องพยากรณ์ เราเรียกตัวแปรที่ไม่พยากรณ์เหล่านี้ว่าปัจจัยภายนอก และเรียกตัวแปรที่ต้องมีการคาดการณ์ว่าเป็นตัวแปรเป้าหมาย
งานที่เกี่ยวข้อง: ความก้าวหน้าล่าสุดในการคาดการณ์แบบหลายตัวแปรนั้นโดดเด่นด้วยการถือกำเนิดของแนวทางที่ใช้หม้อแปลง (Vaswani et al., 2017) ซึ่งแสดงให้เห็นได้จากโมเดลต่างๆ เช่น PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Zhou et al., 2021] และ FEDFormer [Zhou et al., 2022] โมเดลเหล่านี้แสดงให้เห็นถึงการปรับปรุงที่เห็นได้ชัดเมื่อเทียบกับวิธีทางสถิติและ ML แบบดั้งเดิม นอกจากนี้ สถาปัตยกรรมที่ใช้ MLPMixer [Tolstikhin et al., 2021] เช่น TSMixer [Ekambaram et al., 2023] ได้กลายมาเป็นทางเลือกที่มีประสิทธิภาพสำหรับหม้อแปลง โดยลดความต้องการการประมวลผลและหน่วยความจำลง 2-3 เท่า โดยไม่มีการลดทอนความแม่นยำเมื่อเทียบกับหม้อแปลงแบบเดียวกัน อย่างไรก็ตาม แนวทางขั้นสูงเหล่านี้ไม่ได้แสดงให้เห็นถึงความสามารถในการสร้างแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าทั่วไปที่สามารถถ่ายโอนการเรียนรู้ไปยังชุดข้อมูล TS เป้าหมายที่มองไม่เห็นได้สำเร็จ ในลักษณะเดียวกับที่พบเห็นได้ทั่วไปในงาน NLP และงานการมองเห็น ซึ่งเป็นสิ่งที่ท้าทายมากในโดเมน TS เนื่องจากลักษณะที่หลากหลายของชุดข้อมูลในแต่ละแอปพลิเคชัน และข้อมูล TS สำหรับการฝึกอบรมล่วงหน้ามีให้ใช้งานสาธารณะอย่างจำกัด มีแนวทาง TS ก่อนการฝึกอบรมที่ควบคุมตนเองอยู่แล้วโดยใช้การสร้างแบบจำลองแบบปิดบังและเทคนิคการเรียนรู้แบบเปรียบเทียบ เช่น SimMTM [Dong et al., 2023] และ TF-C [Zhang et al., 2022] ซึ่งเสนอการเรียนรู้การถ่ายโอนระหว่างชุดข้อมูลสองชุดเมื่อเลือกอย่างระมัดระวังตามคุณสมบัติของชุดข้อมูล อย่างไรก็ตาม แนวทางเหล่านี้ไม่สามารถให้ความสามารถในการเรียนรู้การถ่ายโอนสากลระหว่างชุดข้อมูลได้ ดังนั้น จึงมีแนวโน้มที่เพิ่มขึ้นเมื่อไม่นานนี้ในการใช้แบบจำลองภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้า (LLM) สำหรับการคาดการณ์ TS โดยถือว่าเป็นงานการเรียนรู้การถ่ายโอนข้ามโดเมน แนวทางการถ่ายโอนข้ามสากลเหล่านี้ โดยเฉพาะผลงานล่าสุด เช่น LLMTime [Gruver et al., 2023] และ GPT4TS [Zhou et al., 2023] ให้ผลลัพธ์ที่มีแนวโน้มดีในแนวทางการคาดการณ์แบบไม่กี่ครั้ง/แบบศูนย์ โมเดลเหล่านี้ได้รับการบูตสแตรปจาก GPT-2/3 หรือ LLAMA-2 ด้วยกลยุทธ์การสร้างโทเค็นที่เหมาะสมเพื่อปรับให้เข้ากับโดเมนของชุดเวลา
อย่างไรก็ตาม แนวทาง TS ที่ใช้ LLM เหล่านี้ไม่ได้จัดการกับความสัมพันธ์ของช่องสัญญาณและการสนับสนุนจากภายนอกอย่างชัดเจนในบริบทของการพยากรณ์แบบหลายตัวแปร ยิ่งไปกว่านั้น โมเดลขนาดใหญ่เหล่านี้ซึ่งมีพารามิเตอร์นับพันล้านต้องการทรัพยากรการคำนวณและรันไทม์จำนวนมาก ดังนั้น ในเอกสารฉบับนี้ เราจึงเน้นที่การสร้างแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าตั้งแต่ต้นโดยใช้ข้อมูล TS เท่านั้น ซึ่งแตกต่างจากภาษาซึ่งมีข้อมูลฝึกอบรมล่วงหน้าสาธารณะจำนวนมากเป็นเทราไบต์ ข้อมูลชุดเวลาค่อนข้างหายาก หลากหลายมาก และจำกัดต่อสาธารณะ ความหายากของข้อมูลชุดเวลาทำให้เกิดการโอเวอร์ฟิตติ้งเมื่อฝึกอบรมโมเดล "ขนาดใหญ่" ล่วงหน้าโดยใช้ข้อมูลชุดเวลาเท่านั้น สิ่งนี้กระตุ้นให้เกิดคำถามว่า โมเดลขนาดเล็กที่ฝึกอบรมล่วงหน้าโดยใช้ข้อมูลชุดเวลาสาธารณะที่หลากหลายและจำกัดเพียงอย่างเดียวสามารถให้ความแม่นยำในการพยากรณ์แบบศูนย์/ไม่กี่ช็อตได้ดีกว่าหรือไม่ คำตอบที่น่าประหลาดใจคือใช่! เพื่อจุดประสงค์นี้ เราจึงเสนอ Multi-level Tiny Time Mixers (TTM) ซึ่งเป็นโมเดลที่มีขนาดเล็กกว่าอย่างมาก (พารามิเตอร์ ≤1M) โดยอิงตามสถาปัตยกรรม TSMixer น้ำหนักเบา ซึ่งได้รับการฝึกฝนโดยเฉพาะบนคอร์ปัส TS ที่หลากหลายเพื่อการพยากรณ์ TS แบบหลายตัวแปรที่มีประสิทธิภาพโดยใช้การเรียนรู้การถ่ายโอน
โดยเฉพาะอย่างยิ่ง TTM ได้รับการฝึกอบรมล่วงหน้าโดยใช้ชุดข้อมูลสาธารณะหลายชุด (ประมาณ 244 ล้านตัวอย่าง) จากที่เก็บข้อมูล Monash[2] [Godahewa et al., 2021]) โปรดทราบว่าชุดข้อมูลแสดงให้เห็นถึงความหลากหลายอย่างมากในแง่ของลักษณะเฉพาะ เช่น โดเมนที่แตกต่างกัน ความละเอียดตามเวลา[3] (ครอบคลุมตั้งแต่วินาทีถึงรายวัน) ความยาว และจำนวนช่องสัญญาณ การฝึกอบรมล่วงหน้าบนชุดข้อมูลที่ไม่เป็นเนื้อเดียวกันดังกล่าวไม่สามารถจัดการได้โดยตรงโดย TSMixer หรือโมเดลที่ทันสมัย (SOTA) ที่มีอยู่ ดังนั้น TTM จึงเสนอการปรับปรุงต่อไปนี้ให้กับสถาปัตยกรรม TSMixer: (i) Adaptive Patching ข้ามเลเยอร์ โดยพิจารณาความเหมาะสมที่หลากหลายของความยาวแพตช์สำหรับชุดข้อมูลที่แตกต่างกัน (ii) การเพิ่มชุดข้อมูลผ่านการลดขนาดตัวอย่าง เพื่อเพิ่มการครอบคลุมและตัวอย่างในความละเอียดที่แตกต่างกัน (iii) การปรับค่าความละเอียดล่วงหน้า เพื่อฝังข้อมูลความละเอียดอย่างชัดเจนในแพตช์แรก ซึ่งช่วยให้การสร้างแบบจำลองที่มีเงื่อนไขความละเอียดนั้นง่ายขึ้น โดยเฉพาะอย่างยิ่งในสถานการณ์ที่มีความยาวประวัติสั้น นอกจากนี้ แนวทางของเรายังใช้ประโยชน์จากการสร้างแบบจำลองหลายระดับ โดยที่ TTM จะได้รับการฝึกล่วงหน้าก่อนในลักษณะที่ไม่ขึ้นกับช่องสัญญาณ จากนั้นจึงผสานรวมการผสมช่องสัญญาณอย่างราบรื่นระหว่างการปรับแต่งเพื่อสร้างแบบจำลองความสัมพันธ์ของช่องสัญญาณเฉพาะข้อมูลเป้าหมายและการแทรกข้อมูลภายนอก
ด้านล่างนี้ เราจะสรุปผลงานสำคัญของเอกสาร:
• ท่ามกลางความแพร่หลายของโมเดลขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้าซึ่งต้องการเวลาในการประมวลผลและการฝึกอบรมเป็นจำนวนมาก (เป็นสัปดาห์) งานของเราเป็นงานแรกที่แสดงให้เห็นถึงประสิทธิภาพของการสร้าง แบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าอย่างรวดเร็วและมีขนาดเล็ก (≤1M พารามิเตอร์) ที่ฝึกอบรมเฉพาะบนชุดข้อมูล TS สาธารณะภายในเวลาเพียงไม่กี่ชั่วโมง (4-8 ชั่วโมง GPU A100 จำนวน 6 ตัว) TTM ประสบความสำเร็จในการสาธิตการเรียนรู้การถ่ายโอนไปยังชุดข้อมูลเป้าหมายที่หลากหลายและมองไม่เห็นสำหรับการคาดการณ์แบบศูนย์/ไม่กี่ช็อต โดยแก้ไขปัญหาการขาดแคลนข้อมูลที่เกิดขึ้นบ่อยในไทม์ซีรีส์
• TSMixer หรือโมเดล SOTA อื่นๆ ไม่สามารถจัดการการฝึกอบรมล่วงหน้าบนชุดข้อมูลความละเอียดหลายระดับที่ไม่เป็นเนื้อเดียวกันได้อย่างมีประสิทธิภาพ ดังนั้น เราจึงเสนอ การปรับปรุงสถาปัตยกรรมและการฝึกอบรม ต่างๆ เช่น การแพตช์แบบปรับตัว การเพิ่มข้อมูลผ่านการดาวน์แซมพลิง และการปรับแต่งพรีฟิกซ์ความละเอียด (ทางเลือก) สำหรับการฝึกอบรมล่วงหน้าที่มีประสิทธิภาพ
• TTM ใช้ กลยุทธ์การสร้างแบบจำลองหลายระดับ เพื่อสร้างแบบจำลองความสัมพันธ์ของช่องสัญญาณโดยชัดเจน และรวมสัญญาณภายนอก ซึ่งเป็นความสามารถที่สำคัญที่วิธี TS ที่ใช้ LLM ไม่มี
• จาก การประเมินข้อมูล 11 ชุดอย่างละเอียดถี่ถ้วน TTM แสดงให้เห็นถึงความแม่นยำที่เพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับเกณฑ์มาตรฐานยอดนิยม (12-38% ในการพยากรณ์แบบไม่กี่ช็อต/ศูนย์ช็อต) นอกจากนี้ยังช่วยลดความต้องการในการคำนวณอย่างมากเมื่อเทียบกับวิธี LLM-TS โดยลดค่าพารามิเตอร์ที่เรียนรู้ได้ลง 14 เท่า ลดค่าพารามิเตอร์ทั้งหมดลง 106 เท่า และปรับละเอียดลดลงอย่างมาก (65 เท่า) เวลาในการอนุมาน (54 เท่า) และการใช้หน่วยความจำ (27 เท่า) • ผลลัพธ์แบบศูนย์ช็อตของ TTM มักจะดีกว่าผลลัพธ์แบบไม่กี่ช็อตของแนวทาง SOTA หลายๆ แนวทาง ซึ่งเน้นย้ำถึงประสิทธิภาพของแนวทางของเรา
เอกสารนี้ เผยแพร่บน arxiv ภายใต้ใบอนุญาต CC BY-NC-ND 4.0 DEED
[1] “ช่องสัญญาณ” หมายถึงชุดเวลารายบุคคลในข้อมูลหลายแปร (กล่าวคือ TS หลายแปรคือสัญญาณหลายช่องสัญญาณ)
[2] เข้าถึงได้ที่ https://forecastingdata.org/
[3] ความละเอียดหมายถึงอัตราการสุ่มตัวอย่างของชุดเวลาอินพุต (เช่น รายชั่วโมง 10 นาที 15 นาที เป็นต้น)