Hallucinations by Design (Part 2): The Silent Flaws of Embeddings & Why Your AI Is Getting It Wrong

ຄຳບັນຍາຍ : ທັງສອງຕົວລະຄອນມີລັກສະນະແຕກຕ່າງກັນແຕ່ມີຄວາມຄ້າຍຄືກັນທີ່ໂດດເດັ່ນໃນທ່າທາງ, ການສະແດງອອກ ແລະພື້ນຫຼັງ - ເກືອບຄືກັບວ່າພວກມັນເປັນ "ການຝັງ" ຂອງປະໂຫຍກທີ່ຕ່າງກັນທີ່ປິດທ້າຍກັນ.

ອ່ານ PART-1 ທີ່ນີ້ ( https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language )

ໃນເດືອນແລ້ວນີ້, ຂ້າພະເຈົ້າໄດ້ແບ່ງປັນວິທີການຝັງຕົວແບບເຮັດໃຫ້ປະຫຼາດໃຈໃນເວລາທີ່ຈັດການກັບການປ່ຽນແປງພາສາງ່າຍໆເຊັ່ນ: ການປະຕິເສດແລະການພິມຕົວພິມໃຫຍ່. ຄໍາຕອບແມ່ນ overwhelming - ເບິ່ງຄືວ່າຂ້າພະເຈົ້າບໍ່ແມ່ນຜູ້ດຽວທີ່ຖືກໄຟໄຫມ້ໂດຍບັນຫາເຫຼົ່ານີ້. ມື້ນີ້, ຂ້ອຍໄດ້ລົງເລິກເຂົ້າໄປໃນຈຸດຕາບອດທີ່ມີບັນຫາຫຼາຍກວ່າທີ່ຂ້ອຍໄດ້ຄົ້ນພົບຜ່ານການທົດສອບ. ນີ້ແມ່ນປະເພດທີ່ເຮັດໃຫ້ຂ້ອຍຕື່ນນອນໃນຕອນກາງຄືນແລະເຮັດໃຫ້ຂ້ອຍຕັ້ງຄໍາຖາມທຸກຢ່າງກ່ຽວກັບວິທີທີ່ພວກເຮົາກໍາລັງສ້າງລະບົບ AI.

ນີ້ແມ່ນພາກທີສອງໃນຊຸດກ່ຽວກັບ Hallucinations ໂດຍການອອກແບບ. ມັນເປັນການສືບຕໍ່ຂອງການສົນທະນາທີ່ຜ່ານມາຂອງພວກເຮົາກ່ຽວກັບ ວິທີການຝັງ hallucinate . ເພື່ອໃຫ້ໄດ້ປະໂຫຍດສູງສຸດຈາກບົດຄວາມນີ້, ຂ້າພະເຈົ້າຂໍແນະນໍາໃຫ້ອ່ານບົດຄວາມທີ່ເຊື່ອມໂຍງກ່ອນ, ເພາະວ່າມັນວາງແນວຄວາມຄິດພື້ນຖານທີ່ຈໍາເປັນເພື່ອເຂົ້າໃຈຢ່າງເຕັມສ່ວນແນວຄວາມຄິດທີ່ຄົ້ນຫາຢູ່ທີ່ນີ້. ໂດຍການເຮັດແນວນັ້ນ, ທ່ານຈະມີປະສົບການການຮຽນຮູ້ທີ່ລຽບງ່າຍ ແລະເຂົ້າໃຈເລິກກ່ຽວກັບຫົວຂໍ້.

ສົມມຸດຕິຖານທຽບກັບຕົວຈິງ? ພຽງແຕ່ລາຍລະອຽດ!

ນີ້ແມ່ນບ່ອນທີ່ສິ່ງທີ່ລົບກວນແທ້ໆ. ເມື່ອຂ້ອຍແລ່ນ "ຖ້າການປິ່ນປົວເຮັດວຽກ, ອາການຄວນປັບປຸງ" ຕໍ່ກັບ "ການປິ່ນປົວແລະອາການໄດ້ດີຂຶ້ນ", ຄະແນນຄວາມຄ້າຍຄືກັນໄດ້ຕີ 0.95. ຂ້ອຍນັ່ງເບິ່ງໜ້າຈໍຂອງຂ້ອຍດ້ວຍຄວາມບໍ່ເຊື່ອ. ການຄາດເດົາຂອງຫນຶ່ງກ່ຽວກັບຜົນໄດ້ຮັບທີ່ເປັນໄປໄດ້; ການລາຍງານຂອງຄົນອື່ນໄດ້ຮັບການຢືນຢັນຜົນໄດ້ຮັບ!

ຂ້າພະເຈົ້າຕີບັນຫານີ້ເຮັດວຽກຢູ່ໃນເອກະສານການຄົ້ນຄວ້າທາງດ້ານການຊ່ວຍ. ການຄົ້ນຫາບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງຜົນການປິ່ນປົວທີ່ສົມມຸດຕິຖານ ແລະຜົນໄດ້ຮັບທີ່ຢັ້ງຢືນແລ້ວ. ແພດທີ່ຊອກຫາວິທີການປິ່ນປົວທີ່ພິສູດແລ້ວໄດ້ຮັບຜົນປະສົມກັບສົມມຸດຕິຖານທີ່ບໍ່ໄດ້ຮັບການພິສູດ. ທ່ານຄິດວ່າແພດທີ່ເຮັດການຕັດສິນໃຈໃນການປິ່ນປົວຊື່ນຊົມການຄາດເດົາທີ່ສັບສົນກັບຫຼັກຖານບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍບໍ່ຕ້ອງການການດູແລທາງການແພດຂອງຂ້ອຍໂດຍອີງໃສ່ "ອາດຈະເຮັດວຽກ" ແທນທີ່ຈະ "ເຮັດວຽກ".

ອີກເທື່ອຫນຶ່ງ, ຄິດກ່ຽວກັບກໍລະນີທັງຫມົດທີ່ຈໍາແນກສົມມຸດຕິຖານຈາກຂໍ້ເທັດຈິງແມ່ນມີຄວາມຈໍາເປັນ - ການຄົ້ນຄວ້າວິທະຍາສາດ, ການທົດລອງທາງການແພດ, ແບບຢ່າງທາງດ້ານກົດຫມາຍ, ແລະການວິເຄາະການລົງທຶນ. ເມື່ອຕົວແບບຂອງທ່ານ conflates "ຖ້າ X ຫຼັງຈາກນັ້ນອາດຈະ Y" ກັບ "X ເກີດຂຶ້ນແລະເຮັດໃຫ້ເກີດ Y", ທ່ານໄດ້ເຂົ້າໃຈຜິດຢ່າງສົມບູນກ່ຽວກັບສະຖານະການລະບາດຂອງຂໍ້ມູນ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບແບບຈໍາລອງທີ່ບໍ່ສາມາດບອກຄວາມແຕກຕ່າງລະຫວ່າງການຄາດເດົາແລະການຢືນຢັນເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ຄວາມແຕກຕ່າງນີ້ກໍານົດວ່າບາງສິ່ງບາງຢ່າງແມ່ນຂໍ້ມູນທີ່ເຊື່ອຖືໄດ້ຫຼືພຽງແຕ່ການຄາດເດົາ.

ຄໍາສັ່ງຊົ່ວຄາວ? ອັນໃດສັ່ງ!

ຮູບແບບການຝັງເບິ່ງ " ນາງຈົບປະລິນຍາກ່ອນທີ່ຈະເລີ່ມວຽກ" ແລະ "ນາງໄດ້ເລີ່ມວຽກຂອງນາງກ່ອນທີ່ຈະສໍາເລັດປະລິນຍາ" ເປັນຄະແນນທີ່ຄ້າຍຄືກັນເກືອບ - ridiculous 0.97. ຫນຶ່ງຂອງເສັ້ນທາງອາຊີບພື້ນເມືອງ; ຄົນອື່ນເຮັດວຽກໃນຂະນະທີ່ຮຽນ. ສະຖານະການທີ່ແຕກຕ່າງກັນຢ່າງສົມບູນ!

ຂ້ອຍພົບສິ່ງນີ້ໃນຂະນະທີ່ສ້າງລະບົບການກວດສອບຊີວະປະຫວັດ. ການຝັງຕົວບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງຜູ້ສະຫມັກທີ່ຈົບປະລິນຍາກ່ອນເຮັດວຽກແລະຜູ້ທີ່ຍັງຮຽນຈົບ. ຜູ້ຈັດການຈ້າງຄົນເສຍເວລາຫຼາຍຊົ່ວໂມງໃນການສໍາພາດຜູ້ສະຫມັກທີ່ບໍ່ກົງກັບເງື່ອນໄຂພື້ນຖານຂອງພວກເຂົາ. ທ່ານຄິດວ່າຜູ້ຮັບສະໝັກວຽກທີ່ຫຍຸ້ງຢູ່ດີເສຍໃຈກັບການເສຍເວລາກັບຜູ້ສະໝັກທີ່ບໍ່ກົງກັນບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍບໍ່ຢາກໃຫ້ທໍ່ການຈ້າງຂອງຂ້ອຍເຕັມໄປດ້ວຍສິ່ງລົບກວນ.

ຄິດກ່ຽວກັບທຸກໆກໍລະນີທີ່ລໍາດັບແມ່ນສໍາຄັນ - ພິທີການການປິ່ນປົວທາງການແພດ, ຂໍ້ກໍານົດຂັ້ນຕອນທາງດ້ານກົດຫມາຍ, ສູດປຸງແຕ່ງອາຫານ, ຄໍາແນະນໍາການປະກອບ, ແລະສູດເຄມີ. ເມື່ອຕົວແບບຂອງທ່ານບໍ່ສາມາດບອກ "A ກ່ອນ B" ຈາກ "B ກ່ອນ A," ທ່ານໄດ້ສູນເສຍຄວາມສໍາພັນທາງສາເຫດພື້ນຖານ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບຕົວແບບທີ່ປະຕິບັດເວລາເປັນແນວຄວາມຄິດທາງເລືອກເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ເຕັມໄປດ້ວຍຂໍ້ມູນລໍາດັບທີ່ສໍາຄັນ.

ເກນປະລິມານຫາຍໄປໃນອາກາດບາງໆ

ອັນນີ້ເຮັດໃຫ້ຂ້ອຍຮົ່ວກາເຟຂອງຂ້ອຍແທ້ໆ. ຮູບແບບການຝັງເບິ່ງວ່າ "ບໍລິສັດບໍ່ເກີນຄວາມຄາດຫວັງຂອງລາຍໄດ້" ແລະ "ບໍລິສັດຂາດຄວາມຄາດຫວັງຂອງລາຍໄດ້ຢ່າງຫຼວງຫຼາຍ" ເປັນຄວາມຄ້າຍຄືກັນ - 0.93 ຄະແນນຄວາມຄ້າຍຄືກັນ. ເກີນທຽບກັບພາດ! ເຫຼົ່ານີ້ຫມາຍເຖິງສິ່ງທີ່ກົງກັນຂ້າມທາງດ້ານການເງິນ!

ຖ້າທ່ານກໍາລັງສ້າງລະບົບການວິເຄາະຂ່າວທາງດ້ານການເງິນ, ການຝັງຕົວຈະບໍ່ຈໍາແນກລະຫວ່າງຄວາມແປກໃຈຂອງລາຍໄດ້ໃນທາງບວກແລະທາງລົບ - ຄວາມແຕກຕ່າງລະຫວ່າງລາຄາຫຼັກຊັບທີ່ເພີ່ມຂຶ້ນຫຼືຫຼຸດລົງ. ນັກລົງທຶນທີ່ຕັດສິນໃຈຊື້ຂາຍໂດຍອີງໃສ່ບົດສະຫຼຸບຂອງພວກເຮົາໄດ້ຮັບຂໍ້ມູນທີ່ກົງກັນຂ້າມຢ່າງສົມບູນ. ທ່ານຄິດວ່າຄົນທີ່ມີຄວາມສ່ຽງຕໍ່ເງິນທີ່ແທ້ຈິງຊື່ນຊົມການໄດ້ຮັບສັນຍານຕະຫຼາດທີ່ບໍ່ຖືກຕ້ອງໂດຍພື້ນຖານບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍບໍ່ຢາກໃຫ້ບັນຊີບໍານານຂອງຂ້ອຍຖືກນໍາພາໂດຍຄວາມສັບສົນດັ່ງກ່າວ.

ດຽວນີ້, ຄິດກ່ຽວກັບທຸກໆກໍລະນີທີ່ການຂ້າມຂອບເຂດປ່ຽນແປງທຸກຢ່າງ - ການຜ່ານທຽບກັບຊັ້ນຮຽນທີ່ລົ້ມເຫລວ, ສຸຂະພາບດີທຽບກັບສັນຍານທີ່ເປັນອັນຕະລາຍ, ທຸລະກິດທີ່ມີກໍາໄລທຽບກັບທຸລະກິດທີ່ບໍ່ໄດ້ຮັບຜົນປະໂຫຍດ, ປະຕິບັດຕາມທຽບກັບສະຖານະພາບກົດລະບຽບທີ່ບໍ່ປະຕິບັດຕາມ. ຕົວແບບຂອງທ່ານສູນເສຍຄວາມສາມາດໃນການສ້າງຄວາມແຕກຕ່າງທີ່ມີຄວາມຫມາຍໃນເວລາທີ່ມັນບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງເກືອບບໍ່ບັນລຸເປົ້າຫມາຍແລະຂາດມັນຫມົດ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບແບບຈໍາລອງທີ່ບໍ່ເຂົ້າໃຈແນວຄວາມຄິດຂອງເກນເຖິງແມ່ນວ່າຈະວິເຄາະຂໍ້ຄວາມທີ່ສົນທະນາຢ່າງຕໍ່ເນື່ອງວ່າບັນລຸເປົ້າຫມາຍຫຼືພາດໂອກາດ.

ການປີ້ນກັນຂອງ Scalar ໄດ້ຮັບການປ່ຽນແປງຢ່າງສົມບູນ

ຄວາມໂງ່ພຽງແຕ່ສືບຕໍ່ piling ຂຶ້ນ. ໃນລະຫວ່າງການທົດສອບ, ຂ້າພະເຈົ້າໄດ້ພົບເຫັນວ່າ "ກອງປະຊຸມໄດ້ດໍາເນີນການສັ້ນກວ່າທີ່ວາງໄວ້ຢ່າງຫຼວງຫຼາຍ" ແລະ "ການປະຊຸມໄດ້ດໍາເນີນການຢ່າງຫຼວງຫຼາຍຍາວກວ່າທີ່ວາງໄວ້" ໄດ້ຄະແນນຄວາມຄ້າຍຄືກັນ 0.96. ຂ້ອຍຕົກຢູ່ໃນສະພາບຕົກໃຈ. ປະໂຫຍກເຫຼົ່ານີ້ອະທິບາຍສະຖານະການກົງກັນຂ້າມຢ່າງສົມບູນ - ປະຫຍັດເວລາທຽບກັບເວລາເສຍເວລາ!

ຂ້າພະເຈົ້າໄດ້ພົບນີ້ກັບເອກະສານການຄຸ້ມຄອງໂຄງການ. ການຄົ້ນຫາບໍ່ສາມາດແຍກແຍະລະຫວ່າງການແລ່ນເກີນກຳນົດເວລາ ແລະປະສິດທິພາບ. ຜູ້ຈັດການຊອກຫາຕົວຢ່າງຂອງເຕັກນິກການປະຫຍັດເວລາໄດ້ຮັບການສະແດງໂຄງການທີ່ມີຄວາມຊັກຊ້າທີ່ຮ້າຍແຮງ. ທ່ານຄິດວ່າຜູ້ບໍລິຫານທີ່ຕິດຕາມການກໍານົດເວລາຂອງໂຄງການຊື່ນຊົມກັບການໄດ້ຮັບຂໍ້ມູນກົງກັນຂ້າມທີ່ແນ່ນອນທີ່ພວກເຂົາຮ້ອງຂໍບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍຈະໂກດແຄ້ນຖ້າຂ້ອຍກຽມພ້ອມສໍາລັບການປະຊຸມຄະນະກໍາມະການທີ່ມີຂໍ້ມູນດ້ານຫລັງດັ່ງກ່າວ.

ຄິດກ່ຽວກັບທຸກກໍລະນີທີ່ທິດທາງໃນຂະຫນາດແມ່ນສໍາຄັນ - ການປະຫຍັດຄ່າໃຊ້ຈ່າຍທຽບກັບ overruns, ການປັບປຸງປະສິດທິພາບທຽບກັບການຫຼຸດລົງ, ການປັບປຸງສຸຂະພາບທຽບກັບການຫຼຸດລົງ, ແລະຄວາມສ່ຽງເພີ່ມຂຶ້ນທຽບກັບການຫຼຸດລົງ. ເມື່ອຕົວແບບຂອງທ່ານປະຕິບັດຕໍ່ "ສູງກວ່າຫຼາຍ" ທີ່ສາມາດປ່ຽນໄດ້ກັບ "ຕ່ໍາກວ່າ", ທ່ານໄດ້ສູນເສຍຄວາມສາມາດໃນການຕິດຕາມການປ່ຽນແປງທິດທາງ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບຕົວແບບທີ່ບໍ່ເຂົ້າໃຈທິດທາງກົງກັນຂ້າມເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ເຕັມໄປດ້ວຍການປະເມີນປຽບທຽບ.

ກົງກັນຂ້າມສະເພາະຂອງໂດເມນເບິ່ງຄືວ່າເປັນຄໍາສັບຄ້າຍຄືກັນ

ເອກະສານທາງການແພດ

ຂ້ອຍບໍ່ສາມາດເຊື່ອສິ່ງທີ່ຂ້ອຍໄດ້ເຫັນໃນການກວດສຸຂະພາບ. "ຄົນເຈັບສະແດງດ້ວຍ tachycardia" ທຽບກັບ "ຄົນເຈັບມີ bradycardia" ກັບຄືນຄະແນນຄວາມຄ້າຍຄືກັນ 0.94. ສໍາລັບຄົນທີ່ບໍ່ແມ່ນແພດ, ມັນຄ້າຍຄືກັບການສັບສົນຂອງຫົວໃຈແຂ່ງກັບຫນຶ່ງທີ່ເປັນອັນຕະລາຍຊ້າ - ເງື່ອນໄຂທີ່ມີການປິ່ນປົວກົງກັນຂ້າມ!

ຂ້າພະເຈົ້າໄດ້ຄົ້ນພົບນີ້ໃນຂະນະທີ່ເຮັດວຽກຢູ່ໃນລະບົບການຈັບຄູ່ອາການສໍາລັບບັນທຶກສຸຂະພາບເອເລັກໂຕຣນິກ. ຮູບແບບການຝັງຕົວບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງເງື່ອນໄຂທາງການແພດທີ່ແຕກຕ່າງກັນໂດຍພື້ນຖານທີ່ຕ້ອງການການປິ່ນປົວກົງກັນຂ້າມ. ແພດທີ່ຊອກຫາກໍລະນີທີ່ຄ້າຍຄືກັນກັບຄົນເຈັບທີ່ມີຫົວໃຈເຕັ້ນໄດ້ສະແດງໃຫ້ເຫັນກໍລະນີຂອງຄົນເຈັບທີ່ມີຫົວໃຈເຕັ້ນຊ້າອັນຕະລາຍ. ທ່ານຄິດວ່າທ່ານ ໝໍ ທີ່ເຮັດການຕັດສິນໃຈທີ່ລະອຽດອ່ອນເວລາມີຄວາມຊື່ນຊົມກັບການໄດ້ຮັບຂໍ້ມູນທາງຄລີນິກທີ່ກົງກັນຂ້າມບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍບໍ່ຕ້ອງການການປິ່ນປົວໂດຍອີງໃສ່ສະພາບຕົວຈິງຂອງຂ້ອຍ.

ໃນຂົງເຂດການແພດ, ຄວາມແຕກຕ່າງເຫຼົ່ານີ້ສາມາດສົ່ງຜົນສະທ້ອນຢ່າງຫຼວງຫຼາຍ. Tachycardia ອາດຈະໄດ້ຮັບການປິ່ນປົວດ້ວຍ beta-blockers, ໃນຂະນະທີ່ bradycardia ອາດຈະຕ້ອງການເຄື່ອງກະຕຸ້ນຈັງຫວະ - ການປິ່ນປົວທີ່ບໍ່ຖືກຕ້ອງອາດຈະເສຍຊີວິດໄດ້. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບແບບຈໍາລອງທີ່ບໍ່ສາມາດຈໍາແນກລະຫວ່າງເງື່ອນໄຂທາງການແພດທີ່ກົງກັນຂ້າມເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ຄວາມແຕກຕ່າງນີ້ກໍານົດການດູແລທີ່ເຫມາະສົມ.

ເອກະສານທາງກົດໝາຍ

ການທົດສອບທາງດ້ານກົດຫມາຍແມ່ນບໍ່ດີຄືກັນ. ເມື່ອປຽບທຽບ "ໂຈດຮັບພາລະຂອງຫຼັກຖານ" ກັບ "ຜູ້ຖືກກ່າວຟ້ອງແບກຫາບພາລະຂອງຫຼັກຖານ", ຮູບແບບດັ່ງກ່າວໄດ້ສົ່ງຄືນຄວາມຄ້າຍຄືກັນທີ່ຫນ້າປະຫລາດໃຈ 0.97. ປ່ອຍໃຫ້ສິ່ງນັ້ນຈົມລົງໄປ. ຖ້ອຍຄຳເຫຼົ່ານີ້ກຳນົດຢ່າງຈະແຈ້ງວ່າຝ່າຍໃດຕ້ອງພິສູດຄະດີໃນສານ! ການປະສົມເຫຼົ່ານີ້ອາດຈະສູນເສຍການຟ້ອງຮ້ອງຂອງທ່ານ.

ການຄົ້ນຫາບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງມາດຕະຖານທາງດ້ານກົດໝາຍ ແລະຄວາມຮັບຜິດຊອບພື້ນຖານທີ່ແຕກຕ່າງກັນ. ທະນາຍຄວາມທີ່ຄົ້ນຄວ້າແບບຢ່າງກ່ຽວກັບພາລະຂອງໂຈດໄດ້ສະແດງໃຫ້ເຫັນກໍລະນີທີ່ສົນທະນາກ່ຽວກັບພາລະຂອງຈຳເລີຍ. ທ່ານຄິດວ່າທະນາຍຄວາມທີ່ກະກຽມສໍາລັບການທົດລອງມີຄວາມຊື່ນຊົມກັບການໄດ້ຮັບມາດຕະຖານທາງດ້ານກົດຫມາຍທີ່ຊັດເຈນບໍ? ຂ້າພະເຈົ້າແນ່ໃຈວ່າຂ້າພະເຈົ້າຈະບໍ່ຕ້ອງການຄໍາຮ້ອງຟ້ອງຂອງຂ້າພະເຈົ້າສ້າງຕາມຫຼັກການທາງກົດຫມາຍ inverted ຫມົດ.

ໃນສະພາບການທາງກົດໝາຍ, ຜູ້ທີ່ແບກຫາບພາລະຂອງຫຼັກຖານມັກຈະຕັດສິນຜົນຂອງຄະດີ. ເມື່ອຕົວແບບຂອງທ່ານບໍ່ສາມາດຈໍາແນກໄດ້ວ່າຝ່າຍໃດມີຄວາມຮັບຜິດຊອບ, ທ່ານໄດ້ທໍາລາຍພື້ນຖານທັງຫມົດຂອງເຫດຜົນທາງດ້ານກົດຫມາຍ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບຕົວແບບທີ່ສັບສົນບົດບາດທາງດ້ານກົດຫມາຍເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ຄວາມແຕກຕ່າງເຫຼົ່ານີ້ກໍານົດວິທີການທໍາງານຂອງຄວາມຍຸຕິທໍາ.

ຫົວໜ່ວຍວັດແທກ

ຂ້າພະເຈົ້າໄດ້ດໍາເນີນການທົດສອບນີ້ຫຼາຍຄັ້ງເນື່ອງຈາກວ່າຂ້າພະເຈົ້າບໍ່ສາມາດເຊື່ອຜົນໄດ້ຮັບ. "ຂັ້ນຕອນໃຊ້ເວລາປະມານ 5 ນາທີ" ທຽບກັບ "ຂັ້ນຕອນການໃຊ້ເວລາປະມານ 5 ຊົ່ວໂມງ" ໄດ້ຄະແນນຄວາມຄ້າຍຄືກັນ 0.97 . ນີ້ແມ່ນແທ້ບໍ? ນັ້ນແມ່ນຄວາມແຕກຕ່າງເວລາ 60x! ຈິນຕະນາການລໍຖ້າການນັດໝາຍ "5 ນາທີ" ຂອງເຈົ້າ ເຊິ່ງໃຊ້ເວລາຕົວຈິງ 5 ຊົ່ວໂມງ.

ຂ້ອຍພົບນີ້ໃນຂະນະທີ່ສ້າງລະບົບການດູແລສຸຂະພາບດຽວກັນ. ການຝັງຕົວບໍ່ສາມາດແຍກແຍະລະຫວ່າງຂັ້ນຕອນສັ້ນໆ ແລະ ຍາວ. ຜູ້ຈັດການຄລີນິກທີ່ພະຍາຍາມຈັດຕາຕະລາງຂັ້ນຕອນສັ້ນແມ່ນໄດ້ຖືກສະແດງໃຫ້ເຫັນການດໍາເນີນງານທີ່ຍາວນານທີ່ຈະຂັດຂວາງຊຸດການຜ່າຕັດຂອງພວກເຂົາສໍາລັບມື້ທັງຫມົດ. ທ່ານຄິດວ່າສະຖານທີ່ທາງການແພດທີ່ມີຂໍ້ຈໍາກັດໃນການຈັດຕາຕະລາງທີ່ເຄັ່ງຄັດຊື່ນຊົມກັບການຂັດຂວາງການເຮັດວຽກໃນມື້ທັງຫມົດຂອງພວກເຂົາບໍ? ຂ້ອຍແນ່ໃຈວ່າຂ້ອຍບໍ່ຕ້ອງການໂຮງ ໝໍ ຂອງຂ້ອຍແລ່ນ 60x ຊ້າກວ່າຕາຕະລາງ.

ຫົວໜ່ວຍວັດແທກປ່ຽນຄວາມໝາຍໂດຍພື້ນຖານ. ເມື່ອຕົວແບບຂອງທ່ານປະຕິບັດຕໍ່ "5 ນາທີ" ແລະ "5 ຊົ່ວໂມງ" ຄືກັນ, ທ່ານໄດ້ສູນເສຍຄວາມສາມາດໃນການເຂົ້າໃຈຂະຫນາດ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບແບບຈໍາລອງທີ່ບໍ່ສົນໃຈຫນ່ວຍງານເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມທີ່ຫນ່ວຍງານກໍານົດວ່າບາງສິ່ງບາງຢ່າງເປັນເລື່ອງເລັກນ້ອຍຫຼືສໍາຄັນ.

ບັນຫາການວັດແທກເພີ່ມເຕີມ

ແລະມັນຮ້າຍແຮງຂຶ້ນຈາກບ່ອນນັ້ນ. ໃນລະຫວ່າງການນໍາໃຊ້ເອກະສານການດູແລສຸຂະພາບດຽວກັນ, ຂ້າພະເຈົ້າໄດ້ພົບເຫັນວ່າ "ເນື້ອງອກມີເສັ້ນຜ່າກາງ 2 ຊັງຕີແມັດ" ແລະ "ເນື້ອງອກມີເສັ້ນຜ່າກາງ 2 ນິ້ວ" ໄດ້ຄະແນນຄວາມຄ້າຍຄືກັນທີ່ຫນ້າປະຫລາດໃຈ 0.98. ສໍາລັບສະພາບການ, ນັ້ນແມ່ນຄວາມແຕກຕ່າງລະຫວ່າງເນື້ອງອກເລັກນ້ອຍທີ່ມີທ່າແຮງແລະຫນຶ່ງທີ່ໃຫຍ່ກວ່າ 2.54x - ມັກຈະເປັນຂອບເຂດລະຫວ່າງ "ເບິ່ງແລະລໍຖ້າ" ທຽບກັບການຜ່າຕັດທັນທີ.

ການຝັງຕົວບໍ່ສາມາດຈໍາແນກໄດ້ລະຫວ່າງການວັດແທກ metric ແລະ imperial. Oncologists ຄົ້ນຄ້ວາທາງເລືອກການປິ່ນປົວສໍາລັບ tumors ຂະຫນາດນ້ອຍໄດ້ຖືກສະແດງໃຫ້ເຫັນກໍລະນີຂອງການຂະຫຍາຍຕົວຂະຫນາດໃຫຍ່ຫຼາຍ. ທ່ານຄິດວ່າຜູ້ຊ່ຽວຊານດ້ານມະເຮັງຊື່ນຊົມກັບກໍລະນີສຶກສາທີ່ບໍ່ສາມາດປຽບທຽບກັບຄົນເຈັບຂອງເຂົາເຈົ້າຫ່າງໄກສອກຫຼີກບໍ?

ເຖິງແມ່ນວ່າການຈໍາກັດຄວາມໄວກໍ່ສັບສົນ. ຕົວແບບປະຕິບັດຕໍ່ "ຮັກສາຄວາມໄວພາຍໃຕ້ 30 mph" ແລະ "ຮັກສາຄວາມໄວພາຍໃຕ້ 30 kph" ເປັນຄວາມຄ້າຍຄືກັນສູງ - ຄະແນນຄວາມຄ້າຍຄືກັນທີ່ມີບັນຫາ 0.96. ນັ້ນຄືຄວາມແຕກຕ່າງລະຫວ່າງ 30 ແລະ 18.6 ໄມຕໍ່ຊົ່ວໂມງ – ພຽງພໍທີ່ຈະກໍານົດວ່າອຸປະຕິເຫດແມ່ນເສຍຊີວິດ!

ການປ່ຽນແປງລະຫວ່າງຫົວໜ່ວຍບໍ່ພຽງແຕ່ເປັນການອອກກຳລັງກາຍທາງຄະນິດສາດເທົ່ານັ້ນ – ມັນປ່ຽນແປງຂໍ້ສະເໜີແນະ, ພາລາມິເຕີຄວາມປອດໄພ ແລະຜົນໄດ້ຮັບໂດຍພື້ນຖານ. ໂດຍພື້ນຖານແລ້ວພວກເຮົາກໍາລັງເຮັດວຽກກັບແບບຈໍາລອງທີ່ຄິດວ່າຕົວເລກທີ່ບໍ່ມີຫນ່ວຍງານແມ່ນພຽງພໍເຖິງວ່າຈະມີການວິເຄາະຂໍ້ຄວາມບ່ອນທີ່ຫນ່ວຍງານປ່ຽນຄວາມຫມາຍຢ່າງສົມບູນ.

ຄວາມຈິງແລະຜົນໄດ້ຮັບ

ນີ້ແມ່ນການປຽບທຽບລະຫວ່າງ msmarco-distilbert-base-tas-b, all-mpnet-base-v2, ແລະ open-ai-text-embedding-3-large, ແລະທ່ານຈະສັງເກດເຫັນວ່າບໍ່ມີຄວາມແຕກຕ່າງທີ່ສໍາຄັນລະຫວ່າງຜົນຜະລິດຂອງຕົວແບບເຫຼົ່ານີ້.

 ***msmarco-distilbert-base-tas-b embedding score across different test cases***

 ***all-mpnet-base-v2 embedding score across different test cases***

 ***openai-text-embedding-3-large embedding score across different test cases***

ພຽງແຕ່ເຮັດເລື້ມຄືນ ..

ເບິ່ງ, ການຝັງແມ່ນເປັນປະໂຫຍດເຮັດໃຫ້ປະລາດເຖິງວ່າຈະມີບັນຫາເຫຼົ່ານີ້. ຂ້ອຍບໍ່ໄດ້ຄັດຄ້ານການໃຊ້ພວກມັນ, ແຕ່ແທນທີ່ຈະ, ມັນເປັນສິ່ງ ສຳ ຄັນທີ່ຈະເຂົ້າຫາພວກມັນຢ່າງລະມັດລະວັງ. ນີ້ແມ່ນ ຄຳ ແນະ ນຳ ທີ່ທົດສອບການສູ້ຮົບຂອງຂ້ອຍຫຼັງຈາກໂຄງການຫຼາຍສິບໂຄງການແລະຄວາມລົ້ມເຫລວນັບບໍ່ຖ້ວນ:

ທົດສອບຕົວແບບຂອງທ່ານກ່ຽວກັບຮູບແບບພາສາຜູ້ໃຊ້ທີ່ແທ້ຈິງກ່ອນການໃຊ້ງານ. ບໍ່ແມ່ນຕົວຊີ້ວັດທາງວິຊາການ, ບໍ່ແມ່ນກໍລະນີກວດສຸຂາພິບານ - ຕົວຢ່າງຕົວຈິງຂອງວິທີທີ່ຜູ້ໃຊ້ຂອງທ່ານຕິດຕໍ່ສື່ສານ. ພວກເຮົາສ້າງຊຸດເຄື່ອງມື "ການທົດສອບຄວາມຄຽດທາງພາສາ" ທີ່ຈໍາລອງການປ່ຽນແປງທົ່ວໄປເຊັ່ນ: ການປະຕິເສດ, ການພິມຜິດ, ແລະຄວາມແຕກຕ່າງຂອງຕົວເລກ. ທຸກໆລະບົບທີ່ພວກເຮົາທົດສອບລົ້ມເຫລວໃນບາງພື້ນທີ່ - ຄໍາຖາມແມ່ນວ່າພື້ນທີ່ເຫຼົ່ານັ້ນມີຄວາມສໍາຄັນສໍາລັບຄໍາຮ້ອງສະຫມັກສະເພາະຂອງທ່ານ.
ສ້າງທາງປ້ອງກັນອ້ອມຈຸດຕາບອດທີ່ສໍາຄັນ. ຄໍາຮ້ອງສະຫມັກທີ່ແຕກຕ່າງກັນມີຄວາມຕ້ອງການທີ່ບໍ່ສາມາດລົ້ມເຫລວທີ່ແຕກຕ່າງກັນ. ສໍາລັບການດູແລສຸຂະພາບ, ໂດຍທົ່ວໄປແລ້ວມັນເປັນການປະຕິເສດແລະຄວາມແມ່ນຍໍາຂອງຫນ່ວຍງານ. ສໍາລັບທາງດ້ານການເງິນ, ມັນເປັນຕົວເລກແລະຄວາມສໍາພັນທາງໂລກ. ສໍາລັບທາງດ້ານກົດຫມາຍ, ມັນເປັນເງື່ອນໄຂແລະພັນທະ. ກໍານົດສິ່ງທີ່ບໍ່ສາມາດຜິດພາດຢ່າງແທ້ຈິງໃນໂດເມນຂອງທ່ານ, ແລະປະຕິບັດການປົກປ້ອງພິເສດ.
ຊັ້ນເຕັກນິກທີ່ແຕກຕ່າງກັນແທນທີ່ຈະວາງເດີມພັນທຸກຢ່າງກ່ຽວກັບການຝັງ. ລະບົບທີ່ປະສົບຜົນສໍາເລັດຫຼາຍທີ່ສຸດຂອງພວກເຮົາປະສົມປະສານການດຶງຂໍ້ມູນໂດຍອີງໃສ່ການຝັງກັບການກວດສອບຄໍາຫລັກ, ການກວດສອບກົດລະບຽບທີ່ຊັດເຈນ, ແລະການຈັດປະເພດສະເພາະສໍາລັບຄວາມແຕກຕ່າງທີ່ສໍາຄັນ. ການຊໍ້າຊ້ອນນີ້ບໍ່ມີປະສິດທິພາບ; ມັນເປັນສິ່ງຈໍາເປັນ.
ມີຄວາມໂປ່ງໃສກັບຜູ້ໃຊ້ກ່ຽວກັບສິ່ງທີ່ລະບົບສາມາດເຮັດໄດ້ແລະບໍ່ສາມາດເຮັດໄດ້ຢ່າງຫນ້າເຊື່ອຖື. ພວກເຮົາໄດ້ເພີ່ມຄະແນນຄວາມໝັ້ນໃຈທີ່ຊີ້ບອກຢ່າງຈະແຈ້ງເມື່ອຜົນໄດ້ຮັບອາດຈະກ່ຽວຂ້ອງກັບການປະຕິເສດ, ການປຽບທຽບຕົວເລກ, ຫຼືຈຸດອ່ອນທີ່ເປັນໄປໄດ້ອື່ນໆ. ຜູ້ໃຊ້ຮູ້ຈັກຄວາມຊື່ສັດ, ແລະມັນສ້າງຄວາມໄວ້ວາງໃຈໃນລະບົບໂດຍລວມ.

** ນີ້ແມ່ນສິ່ງທີ່ສໍາຄັນທີ່ສຸດທີ່ຂ້ອຍໄດ້ຮຽນຮູ້:** ຮູບແບບເຫຼົ່ານີ້ບໍ່ເຂົ້າໃຈພາສາທີ່ມະນຸດເຮັດ - ພວກເຂົາເຂົ້າໃຈຮູບແບບສະຖິຕິ. ເມື່ອຂ້ອຍຢຸດເຊົາການຄາດຫວັງຄວາມເຂົ້າໃຈຄືກັບມະນຸດແລະເລີ່ມປະຕິບັດພວກມັນເປັນເຄື່ອງມືການຈັບຄູ່ຮູບແບບທີ່ຊັບຊ້ອນກັບຈຸດຕາບອດສະເພາະ, ລະບົບຂອງຂ້ອຍດີຂຶ້ນ. ດີກວ່າຫຼາຍ.

ຈຸດຕາບອດທີ່ຂ້ອຍໄດ້ພັນລະນາໄວ້ຈະບໍ່ຫາຍໄປໃນບໍ່ດົນນີ້ - ພວກມັນຖືກອົບເຂົ້າໄປໃນວິທີທີ່ຕົວແບບເຫຼົ່ານີ້ເຮັດວຽກ. ແຕ່ຖ້າທ່ານຮູ້ວ່າພວກເຂົາຢູ່ທີ່ນັ້ນ, ທ່ານສາມາດອອກແບບອ້ອມຮອບພວກເຂົາໄດ້. ແລະບາງຄັ້ງ, ການຮັບຮູ້ຂໍ້ຈໍາກັດແມ່ນບາດກ້າວທໍາອິດໄປສູ່ການເອົາຊະນະມັນ.

ຫມາຍເຫດ : ຂ້ອຍມີຫຼາຍກໍລະນີທີ່ພົບຜ່ານການທົດລອງ, ແລະຂ້ອຍຈະກວມເອົາພວກມັນໃນບົດຄວາມຕໍ່ໄປຂອງຂ້ອຍ.

ບົດຄວາມຕໍ່ໄປຈະອອກມາໃນໄວໆນີ້. ຕິດຕາມຢູ່!!

Hallucinations by Design (Part 2): The Silent Flaws of Embeddings & Why Your AI Is Getting It Wrong

ຍາວເກີນໄປ; ອ່ານ

ສົມມຸດຕິຖານທຽບກັບຕົວຈິງ? ພຽງແຕ່ລາຍລະອຽດ!

ຄໍາສັ່ງຊົ່ວຄາວ? ອັນໃດສັ່ງ!

ເກນປະລິມານຫາຍໄປໃນອາກາດບາງໆ

ການປີ້ນກັນຂອງ Scalar ໄດ້ຮັບການປ່ຽນແປງຢ່າງສົມບູນ

ກົງກັນຂ້າມສະເພາະຂອງໂດເມນເບິ່ງຄືວ່າເປັນຄໍາສັບຄ້າຍຄືກັນ

ເອກະສານທາງການແພດ

ເອກະສານທາງກົດໝາຍ

ຫົວໜ່ວຍວັດແທກ

ບັນຫາການວັດແທກເພີ່ມເຕີມ

ຄວາມຈິງແລະຜົນໄດ້ຮັບ

ພຽງແຕ່ເຮັດເລື້ມຄືນ ..

About Author

ວາງປ້າຍ

ບົດຄວາມນີ້ໄດ້ຖືກນໍາສະເຫນີໃນ...

Categories

Trending Topics

Hallucinations by Design (Part 2): The Silent Flaws of Embeddings & Why Your AI Is Getting It Wrong

ຍາວເກີນໄປ; ອ່ານ

ສົມມຸດຕິຖານທຽບກັບຕົວຈິງ? ພຽງແຕ່ລາຍລະອຽດ!

ຄໍາສັ່ງຊົ່ວຄາວ? ອັນໃດສັ່ງ!

ເກນປະລິມານຫາຍໄປໃນອາກາດບາງໆ

ການປີ້ນກັນຂອງ Scalar ໄດ້ຮັບການປ່ຽນແປງຢ່າງສົມບູນ

ກົງກັນຂ້າມສະເພາະຂອງໂດເມນເບິ່ງຄືວ່າເປັນຄໍາສັບຄ້າຍຄືກັນ

ເອກະສານທາງການແພດ

ເອກະສານທາງກົດໝາຍ

ຫົວໜ່ວຍວັດແທກ

ບັນຫາການວັດແທກເພີ່ມເຕີມ

ຄວາມຈິງແລະຜົນໄດ້ຮັບ

ພຽງ​ແຕ່​ເຮັດ​ເລ​ື້ມ​ຄືນ ..

About Author

ວາງປ້າຍ

ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ...

ເລື່ອງທີ່ກ່ຽວຂ້ອງ

Categories

Trending Topics

ພຽງແຕ່ເຮັດເລື້ມຄືນ ..

ບົດຄວາມນີ້ໄດ້ຖືກນໍາສະເຫນີໃນ...