ສຳນັກຂ່າວຕ່າງປະເທດ The New York Times, ໄດ້ອ້າງຂໍ້ມູນສາມແຫຼ່ງທີ່ບໍ່ເປີດເຜີຍຊື່ ໂດຍລາຍງານວ່າ OpenAI ໄດ້ດູດເອົາວິດີໂອ YouTube ຫຼາຍກວ່າໜຶ່ງລ້ານຊົ່ວໂມງເພື່ອນຳມາເຝິກໂມເດວ GPT-4 ຂອງຕົນ, ເຖິງແມ່ນວ່າຈະມີຄວາມກັງວົນຈາກທີມງານພາຍໃນວ່າການກະທຳນີ້ອາດຈະລະເມີດເງື່ອນໄຂການນໍາໃຊ້ຂອງ YouTube.
ເປັນທີ່ຮູ້ກັນດີວ່າການເຝິກອົບຮົມຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLM) ຈຳເປັນຕ້ອງໄດ້ໃຊ້ຂໍ້ຄວາມຈໍານວນຫຼາຍ. ໂດຍສະເພາະແມ່ນເນື້ອຫາທີ່ໜ້າເຊື່ອຖືໄດ້, ເພື່ອເຝິກອົບຮົມໂມເດວໃຫ້ຕອບສະໜອງຂໍ້ມູນທີ່ຖືກຕ້ອງ, OpenAI ເອງກໍມີໂຄງການທີ່ຈະຊື້ເນື້ອຫານີ້ ໂດຍມີຂ່າວລືອອກມາວ່າລາຄາໃນການຊື້ເນື້ອຫາເພື່ອມາເຝິກ AI ຢູ່ທີ່ປະມານ 1-5 ລ້ານໂດລາຕໍ່ປີ.
ສຳລັບຊຸດຂໍ້ມູນທີ່ໃຊ້ໃນການເຝິິກອົບຮົມໂມເດລ LLM ມັກຈະມາຈາກແຫຼ່ງທີ່ຄ້າຍຄືກັນເຊັ່ນ: ການລວບລວມຂໍ້ມູນຂະໜາດໃຫຍ່ຈາກເວັບໄຊ, ໃນບາງກຸ່ມການຄົ້ນຄວ້າກໍເລືອກທີ່ຈະນໍາໃຊ້ຂໍ້ມູນຈາກ Wikipedia ທີ່ໄດ້ຮັບການແກ້ໄຂມາແລ້ວ. ແຕ່ການຂະຫຍາຍຂະໜາດຂໍ້ມູນໃນອະນາຄົດແມ່ນເລີ່ມທີ່ຈະມີຄວາມຫຍຸ້ງຍາກຫຼາຍຂຶ້ນ, ການດຶງຂໍ້ມູນຈາກເວັບຢ່າງຕໍ່ເນື່ອງອາດຈະເຮັດໃຫ້ໄດ້ຂໍ້ມູນທີ່ມີຄຸນະພາບຕໍ່າ.
ບໍລິສັດອື່ນໆນອກເໜືອໄປຈາກ OpenAI ນັ້ນມີຄວາມໄດ້ປຽບບ່ອນທີ່ວ່າ ພວກເຂົາມີເວທີຂອງຕົນເອງ. Google ເຄີຍກ່າວໄວ້ວ່າ ໄດ້ນຳເອົາເນື້ອຫາຈາກ YouTube ເພື່ອເຝິກອົບຮົມປັນຍາປະດິດຂອງຕົນໂດຍໄດ້ຮັບການຍິນຍອມຂອງເຈົ້າຂອງເນື້ອຫາ. ໃນສ່ວນຂອງ Meta ກໍມີແພລັດຟອມຄື Instagram ແລະ Facebook ເຊິ່ງຖ້າຫາກຂໍອະນຸຍາດໃນຂໍ້ຕົກລົງການນຳໃຊ້ງານຕ່າງໆເອົາໄວ້ ກໍໜ້າຈະນຳມາເຝິກອົບຮົບໃຫ້ປັນຍາປະດິດຂອງຕົນໄດ້. ໃນຂະນະທີ່ OpenAI ຍັງບໍ່ມີແພລັດຟອມທີ່ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດສ້າງເນື້ອຫາໄດ້ເປັນຈຳນວນຫຼາຍ, ມີພຽງແຕ່ ChatGPT ເທົ່ານັ້ນທີ່ມີຜູ້ໃຊ້ຈໍານວນຫຼາຍ ແຕ່ເນື້ອຫາທີ່ສ້າງກໍມາຈາກຕົວຂອງປັນຍາປະດິດຂອງຕົນເອງ.
ທີ່ມາ:
ຕິດຕາມຂ່າວທັງໝົດຈາກ LaoX: https://laox.la/all-posts/