OpenAI ດູດເອົາວິດີໂອຈາກ YouTube ຫຼາຍກວ່າ 1 ລ້ານຊົ່ວໂມງແລ້ວແປງເປັນຂໍ້ຄວາມເພື່ອທີ່ຈະມາເຝິກສອນ AI

xr:d:DAGCFno26cE:2,j:6369640282576854948,t:24041106


ສຳນັກຂ່າວຕ່າງປະເທດ The New York Times, ໄດ້ອ້າງຂໍ້ມູນສາມແຫຼ່ງທີ່ບໍ່ເປີດເຜີຍຊື່ ໂດຍລາຍງານວ່າ OpenAI ໄດ້ດູດເອົາວິດີໂອ YouTube ຫຼາຍກວ່າໜຶ່ງລ້ານຊົ່ວໂມງເພື່ອນຳມາເຝິກໂມເດວ GPT-4 ຂອງຕົນ, ເຖິງແມ່ນວ່າຈະມີຄວາມກັງວົນຈາກທີມງານພາຍໃນວ່າການກະທຳນີ້ອາດຈະລະເມີດເງື່ອນໄຂການນໍາໃຊ້ຂອງ YouTube.

ເປັນທີ່ຮູ້ກັນດີວ່າການເຝິກອົບຮົມຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLM) ຈຳເປັນຕ້ອງໄດ້ໃຊ້ຂໍ້ຄວາມຈໍານວນຫຼາຍ. ໂດຍສະເພາະແມ່ນເນື້ອຫາທີ່ໜ້າເຊື່ອຖືໄດ້, ເພື່ອເຝິກອົບຮົມໂມເດວໃຫ້ຕອບສະໜອງຂໍ້ມູນທີ່ຖືກຕ້ອງ, OpenAI ເອງກໍມີໂຄງການທີ່ຈະຊື້ເນື້ອຫານີ້ ໂດຍມີ​ຂ່າວ​ລືອອກມາ​ວ່າ​ລາຄາໃນການຊື້ເນື້ອຫາເພື່ອມາເຝິກ AI ຢູ່ທີ່ປະ​ມານ 1-5 ລ້ານ​ໂດ​ລາ​ຕໍ່​ປີ.

ສຳລັບຊຸດຂໍ້ມູນທີ່ໃຊ້ໃນການເຝິິກອົບຮົມໂມເດລ LLM ມັກຈະມາຈາກແຫຼ່ງທີ່ຄ້າຍຄືກັນເຊັ່ນ: ການລວບລວມຂໍ້ມູນຂະໜາດໃຫຍ່ຈາກເວັບໄຊ, ໃນບາງກຸ່ມການຄົ້ນຄວ້າກໍເລືອກທີ່ຈະນໍາໃຊ້ຂໍ້ມູນຈາກ Wikipedia ທີ່ໄດ້ຮັບການແກ້ໄຂມາແລ້ວ. ແຕ່ການຂະຫຍາຍຂະໜາດຂໍ້ມູນໃນອະນາຄົດແມ່ນເລີ່ມທີ່ຈະມີຄວາມຫຍຸ້ງຍາກຫຼາຍຂຶ້ນ, ການດຶງຂໍ້ມູນຈາກເວັບຢ່າງຕໍ່ເນື່ອງອາດຈະເຮັດໃຫ້ໄດ້ຂໍ້ມູນທີ່ມີຄຸນະພາບຕໍ່າ.

ບໍລິສັດອື່ນໆນອກເໜືອໄປຈາກ OpenAI ນັ້ນມີຄວາມໄດ້ປຽບບ່ອນທີ່ວ່າ ພວກເຂົາມີເວທີຂອງຕົນເອງ. Google ເຄີຍກ່າວໄວ້ວ່າ ໄດ້ນຳເອົາເນື້ອຫາຈາກ YouTube ເພື່ອເຝິກອົບຮົມປັນຍາປະດິດຂອງຕົນໂດຍໄດ້ຮັບການຍິນຍອມຂອງເຈົ້າຂອງເນື້ອຫາ. ໃນສ່ວນຂອງ Meta ກໍມີແພລັດຟອມຄື Instagram ແລະ Facebook ເຊິ່ງຖ້າຫາກຂໍອະນຸຍາດໃນຂໍ້ຕົກລົງການນຳໃຊ້ງານຕ່າງໆເອົາໄວ້ ກໍໜ້າຈະນຳມາເຝິກອົບຮົບໃຫ້ປັນຍາປະດິດຂອງຕົນໄດ້. ໃນຂະນະທີ່ OpenAI ຍັງບໍ່ມີແພລັດຟອມທີ່ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດສ້າງເນື້ອຫາໄດ້ເປັນຈຳນວນຫຼາຍ, ມີພຽງແຕ່ ChatGPT ເທົ່ານັ້ນທີ່ມີຜູ້ໃຊ້ຈໍານວນຫຼາຍ ແຕ່ເນື້ອຫາທີ່ສ້າງກໍມາຈາກຕົວຂອງປັນຍາປະດິດຂອງຕົນເອງ.

ທີ່ມາ:

nytimes

ຕິດຕາມຂ່າວທັງໝົດຈາກ LaoX: https://laox.la/all-posts/