แนวคิดของ 'ข้อมูลขนาดใหญ่' ได้กลายเป็นสิ่งที่แพร่หลายทุกสิ่งมันคืออะไรและมันเปลี่ยนวิธีที่เราอาศัยอยู่ได้อย่างไร? เรานั่งลงกับนักวิทยาศาสตร์ด้านข้อมูลฮาร์วาร์ดระดับปริญญาเอกและผู้ท้าชิงรางวัล National Book Award Cathy O'Neil เพื่อค้นหา
CT: เริ่มต้นด้วยพื้นฐาน - อะไรคือ 'ข้อมูลขนาดใหญ่'?
CO: ข้อมูลขนาดใหญ่เป็นวิธีการใหม่ในการทำนายสิ่งต่าง ๆ โดยเฉพาะอย่างยิ่ง 'ข้อมูลขนาดใหญ่' คือการใช้ข้อมูลที่เก็บรวบรวมโดยบังเอิญเช่นวิธีที่คุณค้นหาผ่านเบราว์เซอร์ของคุณหรือสิ่งที่คุณทำบน Facebook เพื่ออนุมานสิ่งต่าง ๆ เกี่ยวกับตัวคุณเช่นสิ่งที่คุณกำลังจะซื้อ มันเป็นวิธีการหาคนทางอ้อม ตัวอย่างเช่นกล้องที่แน่ใจว่าเราไม่ถามว่า 'คุณกำลังทำอะไรอยู่?' - แค่ได้เห็นสิ่งที่เรากำลังทำอยู่
CT: แล้วอัลกอริทึมคืออะไร?
CO: อัลกอริทึมคือการคำนวณที่ [ตีความข้อมูล] ที่รวบรวมเกี่ยวกับคุณเพื่อสร้างการทำนาย ลองคิดว่ามันเป็นสมการทางคณิตศาสตร์ที่พยายามตอบคำถามที่มีการคาดการณ์เช่น: 'คนนี้จะซื้ออะไรไหม' หรือ 'บุคคลนี้กำลังจะลงคะแนนให้ใครบางคน'
CT: ทำไมฉันถึงได้ยินเรื่องนี้มากตอนนี้?
CO: ก่อนหน้า 'ข้อมูลขนาดใหญ่' นักสถิติจะทำสิ่งที่มีราคาแพงเช่นการสำรวจคนเพื่อหาอนาคต ตัวอย่างเช่นการถามคำถามโดยตรงกับผู้คนเช่น: 'คุณจะลงคะแนนเสียงให้ใคร' ตอนนี้เราพึ่งพา 'data exhaust' มากขึ้นซึ่งเป็นสิ่งที่ฉันเรียกว่าข้อมูลที่ถูกรวบรวมเกี่ยวกับคุณอย่างต่อเนื่องเพื่อสรุปสิ่งต่างๆเกี่ยวกับคุณ
ก่อนหน้า 'ข้อมูลขนาดใหญ่' บริษัท ต่างๆจะคาดเดาได้ยาก ตอนนี้เรามีสิ่งที่ดีกว่าการคาดเดา สิ่งที่น่าแปลกใจคืออัลกอริธึมข้อมูลขนาดใหญ่ส่วนใหญ่ไม่ถูกต้องอย่างดุเดือดและไม่มีเหตุผลที่จะคิดว่าถูกต้อง แต่พวกเขาก็ยังดีกว่าคนที่คาดเดา และนั่นเป็นสาเหตุที่ข้อมูลขนาดใหญ่ถูกลบอย่างที่มันเป็น
CT: หากพวกเขาไม่ถูกต้องแล้วสิ่งที่พวกเขาสะท้อน?
CO: ชุดข้อมูลที่มีข้อบกพร่องที่เราป้อน อัลกอริทึมไม่รู้อะไรเลยนอกจากสิ่งที่เราบอก ดังนั้นเมื่อเรามีข้อมูลไม่สม่ำเสมอและเรากำลังป้อนข้อมูลนั้นให้กับอัลกอริทึมหรือข้อมูลเอนเอียงมันจะคิดว่าเป็นความจริง
Ailsa Johnson / © Trip Trip
CT: ตัวอย่างจริงของเรื่องนี้คืออะไร?
CO: ตัวอย่างอาจเป็นไปได้ว่าในสหรัฐอเมริกาคนผิวดำห้าครั้งมีแนวโน้มที่จะถูกจับกุมในข้อหาสูบบุหรี่มากกว่าคนผิวขาว นั่นไม่ใช่เพราะคนดำสูบบุหรี่บ่อยขึ้น - ทั้งสองกลุ่มสูบบุหรี่ในอัตราเดียวกัน คนผิวดำมีแนวโน้มที่จะถูกจับมากกว่านี้ หากคุณมอบอัลกอริทึมที่เราทำมันจะสรุปได้อย่างถูกต้องว่าคนผิวดำมีแนวโน้มที่จะถูกจับกุมในข้อหาสูบบุหรี่ในอนาคต และจากนั้นจะทำให้คนผิวดำมีคะแนนความเสี่ยงต่อความผิดทางอาญาสูงขึ้นซึ่งมีผลต่อการพิจารณาคดีอาญา
อีกตัวอย่างหนึ่งคือการทดลองทางความคิด ฉันจะใช้ข่าวฟ็อกซ์เพราะข่าวฟ็อกซ์มีการปะทุเมื่อเร็ว ๆ นี้ที่เกี่ยวข้องกับวัฒนธรรมภายในของการรังเกียจผู้หญิง การทดลองคือ 'จะเกิดอะไรขึ้นถ้า Fox News พยายามใช้ข้อมูลของตนเองเพื่อสร้างอัลกอริทึมการเรียนรู้ของเครื่องเพื่อจ้างคนในอนาคต'
สมมติว่าเรากำลังมองหาผู้ที่ประสบความสำเร็จในข่าวฟ็อกซ์เช่น ขึ้นอยู่กับว่าคุณจะกำหนดความสำเร็จอย่างไร แต่โดยปกติแล้วคุณจะดูคนที่ได้รับการเลื่อนขั้นการโปรโมตหรือการอยู่เป็นเวลานาน จากมาตรการเหล่านี้ข้อมูลจะสะท้อนให้เห็นว่าผู้หญิงไม่ประสบความสำเร็จในข่าวฟ็อกซ์ หากใช้เป็นอัลกอริทึมการจ้างงานก็จะเผยแพร่ปัญหานั้น มันจะดูสระว่ายน้ำของผู้สมัครและจะพูดว่า 'ฉันไม่ต้องการจ้างผู้หญิงเพราะพวกเขาไม่ประสบความสำเร็จที่นี่ พวกเขาไม่ได้รับการว่าจ้างที่ดี ' และไม่เพียง แต่ต้องเป็นข่าวฟ็อกซ์ - ทุกวัฒนธรรมองค์กรมีอคติ เมื่อคุณป้อนข้อมูลอัลกอริทึมอัลกอริทึมจะกระจายอคตินั้น มันยังคงเสริมสร้างอคติที่มีอยู่แล้วในสังคม
CT: อคติตั้งใจหรือไม่
CO: ฉันไม่คิดว่านักวิทยาศาสตร์ด้านข้อมูลกำลังพยายามสร้างอัลกอริทึมทางเพศหรือแบ่งแยกเชื้อชาติ แต่อัลกอริธึมการเรียนรู้ของเครื่องดีเยี่ยมเป็นพิเศษในการเลือกรูปแบบที่ค่อนข้างเหมาะสมแล้วจึงเผยแพร่มัน ไม่ใช่สิ่งที่นักวิทยาศาสตร์ด้านข้อมูลกำลังทำอยู่ แต่ก็มีอคติ
CT: อัลกอริทึมที่ไม่ถูกต้องมีบทบาทอย่างไรในชีวิตประจำวันของเรา
CO: พวกเขาถูกนำมาใช้ในการตัดสินใจทุกประเภทเพื่อชีวิตของผู้คน - ทุกอย่างตั้งแต่การรับเข้าเรียนจนถึงการหางาน
มีอัลกอริทึมที่ตัดสินว่าตำรวจจะทำอย่างไรกับตำรวจในพื้นที่ใกล้เคียงรวมถึงอัลกอริทึมที่ตัดสินว่าผู้พิพากษาจะพิพากษาให้จำคุกอย่างไร มีอัลกอริทึมที่ตัดสินว่าคุณต้องจ่ายค่าประกันเท่าไรหรืออัตราดอกเบี้ยที่คุณได้รับจากบัตรเครดิตของคุณ มีอัลกอริธึมที่ตัดสินว่าคุณทำงานของคุณอย่างไรซึ่งใช้เพื่อกำหนดค่าจ้างที่สูงขึ้น มีอัลกอริธึมทุกขั้นตอนตั้งแต่เกิดจนตาย
CT: แล้วอะไรล่ะที่จะทิ้งเราไว้?
CO: เรากระโดดเข้าสู่ยุคข้อมูลขนาดใหญ่และมีอัลกอริธึมโยนในทุกปัญหาที่เรามีสมมติว่าอัลกอริธึมเหล่านั้นจะต้องยุติธรรมกว่ามนุษย์ - แต่จริงๆแล้วพวกเขาไม่ยุติธรรมเหมือนกับมนุษย์ เราต้องทำดีกว่า
คลิกที่นี่เพื่ออ่านบทที่สองของการสัมภาษณ์กับดร. โอนีล หนังสือของเธออาวุธแห่งการทำลายล้างคณิตศาสตร์: ข้อมูลขนาดใหญ่ช่วยเพิ่มความไม่เท่าเทียมและประชาธิปไตยที่คุกคามได้อย่างไรตอนนี้