00:13
Let me show you something.
00:17
(Video) Girl: Okay, that's a cat sitting in a bed. The boy is petting the elephant. Those are people that are going on an airplane. That's a big airplane.
00:32
Fei-Fei Li: This is a three-year-old child describing what she sees in a series of photos. She might still have a lot to learn about this world, but she's already an expert at one very important task: to make sense of what she sees. Our society is more technologically advanced than ever. We send people to the moon, we make phones that talk to us or customize radio stations that can play only music we like. Yet, our most advanced machines and computers still struggle at this task. So I'm here today to give you a progress report on the latest advances in our research in computer vision, one of the most frontier and potentially revolutionary technologies in computer science.
01:23
Yes, we have prototyped cars that can drive by themselves, but without smart vision, they cannot really tell the difference between a crumpled paper bag on the road, which can be run over, and a rock that size, which should be avoided. We have made fabulous megapixel cameras, but we have not delivered sight to the blind. Drones can fly over massive land, but don't have enough vision technology to help us to track the changes of the rainforests. Security cameras are everywhere, but they do not alert us when a child is drowning in a swimming pool. Photos and videos are becoming an integral part of global life. They're being generated at a pace that's far beyond what any human, or teams of humans, could hope to view, and you and I are contributing to that at this TED. Yet our most advanced software is still struggling at understanding and managing this enormous content. So in other words, collectively as a society, we're very much blind, because our smartest machines are still blind.
02:42
"Why is this so hard?" you may ask. Cameras can take pictures like this one by converting lights into a two-dimensional array of numbers known as pixels, but these are just lifeless numbers. They do not carry meaning in themselves. Just like to hear is not the same as to listen, to take pictures is not the same as to see, and by seeing, we really mean understanding. In fact, it took Mother Nature 540 million years of hard work to do this task, and much of that effort went into developing the visual processing apparatus of our brains, not the eyes themselves. So vision begins with the eyes, but it truly takes place in the brain.
03:37
So for 15 years now, starting from my Ph.D. at Caltech and then leading Stanford's Vision Lab, I've been working with my mentors, collaborators and students to teach computers to see. Our research field is called computer vision and machine learning. It's part of the general field of artificial intelligence. So ultimately, we want to teach the machines to see just like we do: naming objects, identifying people, inferring 3D geometry of things, understanding relations, emotions, actions and intentions. You and I weave together entire stories of people, places and things the moment we lay our gaze on them.
04:27
The first step towards this goal is to teach a computer to see objects, the building block of the visual world. In its simplest terms, imagine this teaching process as showing the computers some training images of a particular object, let's say cats, and designing a model that learns from these training images. How hard can this be? After all, a cat is just a collection of shapes and colors, and this is what we did in the early days of object modeling. We'd tell the computer algorithm in a mathematical language that a cat has a round face, a chubby body, two pointy ears, and a long tail, and that looked all fine. But what about this cat? (Laughter) It's all curled up. Now you have to add another shape and viewpoint to the object model. But what if cats are hidden? What about these silly cats? Now you get my point. Even something as simple as a household pet can present an infinite number of variations to the object model, and that's just one object.
05:43
So about eight years ago, a very simple and profound observation changed my thinking. No one tells a child how to see, especially in the early years. They learn this through real-world experiences and examples. If you consider a child's eyes as a pair of biological cameras, they take one picture about every 200 milliseconds, the average time an eye movement is made. So by age three, a child would have seen hundreds of millions of pictures of the real world. That's a lot of training examples. So instead of focusing solely on better and better algorithms, my insight was to give the algorithms the kind of training data that a child was given through experiences in both quantity and quality.
06:43
Once we know this, we knew we needed to collect a data set that has far more images than we have ever had before, perhaps thousands of times more, and together with Professor Kai
00:13ฉันแสดงบางสิ่งบางอย่างให้00:17(วิดีโอ) สาว: โอเค ที่คือแมวนั่งอยู่ในเตียง เด็กชายมีการลูบคลำช้าง เหล่านั้นคือคนที่จะไปบนเครื่องบิน เครื่องบินขนาดใหญ่ได้00:32หลี่เฟยเฟย: เป็นเด็กปีสามที่อธิบายสิ่งที่เธอเห็นในชุด เธออาจไม่มีการเรียนรู้เกี่ยวกับโลกนี้ แต่เธอเป็นผู้เชี่ยวชาญที่สำคัญมากงานหนึ่งแล้ว: การทำความเข้าใจในสิ่งที่เธอเห็นนั้น สังคมของเราจะเพิ่มเติมเทคโนโลยีขั้นสูงกว่าที่เคย เราส่งคนไปดวงจันทร์ เราทำให้โทรศัพท์ที่พูดคุยกับเรา หรือปรับแต่งสถานีวิทยุที่สามารถเล่นได้เฉพาะเพลงที่เราชอบ ยัง เครื่องและคอมพิวเตอร์ขั้นสูงสุดของเรายังคงต่อสู้ที่งานนี้ ดังนั้น ฉันนี่วันนี้ให้รายงานความก้าวหน้าในเทคโนโลยีล่าสุดในงานวิจัยของเราในคอมพิวเตอร์วิทัศน์ ชายแดนมากที่สุดและอาจปฏิวัติเทคโนโลยีวิทยาศาสตร์คอมพิวเตอร์01:23ใช่ เรามีรถยนต์ prototyped ที่สามารถขับเคลื่อน ด้วยตัวเอง แต่ไม่ มีวิสัยทัศน์ที่ชาญฉลาด พวกเขาไม่สามารถจริง ๆ บอกความแตกต่างระหว่างถุงกระดาษยับบนถนน ซึ่งสามารถเรียกใช้ผ่าน และหินที่ขนาด ซึ่งควรหลีกเลี่ยง เราได้ทำกล้องล้านพิกเซลที่ดี แต่เราไม่ได้ส่งสายตาไปคนตาบอด เจ้าหน้าที่สามารถบินบนที่ดินขนาดใหญ่ แต่ไม่มีเทคโนโลยีพอมองเห็นเพื่อช่วยเราในการติดตามการเปลี่ยนแปลงของป่า กล้องรักษาความปลอดภัยได้ทุกที่ แต่พวกเขาไม่แจ้งเตือนเราเมื่อเด็กจะจมน้ำในสระว่ายน้ำ ภาพถ่ายและวิดีโอจะกลายเป็น ส่วนหนึ่งของชีวิตโลก พวกเขากำลังถูกสร้างขึ้นด้วยอัตราที่เกินกว่าสิ่งมนุษย์ หรือใด ๆ ของมนุษย์ ทีมหวังจะดู ที่ และคุณและมีส่วนร่วมกับที่ TED นี้ ยัง ซอฟต์แวร์ขั้นสูงสุดของเรายังคงดิ้นรนทำความเข้าใจ และการจัดการเนื้อหานี้มหาศาล ในคำอื่น ๆ รวมกันเป็นสังคม เราได้มากเนื่องจากเครื่องของเราที่ฉลาดที่สุดยังตาบอด ตาบอด02:42ความทำไมคือนี้ยากคุณอาจถามได้ กล้องสามารถถ่ายภาพเช่นนี้โดยการแปลงไฟเป็นอาร์เรย์สองมิติของตัวเลขที่เรียกว่าพิกเซล แต่เหล่านี้เป็นตัวเลขเพียงไม่ พวกเขาไม่ได้ความหมายในตัวเอง เหมือนแค่ฟังไม่เหมือนกันเป็นการฟัง การถ่ายภาพไม่เหมือนกันจะเห็น และ เห็นจริง ๆ ว่าหมายถึง การทำความเข้าใจ ในความเป็นจริง เอาธรรมชาติ 540 ล้านปียากทำงานในการทำงานนี้ และมากของความพยายามที่เข้าไปในการพัฒนาอุปกรณ์ประมวลผลภาพของสมองของเรา ตาตัวเองไม่ ดังนั้นวิสัยทัศน์เริ่มต้น ด้วยตา แต่แท้จริงขึ้นในสมอง03:37ดังนั้น 15 ปีตอนนี้ เริ่มต้นจากปริญญาเอกของฉันที่ Caltech และนำวิสัยทัศน์แล็บของสแตนฟอร์ด ฉันได้ทำกับฉันปรึกษา ผู้ร่วมงาน และนักเรียนการสอนคอมพิวเตอร์ การวิจัยเรียกว่าคอมพิวเตอร์วิทัศน์และเรียนรู้ของเครื่อง มันเป็นส่วนหนึ่งของเขตข้อมูลทั่วไปของปัญญาประดิษฐ์ ดังนั้นในที่สุด เราต้องการสอนเครื่องดูเหมือนเราทำ: inferring เรขาคณิต 3D สิ่ง ความเข้าใจความสัมพันธ์ อารมณ์ การกระทำ และความตั้งใจ ตั้งชื่อวัตถุ ระบุผู้คนด้วย คุณและสานกันทั้งเรื่องราวของผู้คน สถาน และสิ่งในขณะที่เราวางสายตาของเราที่พวกเขา04:27The first step towards this goal is to teach a computer to see objects, the building block of the visual world. In its simplest terms, imagine this teaching process as showing the computers some training images of a particular object, let's say cats, and designing a model that learns from these training images. How hard can this be? After all, a cat is just a collection of shapes and colors, and this is what we did in the early days of object modeling. We'd tell the computer algorithm in a mathematical language that a cat has a round face, a chubby body, two pointy ears, and a long tail, and that looked all fine. But what about this cat? (Laughter) It's all curled up. Now you have to add another shape and viewpoint to the object model. But what if cats are hidden? What about these silly cats? Now you get my point. Even something as simple as a household pet can present an infinite number of variations to the object model, and that's just one object.05:43So about eight years ago, a very simple and profound observation changed my thinking. No one tells a child how to see, especially in the early years. They learn this through real-world experiences and examples. If you consider a child's eyes as a pair of biological cameras, they take one picture about every 200 milliseconds, the average time an eye movement is made. So by age three, a child would have seen hundreds of millions of pictures of the real world. That's a lot of training examples. So instead of focusing solely on better and better algorithms, my insight was to give the algorithms the kind of training data that a child was given through experiences in both quantity and quality.06:43Once we know this, we knew we needed to collect a data set that has far more images than we have ever had before, perhaps thousands of times more, and together with Professor Kai
การแปล กรุณารอสักครู่..
