“Image to sound” and “sound to image” transformation has been the subject of many studies. One of them was published by Peter B. L. Meijer, where he developed a system including a pipelined special purpose computer with a regular television camera. He implemented an algorithm that preserves visual information by ensuring 1 to 1 mapping between image and sound. The main advantage of this system is the development of a low-cost portable prototype conversion system having a power dissipation suitable for battery operation. The author concludes that the further development towards a practical application of the system still awaits a thorough evaluation with blind persons.
Another paper written by S. Matta et al [2] makes a comparison study between existing methods. The authors examined various image to sound conversion techniques according to a personalized testing process. The volunteers have asked to correlate binary images with corresponding sounds, and results showed that 75% of volunteers could not associate images with the corresponding sounds.
A. Cazan et al [3] designed a lowpower & portable system for image to sound conversion in order to help visually impaired people. A two phase testing mechanism which includes road signs and plates adapted to blind people is developed. The authors have implemented a system which is based on existing algorithms and techniques. After the initial training phase, volunteers were asked to associate images with corresponding sounds. The results showed that 40% of volunteers could successfully identify the correct pairs of image and sound.
Another paper was written by D.Yang et al, in order to develop a real time assistive system for blind people. The name of the device was given after its algorithm named EBCOT which stands for Embedded Block Coding with Optimized Truncation. The main idea of this algorithm is to apply two-tier coding and optimal wavelet base. The ability of coding with embedded block and minimum ratedistortion are the main features of this algorithm. The system receives real time images via a regular camera, processes them and the resultant sounds are transferred to the headphones. Finally they compared their system with existing compression methods, such as SPIHT and EZW. The results showed that EBCOT algorithm has the highest time efficiency among existing methodologies.
Another paper written by P. Codognet and G. Nouno presents a real time system that generates sound according to the blinking lights which were placed into the highest skyscrapers in Tokyo. Red Light Spotters Project encompassed artistic creation process embedding image tracking and beat prediction algorithms. The key idea was to achieve an emergent rhythmic process for the musical creation and generative music. Results showed that the system could be applicable to any other city under one condition, the necessity of rhythmic flow of lights. One of the studies related with sound to image mapping was written by K. Abe et al.
In their work, they developed a sound classification method based on timefrequency image processing. They classified sound in four different classes: “Speech”, “Noise”, “Speech in Noise” and “Classical Music”. The initial idea was to develop a system that
could calibrate the hearing aids automatically according to the
acoustic environmental changes. Their algorithm generates
images from the sounds that are coming to hearing aids.
According to the characteristics of the images, sound is
classified into four classes. The authors state that the proposed
method has a possibility to establish a sound classification in
hearing aid system as the first and rough trial. Another paper
about image to sound conversion techniques was written by A.
Fusiello et al [7]. Sonification techniques were used to create a
system named Multimodal Electronically Travel Aid Device.
Their system includes an earphone, a portable computer, a laser
pointer which would be used to estimate the z-depth. Finally, a
stereo camera pair was used in order to generate stereo vision.
The algorithm tracks down the sound signals, applies 3D
reconstruction and with the help of sonification techniques
sound is generated. Results have shown that laser usage could
create problems about the analysis of depth, but the overall
results were satisfactory. In one of the researches about auditory
display [8], they stated that image can be visualized as a two
dimensional pixel-space and with each pixel having a discrete
value. They claimed that an image can be represented as a threedimensional
matrix having three indices: x-position, y-position
and its intensity value. For this reason they conclude that image
sonification can be applicable to real life. With the usage of
image sonification, data can be converted from a static twodimensional
domain to a one dimensional time domain. The
helical coordinate system [9] could be used for this
transformation. One of comparison
"ภาพที่แสดงให้เสียง" และ "เสียงกับภาพ" การเปลี่ยนแปลงที่ได้รับเรื่องของการศึกษาจำนวนมาก หนึ่งของพวกเขาถูกตีพิมพ์โดยปีเตอร์ BL เมย์เยอร์ที่เขาพัฒนาระบบรวมทั้งคอมพิวเตอร์วัตถุประสงค์ไปป์ไลน์พิเศษด้วยกล้องโทรทัศน์ปกติ เขาดำเนินการขั้นตอนวิธีการที่เก็บรักษาข้อมูลภาพโดยมั่นใจ 1-1 แมประหว่างภาพและเสียงได้ ประโยชน์หลักของระบบนี้คือการพัฒนาของต้นทุนต่ำระบบแปลงต้นแบบแบบพกพาที่มีการกระจายอำนาจที่เหมาะสมสำหรับการดำเนินงานของแบตเตอรี่ ผู้เขียนสรุปว่าการพัฒนาต่อไปสู่การใช้งานจริงของระบบยังคงรอการประเมินอย่างละเอียดกับบุคคลคนตาบอด.
กระดาษเขียนโดยเอส Matta et al, [2] ทำให้การศึกษาเปรียบเทียบระหว่างวิธีการที่มีอยู่ ผู้เขียนตรวจสอบภาพต่างๆให้เสียงเทคนิคการแปลงเป็นไปตามขั้นตอนการทดสอบส่วนบุคคล อาสาสมัครได้ขอให้มีความสัมพันธ์ภาพไบนารีด้วยเสียงที่สอดคล้องกันและผลการศึกษาพบว่า 75% ของอาสาสมัครไม่สามารถเชื่อมโยงภาพกับเสียงที่สอดคล้องกัน.
เอ Cazan et al, [3] ออกแบบ lowpower และระบบภาพแบบพกพาสำหรับการแปลงเสียงเพื่อที่จะช่วยให้คนพิการทางสายตา กลไกการทดสอบสองขั้นตอนซึ่งรวมถึงป้ายถนนและแผ่นปรับให้เข้ากับคนตาบอดได้รับการพัฒนา ผู้เขียนได้ดำเนินการระบบซึ่งจะขึ้นอยู่กับขั้นตอนวิธีการที่มีอยู่และเทคนิค หลังจากขั้นตอนการฝึกอบรมครั้งแรกอาสาสมัครถูกถามในการเชื่อมโยงภาพกับเสียงที่สอดคล้องกัน ผลการศึกษาพบว่า 40% ของอาสาสมัครที่ประสบความสำเร็จสามารถระบุคู่ที่ถูกต้องของภาพและเสียงได้.
กระดาษที่เขียนขึ้นโดย D.Yang et al, เพื่อที่จะพัฒนาระบบอำนวยความสะดวกเวลาจริงสำหรับคนตาบอด ชื่อของอุปกรณ์ที่ได้รับหลังจากที่อัลกอริทึมของชื่อ EBCOT ซึ่งยืนสำหรับการเข้ารหัสบล็อกฝังตัวอยู่กับการตัดเพิ่มประสิทธิภาพ แนวคิดหลักของขั้นตอนวิธีนี้คือการใช้การเข้ารหัสสองชั้นและฐานเวฟที่ดีที่สุด ความสามารถในการเขียนโปรแกรมด้วยบล็อกฝังตัวและ ratedistortion ขั้นต่ำเป็นคุณสมบัติหลักของขั้นตอนวิธีนี้ ระบบได้รับภาพเวลาจริงผ่านกล้องปกติกระบวนการพวกเขาและเสียงผลที่ถูกโอนไปยังหูฟัง ในที่สุดพวกเขาเมื่อเทียบกับระบบของพวกเขาด้วยวิธีการบีบอัดที่มีอยู่เช่น SPIHT และ EZW ผลการศึกษาพบว่าอัลกอริทึม EBCOT มีประสิทธิภาพสูงสุดในเวลาวิธีการที่มีอยู่.
กระดาษที่เขียนโดยพี Codognet กรัมและ Nouno นำเสนอระบบเวลาจริงที่สร้างเสียงตามที่ไฟกระพริบที่ถูกวางลงในตึกระฟ้าที่สูงที่สุดในโตเกียว แสงสีแดงสังเกตการณ์โครงการห้อมล้อมกระบวนการสร้างสรรค์ศิลปะการฝังติดตามภาพและตีขั้นตอนวิธีการทำนาย ความคิดที่สำคัญคือเพื่อให้บรรลุกระบวนการจังหวะโผล่ออกมาสำหรับการสร้างดนตรีและเพลงกำเนิด ผลการศึกษาพบว่าระบบอาจจะมีผลบังคับใช้กับเมืองอื่น ๆ ภายใต้เงื่อนไขหนึ่งในความจำเป็นของการไหลของจังหวะของไฟ หนึ่งของการศึกษาที่เกี่ยวข้องกับเสียงที่จะทำแผนที่ภาพที่เขียนขึ้นโดยเคเอ็บ et al.
ในการทำงานของพวกเขาพวกเขาพัฒนาวิธีการจำแนกเสียงอยู่บนพื้นฐานของการประมวลผลภาพ timefrequency พวกเขาจัดเสียงในสี่ชั้นเรียนแตกต่างกัน: "คำพูด", "เสียงรบกวน", "คำพูดในเสียงรบกวน" และ "เพลงคลาสสิก" ความคิดเริ่มต้นคือการพัฒนาระบบที่
สามารถสอบเทียบเครื่องช่วยฟังโดยอัตโนมัติตามการ
เปลี่ยนแปลงของสิ่งแวดล้อมอะคูสติก ขั้นตอนวิธีการของพวกเขาสร้าง
ภาพจากเสียงที่กำลังจะมาถึงเครื่องช่วยฟัง.
ตามลักษณะของภาพเสียงจะถูก
แบ่งออกเป็นสี่ชั้น ผู้เขียนระบุว่านำเสนอ
วิธีการที่มีความเป็นไปที่จะสร้างการจำแนกเสียงใน
การได้ยินระบบช่วยเหลือในขณะที่พิจารณาคดีครั้งแรกและหยาบ กระดาษอีก
เกี่ยวกับภาพเสียงเทคนิคการแปลงเป็นหนังสือที่เขียนโดย A.
Fusiello et al, [7] เทคนิค Sonification ถูกนำมาใช้ในการสร้าง
ระบบการตั้งชื่อ Multimodal อิเล็กทรอนิกส์ Aid ท่องเที่ยวอุปกรณ์.
ระบบของพวกเขารวมถึงหูฟังคอมพิวเตอร์แบบพกพาเลเซอร์
ชี้ซึ่งจะถูกนำมาใช้ในการประมาณ Z เชิงลึก ในที่สุด
คู่กล้องสเตอริโอถูกนำมาใช้เพื่อสร้างวิสัยทัศน์สเตอริโอ.
ขั้นตอนวิธีการลงเพลงสัญญาณเสียงใช้ 3D
ฟื้นฟูและด้วยความช่วยเหลือของเทคนิค sonification
เสียงที่สร้างขึ้น ผลที่ได้แสดงให้เห็นว่าการใช้เลเซอร์อาจ
สร้างปัญหาเกี่ยวกับการวิเคราะห์เชิงลึก แต่โดยรวม
ผลการวิจัยที่น่าพอใจ ในตอนหนึ่งของงานวิจัยที่เกี่ยวกับหู
จอแสดงผล [8] พวกเขากล่าวว่าภาพที่สามารถมองเห็นเป็นสอง
มิติพิกเซลพื้นที่และมีแต่ละพิกเซลมีต่อเนื่อง
ค่า พวกเขาอ้างว่าภาพที่สามารถแสดงเป็น threedimensional
เมทริกซ์มีสามดัชนี: X-ตำแหน่ง Y-ตำแหน่ง
และความคุ้มค่าความรุนแรงของมัน ด้วยเหตุนี้พวกเขาสรุปว่าภาพ
sonification สามารถใช้กับชีวิตจริง กับการใช้งานของ
sonification ภาพข้อมูลที่สามารถดัดแปลงมาจาก twodimensional คง
โดเมนโดเมนครั้งหนึ่งมิติ
ขดลวดระบบพิกัด [9] สามารถนำมาใช้สำหรับการนี้
การเปลี่ยนแปลง หนึ่งของการเปรียบเทียบ
การแปล กรุณารอสักครู่..

ภาพ " เสียง " และ " เสียงการแปลงภาพ " ได้รับเรื่องของการศึกษาหลาย หนึ่งของพวกเขาถูกตีพิมพ์โดย Peter B . L . Meijer , ที่ซึ่งเขาได้พัฒนาระบบคอมพิวเตอร์รวมถึง pipelined วัตถุประสงค์พิเศษด้วยกล้องโทรทัศน์ปกติ เขาใช้วิธีที่จะเก็บรักษาข้อมูลภาพโดยมั่นใจ 1 ต่อ 1 แผนที่ระหว่างภาพและเสียง ประโยชน์หลักของระบบนี้คือ การพัฒนาต้นแบบราคาถูกแบบพกพาระบบแปลงมีอำนาจสูงสุด เหมาะสำหรับงานแบตเตอรี่ ผู้เขียนสรุปได้ว่า พัฒนาไปสู่การประยุกต์ใช้ในทางปฏิบัติของระบบยังรอการประเมินอย่างละเอียดกับคนตาบอดกระดาษอื่น เขียนโดย มัตตะ et al [ 2 ] ทำให้การเปรียบเทียบระหว่างวิธีเดิม ผู้เขียนได้ตรวจสอบภาพต่าง ๆ เสียงเทคนิคการแปลงส่วนบุคคลการทดสอบตามกระบวนการ อาสาสมัครให้สัมพันธ์ภาพไบนารีด้วยเสียงที่สอดคล้องกันและพบว่า 75% ของอาสาสมัครสามารถเชื่อมโยงภาพกับเสียงตรงกันcazan et al . [ 3 ] lowpower พกพาและออกแบบระบบภาพเสียงการแปลงเพื่อช่วยให้ผู้พิการทางสายตา . สองขั้นตอนการทดสอบกลไกซึ่งรวมถึงป้ายถนน และแผ่นปรับให้คนตาบอดมีการพัฒนา ผู้เขียนได้ใช้ระบบซึ่งจะขึ้นอยู่กับขั้นตอนวิธีที่มีอยู่และเทคนิค หลังจากขั้นตอนการฝึกอบรมครั้งแรก อาสาสมัครถูกขอให้เชื่อมโยงภาพกับเสียงตรงกัน ผลการศึกษาพบว่า 40% ของอาสาสมัครได้ระบุคู่ที่ถูกต้องของภาพและเสียงกระดาษอีก เขียนโดย หยาง et al , เพื่อพัฒนาระบบช่วยเวลาจริงสำหรับคนตาบอด ชื่อของอุปกรณ์ที่ได้รับหลังจาก ebcot ซึ่งย่อมาจากชื่อของขั้นตอนวิธีการเข้ารหัสที่มีประสิทธิภาพฝังตัวป้องกันการตัดเป็นท่อนๆ แนวคิดหลักของวิธีนี้คือการใช้รหัสฐานสองชั้นและวิธีการที่เหมาะสม ความสามารถในการเขียนโปรแกรมฝังตัวที่มีบล็อก และ ratedistortion ขั้นต่ำเป็นคุณสมบัติหลักของขั้นตอนวิธีนี้ ระบบรับภาพเวลาจริงผ่านทางกล้องปกติกระบวนการพวกเขาและเสียงซึ่งจะถูกโอนไปยังหูฟัง ในที่สุดพวกเขาเปรียบเทียบระบบของพวกเขาด้วยวิธีการบีบอัดที่มีอยู่ เช่น spiht และ ezw . ผลการศึกษาพบว่า ขั้นตอนวิธี ebcot ได้สูงสุดเวลาประสิทธิภาพระหว่างวิธีการที่มีอยู่เขียนโดยหน้ากระดาษอื่น codognet G nouno แสดงเวลาจริงระบบที่สร้างเสียงตามแสงไฟกระพริบที่ถูกวางไว้เป็นตึกระฟ้าที่สูงที่สุดในโตเกียว โครงการไฟส่องสว่างไฟสีแดงครอบคลุมถึงศิลปะการสร้างกระบวนการติดตามและชนะการฝังภาพขั้นตอนวิธีการพยากรณ์ ความคิดหลักคือเพื่อให้บรรลุกระบวนการจังหวะฉุกเฉินสำหรับการสร้างเซลล์และดนตรีเพลง ผลการศึกษาพบว่า ระบบสามารถใช้ได้กับเมืองอื่น ๆภายใต้เงื่อนไขที่จำเป็นของการไหลเป็นจังหวะของแสง หนึ่งของการศึกษาที่เกี่ยวข้องกับเสียงกับแผนที่ภาพที่ถูกเขียนโดย K . อาเบะ et al .ในงานของพวกเขา พวกเขาได้รับการจำแนกตามเสียงวิธีการประมวลผลภาพ timefrequency . พวกเขาจำแนกเสียงสี่ชั้นเรียนแตกต่างกัน : " การพูด " , " เสียง " , " เสียง " และ " เพลงคลาสสิก " ความคิดเริ่มต้นที่จะพัฒนาระบบสามารถปรับเครื่องช่วยฟังโดยอัตโนมัติไปตามการเปลี่ยนแปลงของสิ่งแวดล้อมอะคูสติก อัลกอริทึมของพวกเขาสร้างภาพจากเสียงที่กำลังได้ยินเอดส์ตามลักษณะของภาพ เสียง คือแบ่งออกเป็นสี่ชั้น สถานะของผู้เขียนที่เสนอวิธีมีความเป็นไปได้ที่จะสร้างเสียงในการจำแนกเครื่องช่วยฟังระบบเป็นครั้งแรกและการพิจารณาคดีในที่ขรุขระ กระดาษอีกเรื่องภาพกับเสียงเทคนิคการแปลงถูกเขียนโดย .fusiello et al [ 7 ] เทคนิคที่ใช้ในการสร้าง sonificationระบบชื่อแบบทางอิเล็กทรอนิกส์ เดินทาง อุปกรณ์ช่วยระบบของพวกเขารวมถึงหูฟัง , คอมพิวเตอร์แบบพกพา , เลเซอร์ตัวชี้ซึ่งจะใช้ในการประมาณการ z-depth . ในที่สุดคู่กล้องสเตอริโอถูกใช้เพื่อสร้างวิสัยทัศน์สเตอริโอขั้นตอนวิธีการแกะรอยสัญญาณเสียงใช้ 3Dการฟื้นฟูและด้วยความช่วยเหลือของเทคนิค sonificationเสียงจะถูกสร้างขึ้น ผลลัพธ์ที่ได้แสดงให้เห็นว่าการใช้เลเซอร์สามารถสร้าง ปัญหา เกี่ยวกับการวิเคราะห์ของความลึก แต่โดยรวมได้ผลน่าพอใจ หนึ่งในงานวิจัยที่เกี่ยวกับการบรรยายแสดงผล [ 8 ] พวกเขากล่าวว่า ภาพที่สามารถมองเห็นเป็นสองมิติพิกเซลพื้นที่และกับแต่ละพิกเซลมีแบบไม่ต่อเนื่องค่า พวกเขาอ้างว่า ภาพจะแสดงเป็นไอคอนเมทริกซ์ที่มีสามดัชนี : x-position y-position ,และความเข้มค่า สำหรับเหตุผลที่พวกเขาสรุปภาพที่sonification สามารถใช้ได้กับชีวิตจริง กับการใช้งานของภาพ sonification ข้อมูลจะถูกแปลงจาก twodimensional สถิตโดเมนหนึ่งมิติเวลาโดเมน ที่5 ระบบพิกัด [ 9 ] สามารถใช้นี้การเปลี่ยนแปลง หนึ่งของการเปรียบเทียบ
การแปล กรุณารอสักครู่..
