ফেসবুক দাবি করেছে যে wav2vec 2.0 ১০ মিনিটের লেবেলযুক্ত ডেটা সহ স্পিচ রিকোনিশন পারফরম্যান্সে শীর্ষে রয়েছে

ফেসবুক দাবি করেছে যে wav2vec 2.0 ১০ মিনিটের লেবেলযুক্ত ডেটা সহ স্পিচ রিকোনিশন পারফরম্যান্সে শীর্ষে রয়েছে

সর্বশেষ আপডেট : by News Desk



প্রিপ্রিন্ট সার্ভার আরক্সভি.অর্গ.এ প্রকাশিত একটি গবেষণাপত্রে, ফেসবুকের গবেষকরা স্ব-তত্ত্বাবধানে বক্তৃতা স্বীকৃতির একটি উন্নত কাঠামো wav2vec 2.0 বর্ণনা করেছেন। তারা দাবি করেন যে এটি প্রথমবারের মতো প্রমাণিত হয়েছে যে ভাষণ থেকে উপস্থাপনাগুলি শেখার, অনুলিখনী বক্তৃতার উপর সূক্ষ্ম সুরকরণের পরে, ধারণাটি সহজতর হওয়ার সময়, সর্বোত্তম অর্ধ-তত্ত্বাবধানের পদ্ধতিগুলিকে ছাড়িয়ে যেতে পারে, মাত্র 10 মিনিটের সময় ব্যবহার করে অত্যাধুনিক ফলাফল অর্জন করতে পারে লেবেলযুক্ত ডেটা এবং লেবেলযুক্ত ডেটা 53৩,০০০ ঘন্টা pre
এআই মডেলগুলি প্রচুর পরিমাণে লেবেলযুক্ত ডেটা থেকে উপকৃত হয় – এগুলি কীভাবে তারা নিদর্শনগুলি অনুমান করতে এবং ভবিষ্যদ্বাণী করতে শেখে। যাইহোক, কাগজ নোটের সহকারী হিসাবে, লেবেলযুক্ত ডেটা সাধারণত লেবেলযুক্ত ডেটার চেয়ে বেশি শক্ত। বর্তমান স্পিচ স্বীকৃতি সিস্টেমগুলিকে গ্রহণযোগ্য পারফরম্যান্সে পৌঁছানোর জন্য কয়েক হাজার ঘন্টা অনুলিপি করা বক্তৃতা প্রয়োজন, যা বিশ্বব্যাপী প্রায় ,000,০০০ ভাষার প্রায় বেশিরভাগ ভাষার জন্য উপলভ্য নয়। ফেসবুকের আসল wav2vec এবং অন্যান্য সিস্টেমগুলি স্ব-তত্ত্বাবধানে এটিকে পাশ কাটিয়ে দেখার চেষ্টা করে যা ডেটা থেকে স্বয়ংক্রিয়ভাবে লেবেল তৈরি করে। প্রশিক্ষণের সময় অল্প পরিমাণে লেবেলযুক্ত ডেটা সংযুক্ত করে এমন অর্ধ-তত্ত্বাবধানের পদ্ধতিগুলির সাথে তুলনা করে তারা পারফরম্যান্সের দিক থেকে কম পড়েছে।
Wav2vec 2.0 অবশ্যই কোনও এনকোডার মডিউল দিয়ে ফাঁকটি বন্ধ করে দেয় যা কাঁচা অডিও নেয় এবং স্পিচ উপস্থাপনাগুলি আউটপুট দেয়, যা ট্রান্সফর্মারকে খাওয়ানো হয় যা উপস্থাপনাগুলি পুরো-অডিও-সিকোয়েন্স তথ্য ক্যাপচার নিশ্চিত করে। গুগল গবেষকরা 2017 সালে তৈরি, ট্রান্সফর্মার নেটওয়ার্ক আর্কিটেকচারটি প্রাথমিকভাবে মেশিনের অনুবাদকে উন্নত করার উপায় হিসাবে লক্ষ্য করা হয়েছিল। এই লক্ষ্যে, এটি ক্রমিকভাবে পরবর্তী কী ঘটে তা পূর্বাভাস দেওয়ার জন্য এটি পুনরাবৃত্ত নিউরাল নেটওয়ার্কের পরিবর্তে মনোযোগ ফাংশন ব্যবহার করে। এই বৈশিষ্ট্যটি wav2vec 2.0 কে অবিচ্ছিন্ন বক্তৃতা উপস্থাপনাগুলির উপরে প্রাসঙ্গিক উপস্থাপনা তৈরি করতে সক্ষম করে এবং অডিও সিকোয়েন্সগুলি শেষ-শেষের পর্যন্ত পরিসংখ্যানিক নির্ভরতা রেকর্ড করে।
উপরে: wav2vec 2.0 এর আর্কিটেকচার চিত্রিত করে একটি চিত্র।
Wav2vec 2.0 প্রিট্রেইন করতে, গবেষকরা বক্তৃতা উপস্থাপনাগুলির কিছু অংশ মুখোমুখি করেন (প্রায় 299 মিলিসেকেন্ড দৈর্ঘ্যের দৈর্ঘ্য সহ সর্বকালের ধাপগুলির 49%) এবং সিস্টেমটি তাদের সঠিকভাবে পূর্বাভাস দেওয়ার কাজ সজ্জিত করেছিলেন। তারপরে, বক্তৃতা স্বীকৃতিটির জন্য এটি সূক্ষ্মভাবে জানাতে, তারা প্রশিক্ষণের সময় অতিরিক্ত মাস্কিংয়ের আগে অক্ষর এবং শব্দের সীমানা (যেমন, লিখিত ইংরেজির শব্দের স্থান) টোকেন আকারে ভোকাবুলারি উপস্থাপন করে wav2vec 2.0 এর শীর্ষে একটি প্রজেকশন যুক্ত করেছিলেন।
ভিবি রূপান্তর 2020 অনলাইন – 15-17 জুলাই। শীর্ষস্থানীয় এআই নির্বাহকদের যোগদান করুন: ফ্রি লাইভস্ট্রিমের জন্য নিবন্ধন করুন co কোঅথাররা সিস্টেমের কার্যকারিতা মূল্যায়নের জন্য 128 এনভিডিয়া ভি 100 গ্রাফিক্স কার্ডে একবারে 5.2 দিনের জন্য বেশ কয়েকটি লেবেলযুক্ত এবং লেবেলযুক্ত ডেটা উত্সগুলিতে wav2vec 2.0 প্রশিক্ষণ দিয়েছিলেন। আট থেকে 24 গ্রাফিক্স কার্ডের মধ্যে ফাইন-টিউনিং হয়েছিল।
দলটির মতে, বৃহত্তম প্রশিক্ষিত wav2vec 2.0 মডেল – যা কেবলমাত্র 10 মিনিটের লেবেলযুক্ত ডেটা (12.5 সেকেন্ডের গড় দৈর্ঘ্য সহ 48 রেকর্ডিং) -তে সুরক্ষিত ছিল – ওপেন সোর্স লাইব্রিসিপেক কর্পাসে 5.7 এর একটি শব্দ ত্রুটি হার অর্জন করেছিল। (এখানে, "শব্দের ত্রুটি হার" মোট শব্দের দ্বারা বিভক্ত ত্রুটির সংখ্যাকে বোঝায়।) লিব্রিসপেকের 100-ঘন্টার সাবসেটে, একই মডেলটি শব্দের ত্রুটির হার 2.3 – 45% আর্টের আগের অবস্থার তুলনায় কম পরিচালনা করে ১০০ গুণ কম লেবেলযুক্ত ডেটা সহ প্রশিক্ষিত – এবং ১.৯ যখন আরও বেশি ডেটার উপর সূক্ষ্ম সুরযুক্ত হয়, ফলস্বরূপ শীর্ষ আধিকারিক তদারকি পদ্ধতিগুলির সাথে প্রতিযোগিতামূলক ফলাফল যা আরও পরিশীলিত আর্কিটেকচারের উপর নির্ভর করে।
"এটি (এটি) দেখায় যে লেবেলযুক্ত ডেটাতে স্ব-তত্ত্বাবধানে শেখার মাধ্যমে অতি-স্বল্প সংস্থার স্পিচ স্বীকৃতি সম্ভব", গবেষকরা লিখেছেন। “আমরা দেখিয়েছি যে বক্তৃতা স্বীকৃতি মডেলগুলি খুব ভাল নির্ভুলতায় খুব কম পরিমাণে টীকাযুক্ত ডেটা দিয়ে তৈরি করা যায়। আমরা আশা করি আমাদের কাজ বক্তৃতা স্বীকৃতি প্রযুক্তি আরও অনেক ভাষা এবং উপভাষার জন্য আরও বিস্তৃতভাবে উপলব্ধ করবে। "
ফেসবুক মূল শব্দটি wav2vec ব্যবহার করে কীওয়ার্ড স্পটিং এবং অ্যাকোস্টিক ইভেন্ট সনাক্তকরণের জন্য আরও ভাল অডিও ডেটার উপস্থাপনা সরবরাহ করতে এবং এর ব্যবস্থাগুলি উন্নত করতে যেগুলি তার সম্প্রদায়ের নির্দেশিকা লঙ্ঘন করে সক্রিয়ভাবে পোস্টগুলি সনাক্ত করে identify সম্ভবত wav2vec 2.0 একই কাজগুলিতে প্রয়োগ করা হবে; এর বাইরে, সংস্থাটি বলেছে যে তারা তার মেলা এবং মডেলিংয়ের সরঞ্জামদণ্ডের এক্সটেনশন হিসাবে মডেলগুলি এবং কোডটি উপলব্ধ করার পরিকল্পনা করেছে।



Source link