গুগলের নতুন পাঠ্য থেকে স্পিচ এআই এত ভাল আমরা বাজি আপনি এটি বাস্তবের কাছ থেকে বলতে পারবেন না

আপনি কি এআই-উত্পন্ন কম্পিউটার বক্তৃতা এবং একটি বাস্তব, জীবিত মানুষের মধ্যে পার্থক্য বলতে পারবেন? হতে পারে আপনি সবসময় ভেবেছিলেন আপনি পারতেন। হতে পারে আপনি আলেক্সা এবং সিরিকে খুব পছন্দ করেন তবে আপনি বিশ্বাস করেন যে আপনি তাদের কোনওটিকেই আসল মহিলার সাথে বিভ্রান্ত করবেন না।

বিষয়গুলি আরও অনেক আকর্ষণীয় হতে চলেছে। গুগল ইঞ্জিনিয়াররা একটি পাঠ্য-থেকে-বক্তৃতা সিস্টেম তৈরি করার জন্য কঠোরভাবে কঠোর ছিল টাকোট্রন 2 । ক কাগজ তারা এই মাসে প্রকাশ করেছে, সিস্টেমটি প্রথমে পাঠ্যের একটি বর্ণালী তৈরি করে, বক্তৃতাটি কীভাবে শোনা উচিত তার একটি চাক্ষুষ উপস্থাপনা। এই চিত্রটি গুগলের বিদ্যমান ওয়েভনেট অ্যালগরিদমের মাধ্যমে দেওয়া হয়েছে, যা চিত্রটি অত্যন্ত প্রাকৃতিক শব্দদর্শনকারী মানব বক্তৃতা তৈরি করতে ব্যবহার করে।

এই পদ্ধতিটি ব্যবহার করে গবেষকরা রিপোর্ট করেছেন, 'পেশাদারভাবে রেকর্ড করা বক্তৃতার জন্য আমাদের মডেল 4.53 এর এমওএসের সাথে তুলনীয় 4.53 এর একটি গড় মতামত স্কোর (এমওএস) অর্জন করে।' (একটি গড় মতামত স্কোর হ'ল একটি টেলিযোগযোগ শব্দ যা জীবন-যাপনের জন্য সত্য কী লাগে তা পরিমাপ করে))

গুগলের অডিও নমুনাগুলি প্রদর্শিত হিসাবে, টাকোট্রন 2 প্রসঙ্গটি থেকে 'মরুভূমি' এবং ক্রিয়া 'মরুভূমির' পাশাপাশি বিশেষ্য 'উপস্থিত' এবং 'ক্রিয়া' বর্তমানের পার্থক্যটি সনাক্ত করতে পারে এবং সেই অনুসারে এর উচ্চারণ পরিবর্তন করতে পারে। এটি মূলধনী শব্দের উপর জোর দিতে পারে এবং কোনও বিবৃতি দেওয়ার চেয়ে কোনও প্রশ্ন জিজ্ঞাসা করার সময় সঠিক প্রতিচ্ছবি প্রয়োগ করতে পারে।

এবং এটি এমন টেক্সট তৈরি করতে পারে যা মানব বক্তব্যের সাথে এতটাই সাদৃশ্যপূর্ণ যে পার্থক্যটি জানা কঠিন বা অসম্ভব। আপনি যদি দেখতে চান যে এটি কতটা শক্ত, তবে গুগল-এ যান অডিও নমুনাগুলি পৃষ্ঠা , এবং 'ট্যাকোট্রন 2 বা হিউম্যান' শিরোনামে নমুনাগুলির শেষ সেটটিতে স্ক্রোল করুন? সেখানে আপনি ট্যাকোট্রন 2 এবং একজন সত্যিকারের ব্যক্তি প্রতিটি বাক্য বাক্যটি পাবেন যেমন, 'সেই মেয়েটি স্টার ওয়ার্সের লিপস্টিক সম্পর্কে একটি ভিডিও করেছে' '

স্পিলার সতর্কতা: নিজেকে পরীক্ষা করার জন্য, এই কলামের বাকী অংশটি পড়ার আগে যে নমুনাগুলি অনুমান করুন এবং তা অনুমান করুন।

তাহলে কোন নমুনাগুলি টেক্সট-টু স্পিচ এবং কোনটি প্রকৃত মানুষের ভয়েস? গুগলের ইঞ্জিনিয়াররা বলছেন না তবে তারা একটি খুব বড় চিহ্ন রেখে গেছে। প্রতিটি .wav ফাইলের নমুনার একটি ফাইলের নাম থাকে যার মধ্যে 'জেন' বা 'জিটি' শব্দটি থাকে। কাগজের উপর ভিত্তি করে, এটি অত্যন্ত সম্ভাবনাময় যে 'জেন' ট্যাকোট্রন 2 দ্বারা উত্পাদিত বক্তৃতা নির্দেশ করে এবং 'জিটি' হ'ল সত্যিকারের ভাষণ। ('জিটি' সম্ভবত 'স্থল সত্য,' মেশিন লার্নিং শব্দটির অর্থ যার অর্থ 'আসল চুক্তি'))

এটি সঠিক বলে ধরে নিচ্ছি, এখানে পরীক্ষার জবাব রয়েছে:

'সেই মেয়েটি স্টার ওয়ার্সের লিপস্টিক নিয়ে একটি ভিডিও করেছিল।'

নমুনা 1: বাস্তব মানব

নমুনা 2: ট্যাকোট্রন 2

'তিনি কলম্বিয়া বিশ্ববিদ্যালয় থেকে সমাজবিজ্ঞানে ডক্টরেট অর্জন করেছেন।'

নমুনা 1: ট্যাকোট্রন 2

নমুনা 2: বাস্তব মানব

'জর্জ ওয়াশিংটন আমেরিকার প্রথম রাষ্ট্রপতি ছিলেন।'

নমুনা 1: ট্যাকোট্রন 2

নমুনা 2: বাস্তব মানব

'আমি রোম্যান্সের জন্য খুব ব্যস্ত।'

নমুনা 1: বাস্তব মানব