প্রধান উদ্ভাবন করা গুগলের নতুন পাঠ্য থেকে স্পিচ এআই এত ভাল আমরা বাজি আপনি এটি বাস্তবের কাছ থেকে বলতে পারবেন না

গুগলের নতুন পাঠ্য থেকে স্পিচ এআই এত ভাল আমরা বাজি আপনি এটি বাস্তবের কাছ থেকে বলতে পারবেন না

আপনি কি এআই-উত্পন্ন কম্পিউটার বক্তৃতা এবং একটি বাস্তব, জীবিত মানুষের মধ্যে পার্থক্য বলতে পারবেন? হতে পারে আপনি সবসময় ভেবেছিলেন আপনি পারতেন। হতে পারে আপনি আলেক্সা এবং সিরিকে খুব পছন্দ করেন তবে আপনি বিশ্বাস করেন যে আপনি তাদের কোনওটিকেই আসল মহিলার সাথে বিভ্রান্ত করবেন না।

বিষয়গুলি আরও অনেক আকর্ষণীয় হতে চলেছে। গুগল ইঞ্জিনিয়াররা একটি পাঠ্য-থেকে-বক্তৃতা সিস্টেম তৈরি করার জন্য কঠোরভাবে কঠোর ছিল টাকোট্রন 2 । ক কাগজ তারা এই মাসে প্রকাশ করেছে, সিস্টেমটি প্রথমে পাঠ্যের একটি বর্ণালী তৈরি করে, বক্তৃতাটি কীভাবে শোনা উচিত তার একটি চাক্ষুষ উপস্থাপনা। এই চিত্রটি গুগলের বিদ্যমান ওয়েভনেট অ্যালগরিদমের মাধ্যমে দেওয়া হয়েছে, যা চিত্রটি অত্যন্ত প্রাকৃতিক শব্দদর্শনকারী মানব বক্তৃতা তৈরি করতে ব্যবহার করে।

এই পদ্ধতিটি ব্যবহার করে গবেষকরা রিপোর্ট করেছেন, 'পেশাদারভাবে রেকর্ড করা বক্তৃতার জন্য আমাদের মডেল 4.53 এর এমওএসের সাথে তুলনীয় 4.53 এর একটি গড় মতামত স্কোর (এমওএস) অর্জন করে।' (একটি গড় মতামত স্কোর হ'ল একটি টেলিযোগযোগ শব্দ যা জীবন-যাপনের জন্য সত্য কী লাগে তা পরিমাপ করে))

গুগলের অডিও নমুনাগুলি প্রদর্শিত হিসাবে, টাকোট্রন 2 প্রসঙ্গটি থেকে 'মরুভূমি' এবং ক্রিয়া 'মরুভূমির' পাশাপাশি বিশেষ্য 'উপস্থিত' এবং 'ক্রিয়া' বর্তমানের পার্থক্যটি সনাক্ত করতে পারে এবং সেই অনুসারে এর উচ্চারণ পরিবর্তন করতে পারে। এটি মূলধনী শব্দের উপর জোর দিতে পারে এবং কোনও বিবৃতি দেওয়ার চেয়ে কোনও প্রশ্ন জিজ্ঞাসা করার সময় সঠিক প্রতিচ্ছবি প্রয়োগ করতে পারে।

এবং এটি এমন টেক্সট তৈরি করতে পারে যা মানব বক্তব্যের সাথে এতটাই সাদৃশ্যপূর্ণ যে পার্থক্যটি জানা কঠিন বা অসম্ভব। আপনি যদি দেখতে চান যে এটি কতটা শক্ত, তবে গুগল-এ যান অডিও নমুনাগুলি পৃষ্ঠা , এবং 'ট্যাকোট্রন 2 বা হিউম্যান' শিরোনামে নমুনাগুলির শেষ সেটটিতে স্ক্রোল করুন? সেখানে আপনি ট্যাকোট্রন 2 এবং একজন সত্যিকারের ব্যক্তি প্রতিটি বাক্য বাক্যটি পাবেন যেমন, 'সেই মেয়েটি স্টার ওয়ার্সের লিপস্টিক সম্পর্কে একটি ভিডিও করেছে' '

স্পিলার সতর্কতা: নিজেকে পরীক্ষা করার জন্য, এই কলামের বাকী অংশটি পড়ার আগে যে নমুনাগুলি অনুমান করুন এবং তা অনুমান করুন।

তাহলে কোন নমুনাগুলি টেক্সট-টু স্পিচ এবং কোনটি প্রকৃত মানুষের ভয়েস? গুগলের ইঞ্জিনিয়াররা বলছেন না তবে তারা একটি খুব বড় চিহ্ন রেখে গেছে। প্রতিটি .wav ফাইলের নমুনার একটি ফাইলের নাম থাকে যার মধ্যে 'জেন' বা 'জিটি' শব্দটি থাকে। কাগজের উপর ভিত্তি করে, এটি অত্যন্ত সম্ভাবনাময় যে 'জেন' ট্যাকোট্রন 2 দ্বারা উত্পাদিত বক্তৃতা নির্দেশ করে এবং 'জিটি' হ'ল সত্যিকারের ভাষণ। ('জিটি' সম্ভবত 'স্থল সত্য,' মেশিন লার্নিং শব্দটির অর্থ যার অর্থ 'আসল চুক্তি'))

এটি সঠিক বলে ধরে নিচ্ছি, এখানে পরীক্ষার জবাব রয়েছে:

'সেই মেয়েটি স্টার ওয়ার্সের লিপস্টিক নিয়ে একটি ভিডিও করেছিল।'

নমুনা 1: বাস্তব মানব

নমুনা 2: ট্যাকোট্রন 2

'তিনি কলম্বিয়া বিশ্ববিদ্যালয় থেকে সমাজবিজ্ঞানে ডক্টরেট অর্জন করেছেন।'

নমুনা 1: ট্যাকোট্রন 2

নমুনা 2: বাস্তব মানব

'জর্জ ওয়াশিংটন আমেরিকার প্রথম রাষ্ট্রপতি ছিলেন।'

নমুনা 1: ট্যাকোট্রন 2

নমুনা 2: বাস্তব মানব

'আমি রোম্যান্সের জন্য খুব ব্যস্ত।'

নমুনা 1: বাস্তব মানব

নমুনা 2: ট্যাকোট্রন 2

আপনি ঠিক কত পেয়েছি? এবং আপনি কি সত্যিই পার্থক্যটি বলতে পারেন, বা আপনার কি কেবল অনুমান করতে হবে?

আকর্ষণীয় নিবন্ধ