অ্যাপ্লিকেশনের সংখ্যা এবং ভয়েস ইন্টারফেসের গুরুত্ব দ্রুত বাড়ছে
প্রযুক্তির

অ্যাপ্লিকেশনের সংখ্যা এবং ভয়েস ইন্টারফেসের গুরুত্ব দ্রুত বাড়ছে

পোর্টল্যান্ড, ওরেগনের একটি আমেরিকান পরিবার সম্প্রতি জানতে পেরেছে যে অ্যালেক্সের ভয়েস সহকারী তাদের ব্যক্তিগত চ্যাট রেকর্ড করেছে এবং তাদের একটি বন্ধুর কাছে পাঠিয়েছে। বাড়ির মালিক, মিডিয়া দ্বারা ড্যানিয়েল নামে পরিচিত, সাংবাদিকদের বলেছিলেন যে তিনি "সেই ডিভাইসটি আর কখনও প্লাগ ইন করবেন না কারণ তাকে বিশ্বাস করা যায় না।"

আলেক্সা, লক্ষ লক্ষ মার্কিন বাড়িতে ইকো (1) স্পিকার এবং অন্যান্য গ্যাজেট দ্বারা সরবরাহ করা, ব্যবহারকারীর দ্বারা বলা তার নাম বা "কল শব্দ" শুনলে রেকর্ডিং শুরু হয়৷ এর মানে হল যে টিভি বিজ্ঞাপনে "আলেক্সা" শব্দটি উল্লেখ করা হলেও, ডিভাইসটি রেকর্ডিং শুরু করতে পারে। হার্ডওয়্যার ডিস্ট্রিবিউটর অ্যামাজন বলছে, এই ক্ষেত্রে ঠিক সেটাই হয়েছে।

"বাকি কথোপকথনটি ভয়েস সহকারী একটি বার্তা পাঠানোর আদেশ হিসাবে ব্যাখ্যা করেছিল," কোম্পানিটি একটি বিবৃতিতে বলেছে। "কিছু সময়ে, আলেক্সা জোরে জিজ্ঞাসা করল: "কার কাছে?" শক্ত কাঠের মেঝে সম্পর্কে পারিবারিক কথোপকথনের ধারাবাহিকতাকে মেশিনটি গ্রাহকের যোগাযোগের তালিকায় একটি আইটেম হিসাবে বিবেচনা করা উচিত ছিল।" অন্তত এমনটাই মনে করছে আমাজন। এইভাবে, অনুবাদটি দুর্ঘটনার একটি সিরিজে হ্রাস পেয়েছে।

দুশ্চিন্তা অবশ্য রয়ে গেছে। কারণ কিছু কারণে, এমন একটি বাড়িতে যেখানে আমরা এখনও স্বাচ্ছন্দ্য বোধ করি, আমাদের একরকম "ভয়েস মোডে" প্রবেশ করতে হবে, আমরা কী বলি, টিভিটি কী সম্প্রচার করছে এবং অবশ্যই, এই নতুন স্পিকারটির বুকে কী আছে তা দেখতে হবে। ড্রয়ার বলে। আমাদের.

যাহোক, প্রযুক্তির অসম্পূর্ণতা এবং গোপনীয়তার উদ্বেগ সত্ত্বেও, অ্যামাজন ইকোর মতো ডিভাইসের জনপ্রিয়তা বৃদ্ধির সাথে, লোকেরা তাদের ভয়েস ব্যবহার করে কম্পিউটারের সাথে ইন্টারঅ্যাক্ট করার ধারণায় অভ্যস্ত হতে শুরু করেছে।.

আমাজনের CTO Werner Vogels, 2017 সালের শেষের দিকে তার AWS re:Invent সেশনের সময় উল্লেখ করেছেন, প্রযুক্তি এখন পর্যন্ত কম্পিউটারের সাথে যোগাযোগ করার আমাদের ক্ষমতাকে সীমিত করেছে। আমরা কীবোর্ড ব্যবহার করে Google-এ কীওয়ার্ড টাইপ করি, কারণ এটি এখনও মেশিনে তথ্য প্রবেশের সবচেয়ে সাধারণ এবং সহজ উপায়।

ভোগেলস বলেছেন। -

বৃহত্ চার

ফোনে Google সার্চ ইঞ্জিন ব্যবহার করার সময়, আমরা সম্ভবত অনেক আগে কথা বলার জন্য একটি কল সহ একটি মাইক্রোফোন চিহ্ন লক্ষ্য করেছি৷ এই খোঁজো (2), যা সার্চ কোয়েরি নির্দেশ করতে, ভয়েস দ্বারা একটি বার্তা লিখতে ইত্যাদি ব্যবহার করা যেতে পারে। সাম্প্রতিক বছরগুলিতে, Google, Apple, এবং Amazon ব্যাপকভাবে উন্নতি করেছে ভয়েস স্বীকৃতি প্রযুক্তি. অ্যালেক্সা, সিরি এবং গুগল অ্যাসিস্ট্যান্টের মতো ভয়েস অ্যাসিস্ট্যান্ট শুধুমাত্র আপনার ভয়েস রেকর্ড করে না, আপনি তাদের কী বলছেন তাও বোঝেন এবং প্রশ্নের উত্তর দেন।

Google Now সমস্ত Android ব্যবহারকারীদের জন্য বিনামূল্যে উপলব্ধ৷ অ্যাপ্লিকেশন, উদাহরণস্বরূপ, একটি অ্যালার্ম সেট করতে পারে, আবহাওয়ার পূর্বাভাস পরীক্ষা করতে পারে এবং Google মানচিত্রের রুটটি পরীক্ষা করতে পারে। Google Now এর কথোপকথনমূলক এক্সটেনশন বলে গুগল সহকারী () - সরঞ্জাম ব্যবহারকারীকে ভার্চুয়াল সহায়তা। এটি মূলত মোবাইল এবং স্মার্ট হোম ডিভাইসে পাওয়া যায়। Google Now এর বিপরীতে, এটি একটি দ্বিমুখী বিনিময়ে অংশগ্রহণ করতে পারে৷ Google মেসেজিং অ্যাপ Allo-এর অংশ হিসেবে, সেইসাথে Google Home ভয়েস স্পিকারের (2016) অংশ হিসেবে সহকারী মে 3-এ আত্মপ্রকাশ করেছিল।

3. গুগল হোমপেজ

আইওএস সিস্টেমের নিজস্ব ভার্চুয়াল সহকারীও রয়েছে, সিরি, যা অ্যাপলের অপারেটিং সিস্টেম iOS, watchOS, tvOS homepod এবং macOS এর সাথে অন্তর্ভুক্ত একটি প্রোগ্রাম। লেটস টক আইফোন কনফারেন্সে 5 সালের অক্টোবরে iOS 4 এবং iPhone 2011s-এর সাথে Siri আত্মপ্রকাশ করে।

সফ্টওয়্যারটি একটি কথোপকথনমূলক ইন্টারফেসের উপর ভিত্তি করে: এটি ব্যবহারকারীর স্বাভাবিক বক্তৃতাকে স্বীকৃতি দেয় (আইওএস 11 এর সাথে ম্যানুয়ালি কমান্ড প্রবেশ করাও সম্ভব), প্রশ্নের উত্তর দেয় এবং কাজগুলি সম্পূর্ণ করে। মেশিন লার্নিং চালু করার জন্য ধন্যবাদ, সময়ের সাথে সাথে একজন সহকারী ব্যক্তিগত পছন্দ বিশ্লেষণ করে ব্যবহারকারী আরো প্রাসঙ্গিক ফলাফল এবং সুপারিশ প্রদান. সিরির একটি ধ্রুবক ইন্টারনেট সংযোগ প্রয়োজন - এখানে তথ্যের প্রধান উৎস হল Bing এবং Wolfram Alpha। iOS 10 তৃতীয় পক্ষের এক্সটেনশনের জন্য সমর্থন চালু করেছে।

বড় চারের আরেকজন কর্টানা. এটি মাইক্রোসফট দ্বারা তৈরি একটি বুদ্ধিমান ব্যক্তিগত সহকারী। এটি Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, এবং iOS প্ল্যাটফর্মে সমর্থিত। Cortana প্রথম সান ফ্রান্সিসকোতে এপ্রিল 2014 এ Microsoft বিল্ড ডেভেলপার কনফারেন্সে প্রবর্তিত হয়েছিল। হ্যালো গেম সিরিজের একটি চরিত্রের নাম থেকে প্রোগ্রামটির নাম এসেছে। Cortana ইংরেজি, ইতালীয়, স্প্যানিশ, ফ্রেঞ্চ, জার্মান, চাইনিজ এবং জাপানি ভাষায় উপলব্ধ।

ইতিমধ্যে উল্লিখিত প্রোগ্রাম ব্যবহারকারীরা আলেক্সা তাদের অবশ্যই ভাষার বিধিনিষেধ বিবেচনা করতে হবে - ডিজিটাল সহকারী শুধুমাত্র ইংরেজি, জার্মান, ফ্রেঞ্চ এবং জাপানিজ কথা বলে।

অ্যামাজন ভার্চুয়াল অ্যাসিস্ট্যান্ট প্রথম অ্যামাজন ইকো এবং অ্যামাজন ল্যাব 126 দ্বারা তৈরি অ্যামাজন ইকো ডট স্মার্ট স্পিকারগুলিতে ব্যবহার করা হয়েছিল। এটি ভয়েস ইন্টারঅ্যাকশন, মিউজিক প্লেব্যাক, করণীয় তালিকা তৈরি, অ্যালার্ম সেটিং, পডকাস্ট স্ট্রিমিং, অডিওবুক প্লেব্যাক এবং রিয়েল-টাইম আবহাওয়া, ট্র্যাফিক, খেলাধুলা এবং অন্যান্য সংবাদ তথ্য যেমন খবর (4) সক্ষম করে। হোম অটোমেশন সিস্টেম তৈরি করতে অ্যালেক্সা একাধিক স্মার্ট ডিভাইস নিয়ন্ত্রণ করতে পারে। এটি অ্যামাজন স্টোরে সুবিধাজনক কেনাকাটা করতেও ব্যবহার করা যেতে পারে।

4. ব্যবহারকারীরা কিসের জন্য ইকো ব্যবহার করেন (গবেষণা অনুসারে)

ব্যবহারকারীরা অ্যালেক্সা "দক্ষতা" (), তৃতীয় পক্ষের দ্বারা তৈরি অতিরিক্ত বৈশিষ্ট্যগুলি ইনস্টল করে অ্যালেক্সা অভিজ্ঞতাকে উন্নত করতে পারে, যা সাধারণত অন্যান্য সেটিংসে আবহাওয়া এবং অডিও প্রোগ্রামের মতো অ্যাপ হিসাবে উল্লেখ করা হয়। বেশিরভাগ অ্যালেক্সা ডিভাইস আপনাকে একটি ওয়েক-আপ পাসওয়ার্ড দিয়ে আপনার ভার্চুয়াল সহকারীকে সক্রিয় করতে দেয়, যাকে বলা হয়।

অ্যামাজন নিশ্চিতভাবে আজ স্মার্ট স্পিকারের বাজারে আধিপত্য বিস্তার করছে (5)। IBM, যেটি মার্চ 2018 সালে একটি নতুন পরিষেবা চালু করেছিল, শীর্ষ চারে প্রবেশ করার চেষ্টা করছে ওয়াটসনের সহকারী, যে কোম্পানিগুলি ভয়েস কন্ট্রোল সহ ভার্চুয়াল সহকারীর নিজস্ব সিস্টেম তৈরি করতে চায় তাদের জন্য ডিজাইন করা হয়েছে৷ আইবিএম সমাধানের সুবিধা কী? কোম্পানির প্রতিনিধিদের মতে, প্রথমত, ব্যক্তিগতকরণ এবং গোপনীয়তা সুরক্ষার জন্য অনেক বেশি সুযোগের উপর।

প্রথমত, ওয়াটসন সহকারী ব্র্যান্ডেড নয়। কোম্পানিগুলি এই প্ল্যাটফর্মে তাদের নিজস্ব সমাধান তৈরি করতে পারে এবং তাদের নিজস্ব ব্র্যান্ডের সাথে লেবেল করতে পারে।

দ্বিতীয়ত, তারা তাদের নিজস্ব ডেটা সেট ব্যবহার করে তাদের সহায়ক সিস্টেমগুলিকে প্রশিক্ষণ দিতে পারে, যা IBM বলে যে অন্যান্য VUI (ভয়েস ইউজার ইন্টারফেস) প্রযুক্তির তুলনায় সেই সিস্টেমে বৈশিষ্ট্য এবং কমান্ড যোগ করা সহজ করে তোলে।

তৃতীয়ত, ওয়াটসন সহকারী আইবিএমকে ব্যবহারকারীর কার্যকলাপ সম্পর্কে তথ্য সরবরাহ করে না - প্ল্যাটফর্মে সমাধানের বিকাশকারীরা কেবল নিজের কাছে মূল্যবান ডেটা রাখতে পারে। ইতিমধ্যে, যে কেউ ডিভাইস তৈরি করে, উদাহরণস্বরূপ আলেক্সার সাথে, তাদের সচেতন হওয়া উচিত যে তাদের মূল্যবান ডেটা আমাজনে শেষ হবে।

ওয়াটসন সহকারীর ইতিমধ্যেই বেশ কয়েকটি বাস্তবায়ন রয়েছে। সিস্টেমটি ব্যবহার করা হয়েছিল, উদাহরণস্বরূপ, হারমান দ্বারা, যা মাসেরটি ধারণা গাড়ির জন্য একটি ভয়েস সহকারী তৈরি করেছিল (6)। মিউনিখ বিমানবন্দরে, একজন আইবিএম সহকারী যাত্রীদের ঘুরে বেড়ানোর জন্য একটি পেপার রোবটকে শক্তি দেয়৷ তৃতীয় উদাহরণ হল ক্যামেলিয়ন টেকনোলজিস, যেখানে একটি স্মার্ট হোম মিটারে ভয়েস প্রযুক্তি ব্যবহার করা হয়।

6. একটি Maserati ধারণা গাড়ী ওয়াটসন সহকারী

এটা যোগ করা উচিত যে এখানে অন্তর্নিহিত প্রযুক্তিটিও নতুন নয়। ওয়াটসন সহকারী বিদ্যমান আইবিএম পণ্য, ওয়াটসন কথোপকথন, এবং ওয়াটসন ভার্চুয়াল এজেন্ট, সেইসাথে ভাষা বিশ্লেষণ এবং চ্যাটের জন্য এপিআইগুলির জন্য এনক্রিপশন ক্ষমতা অন্তর্ভুক্ত করে।

Amazon শুধুমাত্র স্মার্ট ভয়েস প্রযুক্তিতে একটি নেতা নয়, এটি একটি সরাসরি ব্যবসায় পরিণত করছে। যাইহোক, কিছু কোম্পানি অনেক আগে ইকো ইন্টিগ্রেশন নিয়ে পরীক্ষা-নিরীক্ষা করেছে। সিসেন্স, BI এবং বিশ্লেষণ শিল্পের একটি কোম্পানি, জুলাই 2016 এ ইকো ইন্টিগ্রেশন চালু করেছে। পরিবর্তে, স্টার্টআপ রক্সি আতিথেয়তা শিল্পের জন্য ভয়েস নিয়ন্ত্রণ সহ নিজস্ব সফ্টওয়্যার এবং হার্ডওয়্যার তৈরি করার সিদ্ধান্ত নিয়েছে। এই বছরের শুরুর দিকে, Synqq একটি নোট নেওয়ার অ্যাপ চালু করেছে যা কীবোর্ডে টাইপ না করেই নোট এবং ক্যালেন্ডার এন্ট্রি যোগ করতে ভয়েস এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহার করে।

এই ছোট ব্যবসার সব উচ্চ উচ্চাকাঙ্ক্ষা আছে. যাইহোক, বেশিরভাগই, তারা শিখেছে যে প্রত্যেক ব্যবহারকারী তাদের ডেটা অ্যামাজন, গুগল, অ্যাপল বা মাইক্রোসফ্ট-এ স্থানান্তর করতে চায় না, যেগুলি ভয়েস কমিউনিকেশন প্ল্যাটফর্ম তৈরিতে সবচেয়ে গুরুত্বপূর্ণ খেলোয়াড়।

আমেরিকানরা কিনতে চায়

2016 সালে, ভয়েস অনুসন্ধান সমস্ত Google মোবাইল অনুসন্ধানের 20% এর জন্য দায়ী। যারা দৈনিক ভিত্তিতে এই প্রযুক্তি ব্যবহার করে তারা এর সুবিধা এবং মাল্টিটাস্কিং এর সবচেয়ে বড় সুবিধাগুলির মধ্যে উল্লেখ করে। (উদাহরণস্বরূপ, গাড়ি চালানোর সময় সার্চ ইঞ্জিন ব্যবহার করার ক্ষমতা)।

Visiongain বিশ্লেষকরা স্মার্ট ডিজিটাল অ্যাসিস্ট্যান্টের বর্তমান বাজার মূল্য $1,138 বিলিয়ন অনুমান করেছেন৷ এই ধরনের আরও অনেকগুলি প্রক্রিয়া রয়েছে৷ গার্টনারের মতে, 2018 সালের শেষের দিকে ইতিমধ্যেই আমাদের মিথস্ক্রিয়াগুলির 30% প্রযুক্তির সাথে ভয়েস সিস্টেমের সাথে কথোপকথনের মাধ্যমে হবে।

ব্রিটিশ গবেষণা সংস্থা আইএইচএস মার্কিট অনুমান করেছে যে এআই-চালিত ডিজিটাল সহকারীর বাজার এই বছরের শেষ নাগাদ 4 বিলিয়ন ডিভাইসে পৌঁছে যাবে এবং সেই সংখ্যা 2020 সালের মধ্যে 7 বিলিয়ন হতে পারে।

eMarketer এবং VoiceLabs-এর রিপোর্ট অনুসারে, 2017 মিলিয়ন আমেরিকান 35,6 সালে মাসে অন্তত একবার ভয়েস নিয়ন্ত্রণ ব্যবহার করেছিল। এর মানে গত বছরের তুলনায় প্রায় 130% বৃদ্ধি। শুধুমাত্র ডিজিটাল সহকারী বাজার 2018 সালে 23% বৃদ্ধি পাবে বলে আশা করা হচ্ছে। এর মানে হল যে আপনি ইতিমধ্যে সেগুলি ব্যবহার করবেন। 60,5 মিলিয়ন আমেরিকান, যার ফলে তাদের প্রযোজকদের জন্য কংক্রিট অর্থ হবে। RBC ক্যাপিটাল মার্কেটস অনুমান করে যে আলেক্সা ইন্টারফেস 2020 সালের মধ্যে Amazon-এর জন্য $10 বিলিয়ন পর্যন্ত রাজস্ব তৈরি করবে।

ধোয়া, বেক, পরিষ্কার!

ভয়েস ইন্টারফেসগুলি ক্রমবর্ধমান সাহসের সাথে বাড়ির যন্ত্রপাতি এবং ভোক্তা ইলেকট্রনিক্স বাজারে প্রবেশ করছে। এটি ইতিমধ্যেই গত বছরের IFA 2017 প্রদর্শনীর সময় দেখা গেছে৷ আমেরিকান কোম্পানি Neato Robotics প্রবর্তন করেছে, উদাহরণস্বরূপ, একটি রোবট ভ্যাকুয়াম ক্লিনার যা Amazon Echo সিস্টেম সহ বেশ কয়েকটি স্মার্ট হোম প্ল্যাটফর্মের একটিতে সংযোগ করে৷ ইকো স্মার্ট স্পিকারের সাথে কথা বলে, আপনি মেশিনটিকে দিন বা রাতে নির্দিষ্ট সময়ে আপনার পুরো ঘর পরিষ্কার করার নির্দেশ দিতে পারেন।

তুর্কি কোম্পানি ভেস্টেলের তোশিবা ব্র্যান্ডের অধীনে বিক্রি হওয়া স্মার্ট টিভি থেকে শুরু করে জার্মান কোম্পানি বিউরারের গরম কম্বল পর্যন্ত অন্যান্য ভয়েস-অ্যাক্টিভেটেড পণ্যগুলি শোতে প্রদর্শিত হয়েছিল। এই ইলেকট্রনিক ডিভাইসগুলির অনেকগুলি স্মার্টফোন ব্যবহার করে দূরবর্তীভাবে সক্রিয় করা যেতে পারে।

যাইহোক, বশ প্রতিনিধিদের মতে, হোম সহকারী বিকল্পগুলির মধ্যে কোনটি প্রভাবশালী হয়ে উঠবে তা বলা খুব তাড়াতাড়ি। IFA 2017-এ, একটি জার্মান কারিগরি গোষ্ঠী ওয়াশিং মেশিন (7), ওভেন এবং কফি মেশিনগুলি প্রদর্শন করেছে যা ইকোর সাথে সংযুক্ত। Bosch এছাড়াও তার ডিভাইসগুলি ভবিষ্যতে Google এবং Apple ভয়েস প্ল্যাটফর্মের সাথে সামঞ্জস্যপূর্ণ হতে চায়।

7. Bosch ওয়াশিং মেশিন যা Amazon Echo এর সাথে সংযোগ করে

Fujitsu, Sony এবং Panasonic-এর মতো কোম্পানিগুলি তাদের নিজস্ব AI-ভিত্তিক ভয়েস সহকারী সমাধান তৈরি করছে। শার্প ওভেন এবং বাজারে প্রবেশ করা ছোট রোবটে এই প্রযুক্তি যুক্ত করছে। নিপ্পন টেলিগ্রাফ অ্যান্ড টেলিফোন একটি ভয়েস-নিয়ন্ত্রিত কৃত্রিম বুদ্ধিমত্তা সিস্টেমকে মানিয়ে নিতে হার্ডওয়্যার এবং খেলনা নির্মাতাদের নিয়োগ করছে৷

পুরানো ধারণা। তার সময় কি অবশেষে এসেছে?

আসলে, ভয়েস ইউজার ইন্টারফেস (VUI) ধারণাটি কয়েক দশক ধরে চলে আসছে। যে কেউ স্টার ট্রেক বা 2001: এ স্পেস ওডিসি কয়েক বছর আগে দেখেছেন তারা সম্ভবত আশা করেছিলেন যে 2000 সালের দিকে আমরা সবাই আমাদের ভয়েস দিয়ে কম্পিউটার নিয়ন্ত্রণ করব। এছাড়াও, শুধুমাত্র বিজ্ঞান কথাসাহিত্যিকরাই এই ধরনের ইন্টারফেসের সম্ভাব্যতা দেখেননি। 1986 সালে, নিলসেন গবেষকরা আইটি পেশাদারদের জিজ্ঞাসা করেছিলেন যে তারা 2000 সালের মধ্যে ব্যবহারকারী ইন্টারফেসে সবচেয়ে বড় পরিবর্তন হবে বলে মনে করেন। তারা প্রায়শই ভয়েস ইন্টারফেসের বিকাশের দিকে নির্দেশ করে।

এই ধরনের সমাধান আশা করার কারণ আছে। সর্বোপরি, মৌখিক যোগাযোগ হল মানুষের সচেতনভাবে চিন্তা বিনিময় করার সবচেয়ে স্বাভাবিক উপায়, তাই এটিকে মানব-মেশিন মিথস্ক্রিয়া করার জন্য ব্যবহার করা এখন পর্যন্ত সেরা সমাধান বলে মনে হচ্ছে।

প্রথম VUIs এক, বলা হয় জুতার বাক্স, IBM দ্বারা 60 এর দশকের গোড়ার দিকে তৈরি করা হয়েছিল। এটি ছিল আজকের ভয়েস রিকগনিশন সিস্টেমের অগ্রদূত। যাইহোক, VUI ডিভাইসের বিকাশ কম্পিউটিং শক্তির সীমা দ্বারা সীমাবদ্ধ ছিল। রিয়েল টাইমে মানুষের বক্তৃতা পার্সিং এবং ব্যাখ্যা করার জন্য অনেক প্রচেষ্টার প্রয়োজন, এবং এটি বাস্তবে যেখানে সম্ভব হয়েছে সেখানে পৌঁছতে পঞ্চাশ বছরেরও বেশি সময় লেগেছে।

একটি ভয়েস ইন্টারফেস সহ ডিভাইসগুলি 90 এর দশকের মাঝামাঝি সময়ে ব্যাপক উত্পাদনে উপস্থিত হতে শুরু করে, কিন্তু জনপ্রিয়তা অর্জন করেনি। ভয়েস কন্ট্রোল (ডায়ালিং) সহ প্রথম টেলিফোন ছিল ফিলিপস স্পার্ক1996 সালে মুক্তি পায়। যাইহোক, এই উদ্ভাবনী এবং সহজে ব্যবহারযোগ্য ডিভাইসটি প্রযুক্তিগত সীমাবদ্ধতা থেকে মুক্ত ছিল না।

ভয়েস ইন্টারফেসের ফর্মগুলির সাথে সজ্জিত অন্যান্য ফোনগুলি (আরআইএম, স্যামসাং বা মটোরোলার মতো সংস্থাগুলি দ্বারা তৈরি) নিয়মিত বাজারে আসে, ব্যবহারকারীদের ভয়েস দ্বারা ডায়াল করতে বা পাঠ্য বার্তা পাঠাতে দেয়৷ তবে তাদের সকলের জন্য নির্দিষ্ট কমান্ডগুলি মুখস্থ করা এবং সেগুলিকে জোরপূর্বক, কৃত্রিম আকারে উচ্চারণ করা প্রয়োজন, যা সেই সময়ের ডিভাইসগুলির ক্ষমতার সাথে খাপ খাইয়ে নেওয়া হয়েছিল। এটি প্রচুর পরিমাণে ত্রুটি তৈরি করেছে, যা ব্যবহারকারীদের অসন্তোষের দিকে নিয়ে গেছে।

যাইহোক, আমরা এখন কম্পিউটিংয়ের একটি নতুন যুগে প্রবেশ করছি, যেখানে মেশিন লার্নিংয়ের অগ্রগতি এবং কৃত্রিম বুদ্ধিমত্তার বিকাশ প্রযুক্তির সাথে যোগাযোগ করার একটি নতুন উপায় হিসাবে কথোপকথনের সম্ভাবনাকে আনলক করছে (8)। ভয়েস মিথস্ক্রিয়াকে সমর্থন করে এমন ডিভাইসের সংখ্যা একটি গুরুত্বপূর্ণ ফ্যাক্টর হয়ে উঠেছে যা VUI এর বিকাশে একটি বড় প্রভাব ফেলেছে। আজ, বিশ্বের জনসংখ্যার প্রায় 1/3 ইতিমধ্যেই স্মার্টফোনের মালিক যা এই ধরনের আচরণের জন্য ব্যবহার করা যেতে পারে। দেখে মনে হচ্ছে বেশিরভাগ ব্যবহারকারী অবশেষে তাদের ভয়েস ইন্টারফেস মানিয়ে নিতে প্রস্তুত।

8. ভয়েস ইন্টারফেসের বিকাশের আধুনিক ইতিহাস

যাইহোক, আমরা একটি কম্পিউটারে অবাধে কথা বলতে পারার আগে, যেমন এ স্পেস ওডিসির নায়করা করেছিলেন, আমাদের অবশ্যই বেশ কয়েকটি সমস্যা কাটিয়ে উঠতে হবে। যন্ত্রগুলি এখনও ভাষাগত সূক্ষ্মতাগুলি পরিচালনা করতে খুব ভাল নয়। এছাড়া অনেক লোক এখনও সার্চ ইঞ্জিনে ভয়েস কমান্ড দিতে অস্বস্তি বোধ করে.

পরিসংখ্যান দেখায় যে ভয়েস সহকারী প্রাথমিকভাবে বাড়িতে বা ঘনিষ্ঠ বন্ধুদের মধ্যে ব্যবহৃত হয়। যাদের সাক্ষাৎকার নেওয়া হয়েছে তাদের কেউই পাবলিক প্লেসে ভয়েস সার্চ ব্যবহার করার কথা স্বীকার করেননি। তবে এই প্রযুক্তির প্রসারে এই অবরোধ বিলুপ্ত হওয়ার সম্ভাবনা রয়েছে।

প্রযুক্তিগতভাবে কঠিন প্রশ্ন

সিস্টেম (ASR) যে সমস্যাটির মুখোমুখি হয় তা হল একটি স্পিচ সিগন্যাল থেকে দরকারী ডেটা বের করা এবং এটিকে একটি নির্দিষ্ট শব্দের সাথে যুক্ত করা যার একটি নির্দিষ্ট অর্থ রয়েছে৷ উত্পাদিত শব্দ প্রতিটি সময় ভিন্ন হয়.

বক্তৃতা সংকেত পরিবর্তনশীলতা এটি এর প্রাকৃতিক সম্পত্তি, যার জন্য আমরা, উদাহরণস্বরূপ, একটি উচ্চারণ বা স্বর চিনতে পারি। বক্তৃতা শনাক্তকরণ সিস্টেমের প্রতিটি উপাদানের একটি নির্দিষ্ট কাজ আছে। প্রক্রিয়াকৃত সংকেত এবং এর পরামিতিগুলির উপর ভিত্তি করে, একটি শাব্দ মডেল তৈরি করা হয়, যা ভাষার মডেলের সাথে যুক্ত। শনাক্তকরণ সিস্টেমটি ছোট বা বড় সংখ্যক প্যাটার্নের ভিত্তিতে কাজ করতে পারে, যা এটি যে শব্দভান্ডারের সাথে কাজ করে তার আকার নির্ধারণ করে। তারা হতে পারে ছোট অভিধান সিস্টেমের ক্ষেত্রে যেগুলি পৃথক শব্দ বা আদেশগুলিকে স্বীকৃতি দেয়, সেইসাথে বড় ডাটাবেস ভাষা সেটের সমতুল্য ধারণ করে এবং ভাষা মডেল (ব্যাকরণ) বিবেচনা করে।

প্রথম স্থানে ভয়েস ইন্টারফেস দ্বারা সম্মুখীন সমস্যা বক্তৃতা সঠিকভাবে বুঝতে, যেখানে, উদাহরণস্বরূপ, সমগ্র ব্যাকরণগত ক্রমগুলি প্রায়শই বাদ দেওয়া হয়, ভাষাগত এবং ধ্বনিগত ত্রুটি, ত্রুটি, বাদ দেওয়া, বক্তৃতা ত্রুটি, সমতুল্য শব্দ, অযৌক্তিক পুনরাবৃত্তি ইত্যাদি ঘটে। এই সমস্ত ACP সিস্টেমগুলিকে দ্রুত এবং নির্ভরযোগ্যভাবে কাজ করতে হবে। অন্তত সেসব প্রত্যাশা।

অসুবিধার উত্স হল স্বীকৃত বক্তৃতা ব্যতীত অন্যান্য শাব্দ সংকেত যা স্বীকৃতি সিস্টেমের ইনপুট প্রবেশ করে, যেমন সব ধরণের হস্তক্ষেপ এবং গোলমাল. সহজ ক্ষেত্রে, আপনি তাদের প্রয়োজন আলাদা করা. এই কাজটি রুটিন এবং সহজ বলে মনে হচ্ছে - সর্বোপরি, বিভিন্ন সংকেত ফিল্টার করা হয় এবং প্রতিটি ইলেকট্রনিক্স প্রকৌশলী জানেন যে এমন পরিস্থিতিতে কী করতে হবে। যাইহোক, এটি অবশ্যই খুব সাবধানে এবং সাবধানতার সাথে করা উচিত যদি বক্তৃতা স্বীকৃতির ফলাফল আমাদের প্রত্যাশা পূরণ করে।

বর্তমানে ব্যবহৃত ফিল্টারিং স্পিচ সিগন্যালের সাথে, মাইক্রোফোনের দ্বারা তোলা বাহ্যিক শব্দ এবং স্পিচ সিগন্যালের অভ্যন্তরীণ বৈশিষ্ট্যগুলিকে অপসারণ করা সম্ভব করে তোলে, যা এটি সনাক্ত করা কঠিন করে তোলে। যাইহোক, একটি আরও জটিল প্রযুক্তিগত সমস্যা দেখা দেয় যখন বিশ্লেষণকৃত বক্তৃতা সংকেতে হস্তক্ষেপ হয় ... অন্য একটি বক্তৃতা সংকেত, যেটি, উদাহরণস্বরূপ, চারপাশে জোরে আলোচনা। এই প্রশ্নটি সাহিত্যে তথাকথিত হিসাবে পরিচিত। এটি ইতিমধ্যে জটিল পদ্ধতির ব্যবহার প্রয়োজন, তথাকথিত। deconvolution (উন্মোচন) সংকেত।

বক্তৃতা সনাক্তকরণের সমস্যাগুলি সেখানে শেষ হয় না। এটি উপলব্ধি করার মতো যে বক্তৃতা বিভিন্ন ধরণের তথ্য বহন করে। মানুষের কণ্ঠস্বর লিঙ্গ, বয়স, মালিকের বিভিন্ন চরিত্র বা তার স্বাস্থ্যের অবস্থা নির্দেশ করে। বায়োমেডিকেল ইঞ্জিনিয়ারিংয়ের একটি বিস্তৃত বিভাগ রয়েছে যা বক্তৃতা সংকেতে পাওয়া চারিত্রিক অ্যাকোস্টিক ঘটনার উপর ভিত্তি করে বিভিন্ন রোগের নির্ণয়ের সাথে কাজ করে।

এমন কিছু অ্যাপ্লিকেশনও রয়েছে যেখানে স্পীচ সিগন্যালের অ্যাকোস্টিক বিশ্লেষণের মূল উদ্দেশ্য হল স্পিকারকে শনাক্ত করা বা তিনি যাকে দাবি করেন তা যাচাই করা (কী, পাসওয়ার্ড বা PUK কোডের পরিবর্তে ভয়েস)। এটি গুরুত্বপূর্ণ হতে পারে, বিশেষ করে স্মার্ট বিল্ডিং প্রযুক্তির জন্য।

স্পিচ রিকগনিশন সিস্টেমের প্রথম উপাদান হল একটি মাইক্রোফোন. যাইহোক, মাইক্রোফোন দ্বারা বাছাই করা সংকেত সাধারণত খুব কমই কাজে লাগে। অধ্যয়নগুলি দেখায় যে শব্দ তরঙ্গের আকার এবং গতিপথ ব্যক্তি, বক্তৃতার গতি এবং আংশিকভাবে কথোপকথনের মেজাজের উপর নির্ভর করে ব্যাপকভাবে পরিবর্তিত হয় - যদিও অল্প পরিমাণে তারা কথ্য আদেশের বিষয়বস্তুকে প্রতিফলিত করে।

অতএব, সংকেত সঠিকভাবে প্রক্রিয়া করা আবশ্যক. আধুনিক ধ্বনিবিদ্যা, ধ্বনিতত্ত্ব এবং কম্পিউটার বিজ্ঞান একসাথে একটি সমৃদ্ধ সরঞ্জাম সরবরাহ করে যা একটি বক্তৃতা সংকেত প্রক্রিয়া, বিশ্লেষণ, চিনতে এবং বুঝতে ব্যবহার করা যেতে পারে। সংকেতের গতিশীল বর্ণালী, তথাকথিত গতিশীল বর্ণালীগ্রাম. এগুলি প্রাপ্ত করা মোটামুটি সহজ, এবং একটি গতিশীল বর্ণালীগ্রামের আকারে উপস্থাপিত বক্তৃতা চিত্র শনাক্তকরণে ব্যবহৃত কৌশলগুলির মতো কৌশলগুলি ব্যবহার করে সনাক্ত করা তুলনামূলকভাবে সহজ।

বক্তৃতার সহজ উপাদানগুলি (উদাহরণস্বরূপ, কমান্ড) সম্পূর্ণ বর্ণালীগ্রামের সাধারণ সাদৃশ্য দ্বারা স্বীকৃত হতে পারে। উদাহরণস্বরূপ, একটি ভয়েস-অ্যাক্টিভেটেড মোবাইল ফোন অভিধানে মাত্র কয়েক দশ থেকে কয়েকশ শব্দ এবং বাক্যাংশ থাকে, সাধারণত আগে থেকে স্ট্যাক করা থাকে যাতে সেগুলি সহজে এবং দক্ষতার সাথে সনাক্ত করা যায়। এটি সাধারণ নিয়ন্ত্রণ কাজের জন্য যথেষ্ট, তবে এটি সামগ্রিক প্রয়োগকে মারাত্মকভাবে সীমাবদ্ধ করে। স্কিম অনুযায়ী নির্মিত সিস্টেমগুলি, একটি নিয়ম হিসাবে, শুধুমাত্র নির্দিষ্ট স্পিকার সমর্থন করে যার জন্য ভয়েসগুলি বিশেষভাবে প্রশিক্ষিত হয়। তাই যদি নতুন কেউ থাকে যারা সিস্টেম নিয়ন্ত্রণ করতে তাদের ভয়েস ব্যবহার করতে চায়, তবে সম্ভবত তারা গ্রহণ করা হবে না।

এই অপারেশনের ফলাফল বলা হয় 2-ওয়াট স্পেকট্রোগ্রাম, অর্থাৎ একটি দ্বি-মাত্রিক বর্ণালী। এই ব্লকে আরও একটি ক্রিয়াকলাপ রয়েছে যা মনোযোগ দেওয়ার মতো - বিভাজন. সাধারণভাবে বলতে গেলে, আমরা একটি অবিচ্ছিন্ন বক্তৃতা সংকেতকে এমন অংশে ভাগ করার কথা বলছি যা আলাদাভাবে স্বীকৃত হতে পারে। এটি শুধুমাত্র এই স্বতন্ত্র নির্ণয়ের থেকে যে সমগ্র স্বীকৃতি গঠিত হয়। এই পদ্ধতিটি প্রয়োজনীয় কারণ এটি একটি দীর্ঘ এবং জটিল বক্তৃতা একবারে সনাক্ত করা সম্ভব নয়। স্পিচ সিগন্যালে কোন সেগমেন্টগুলিকে আলাদা করতে হবে সে সম্পর্কে পুরো ভলিউমগুলি ইতিমধ্যেই লেখা হয়েছে, তাই আমরা এখনই সিদ্ধান্ত নেব না যে বিশিষ্ট বিভাগগুলি ধ্বনি (ধ্বনির সমতুল্য), সিলেবল বা অ্যালোফোন হতে হবে।

স্বয়ংক্রিয় স্বীকৃতির প্রক্রিয়া সবসময় বস্তুর কিছু বৈশিষ্ট্য বোঝায়। স্পিচ সিগন্যালের জন্য বিভিন্ন প্যারামিটারের শত শত সেট পরীক্ষা করা হয়েছে স্বীকৃত ফ্রেমে বিভক্ত এবং থাকা নির্বাচিত বৈশিষ্ট্যযেখানে এই ফ্রেমগুলিকে স্বীকৃতি প্রক্রিয়ায় উপস্থাপন করা হয়, আমরা সম্পাদন করতে পারি (প্রতিটি ফ্রেমের জন্য আলাদাভাবে) শ্রেণিবিন্যাস, অর্থাৎ ফ্রেমে একটি শনাক্তকারী বরাদ্দ করা, যা ভবিষ্যতে এটিকে প্রতিনিধিত্ব করবে।

পরবর্তী পর্যায়ে পৃথক শব্দে ফ্রেমের সমাবেশ - প্রায়শই তথাকথিত উপর ভিত্তি করে। অন্তর্নিহিত মার্কভ মডেলের মডেল (HMM-)। তারপর শব্দের montage আসে পূর্ণ বাক্য.

আমরা এখন কিছুক্ষণের জন্য আলেক্সা সিস্টেমে ফিরে যেতে পারি। তার উদাহরণটি একজন ব্যক্তির মেশিন "বোঝার" একটি বহু-পর্যায়ের প্রক্রিয়া দেখায় - আরও সঠিকভাবে: তার দ্বারা প্রদত্ত একটি আদেশ বা জিজ্ঞাসা করা প্রশ্ন।

শব্দ বোঝা, অর্থ বোঝা এবং ব্যবহারকারীর অভিপ্রায় বোঝা সম্পূর্ণ ভিন্ন জিনিস।

অতএব, পরবর্তী ধাপ হল NLP মডিউলের কাজ (), যার কাজ হল ব্যবহারকারীর অভিপ্রায় স্বীকৃতি, অর্থাৎ যে প্রেক্ষাপটে এটি উচ্চারিত হয়েছিল সেখানে কমান্ড/প্রশ্নের অর্থ। যদি অভিপ্রায় শনাক্ত হয়, তাহলে তথাকথিত দক্ষতা এবং ক্ষমতার নিয়োগ, অর্থাৎ স্মার্ট সহকারী দ্বারা সমর্থিত নির্দিষ্ট বৈশিষ্ট্য। আবহাওয়া সম্পর্কে একটি প্রশ্নের ক্ষেত্রে, আবহাওয়ার ডেটা উত্সগুলিকে বলা হয়, যা বক্তৃতায় প্রক্রিয়া করা বাকি থাকে (টিটিএস - প্রক্রিয়া)। ফলস্বরূপ, ব্যবহারকারী জিজ্ঞাসা করা প্রশ্নের উত্তর শোনেন।

ভয়েস? ড্রয়িং? অথবা হয়তো উভয়?

সর্বাধিক পরিচিত আধুনিক মিথস্ক্রিয়া ব্যবস্থা একটি মধ্যস্থতাকারীর উপর ভিত্তি করে বলা হয় গ্রাফিক্যাল ইউজার ইন্টারফেস (গ্রাফিকাল ইন্টারফেস). দুর্ভাগ্যবশত, GUI একটি ডিজিটাল পণ্যের সাথে যোগাযোগ করার সবচেয়ে সুস্পষ্ট উপায় নয়। এর জন্য ব্যবহারকারীদের প্রথমে ইন্টারফেসটি কীভাবে ব্যবহার করতে হয় তা শিখতে হবে এবং পরবর্তী প্রতিটি ইন্টারঅ্যাকশনের সাথে এই তথ্যটি মনে রাখতে হবে। অনেক পরিস্থিতিতে, ভয়েস অনেক বেশি সুবিধাজনক, কারণ আপনি ডিভাইসের সাথে কথা বলে VUI এর সাথে যোগাযোগ করতে পারেন। একটি ইন্টারফেস যা ব্যবহারকারীদের কিছু কমান্ড বা মিথস্ক্রিয়া পদ্ধতিগুলি মুখস্থ করতে এবং মুখস্থ করতে বাধ্য করে না, কম সমস্যা সৃষ্টি করে।

অবশ্যই, VUI-এর সম্প্রসারণের অর্থ আরও ঐতিহ্যবাহী ইন্টারফেস ত্যাগ করা নয় - বরং, হাইব্রিড ইন্টারফেসগুলি উপলব্ধ হবে যা ইন্টারঅ্যাক্ট করার বিভিন্ন উপায়কে একত্রিত করবে।

ভয়েস ইন্টারফেস একটি মোবাইল প্রসঙ্গে সমস্ত কাজের জন্য উপযুক্ত নয়। এটির সাহায্যে, আমরা গাড়ি চালানোর বন্ধুকে কল করব এবং এমনকি তাকে একটি এসএমএস পাঠাব, তবে সর্বশেষ স্থানান্তরগুলি পরীক্ষা করা খুব কঠিন হতে পারে - সিস্টেমে () এবং সিস্টেম (সিস্টেম) দ্বারা উত্পন্ন তথ্যের পরিমাণের কারণে। রাচেল হিনম্যান তার মোবাইল ফ্রন্টিয়ার বইতে পরামর্শ দিয়েছেন, যেখানে ইনপুট এবং আউটপুট তথ্যের পরিমাণ কম সেখানে কাজগুলি সম্পাদন করার সময় VUI ব্যবহার করা সবচেয়ে কার্যকর হয়ে ওঠে।

ইন্টারনেটের সাথে সংযুক্ত একটি স্মার্টফোন সুবিধাজনক কিন্তু অসুবিধাজনক (9)। প্রতিবার যখনই একজন ব্যবহারকারী কিছু কিনতে বা একটি নতুন পরিষেবা ব্যবহার করতে চান, তাদের অন্য একটি অ্যাপ ডাউনলোড করতে হবে এবং একটি নতুন অ্যাকাউন্ট তৈরি করতে হবে। ভয়েস ইন্টারফেসের ব্যবহার এবং বিকাশের জন্য একটি ক্ষেত্র এখানে তৈরি করা হয়েছে। ব্যবহারকারীদের অনেকগুলি বিভিন্ন অ্যাপ ইনস্টল করতে বা প্রতিটি পরিষেবার জন্য পৃথক অ্যাকাউন্ট তৈরি করতে বাধ্য করার পরিবর্তে, বিশেষজ্ঞরা বলছেন যে VUI এই জটিল কাজের বোঝা একটি AI-চালিত ভয়েস সহকারীর কাছে স্থানান্তরিত করবে। কঠোর কার্যক্রম পরিচালনা করা তার পক্ষে সুবিধাজনক হবে। আমরা কেবল তাকে আদেশ দেব।

9. স্মার্ট ফোনের মাধ্যমে ভয়েস ইন্টারফেস

আজ, শুধুমাত্র একটি ফোন এবং একটি কম্পিউটার ইন্টারনেটের সাথে সংযুক্ত। স্মার্ট থার্মোস্ট্যাট, লাইট, কেটল এবং অন্যান্য অনেক আইওটি-ইন্টিগ্রেটেড ডিভাইসগুলিও নেটওয়ার্কের সাথে সংযুক্ত রয়েছে (10)। এইভাবে, আমাদের চারপাশে ওয়্যারলেস ডিভাইস রয়েছে যা আমাদের জীবনকে পূর্ণ করে, কিন্তু সেগুলি সবই স্বাভাবিকভাবে গ্রাফিকাল ইউজার ইন্টারফেসে মানায় না। VUI ব্যবহার করা আপনাকে আমাদের পরিবেশে সহজে একত্রিত করতে সাহায্য করবে।

10. জিনিসের ইন্টারনেটের সাথে ভয়েস ইন্টারফেস

একটি ভয়েস ব্যবহারকারী ইন্টারফেস তৈরি করা শীঘ্রই একটি মূল ডিজাইনার দক্ষতা হয়ে উঠবে। এটি একটি বাস্তব সমস্যা - ভয়েস সিস্টেমগুলি বাস্তবায়নের প্রয়োজনীয়তা আপনাকে সক্রিয় ডিজাইনের উপর আরও ফোকাস করতে উত্সাহিত করবে, অর্থাৎ, ব্যবহারকারীর প্রাথমিক উদ্দেশ্যগুলি বোঝার চেষ্টা করা, কথোপকথনের প্রতিটি পর্যায়ে তাদের চাহিদা এবং প্রত্যাশাগুলি অনুমান করা।

ভয়েস হল ডেটা প্রবেশের একটি কার্যকর উপায়—এটি ব্যবহারকারীদের তাদের নিজস্ব শর্তে সিস্টেমে দ্রুত কমান্ড জারি করতে দেয়। অন্যদিকে, স্ক্রীন তথ্য প্রদর্শনের একটি কার্যকর উপায় প্রদান করে: এটি সিস্টেমগুলিকে একই সময়ে প্রচুর পরিমাণে তথ্য প্রদর্শন করতে দেয়, ব্যবহারকারীদের মেমরির উপর বোঝা কমিয়ে দেয়। এটা যৌক্তিক যে তাদের একটি সিস্টেমে একত্রিত করা উৎসাহজনক বলে মনে হয়।

অ্যামাজন ইকো এবং গুগল হোমের মতো স্মার্ট স্পিকারগুলি মোটেও ভিজ্যুয়াল ডিসপ্লে অফার করে না। মাঝারি দূরত্বে ভয়েস শনাক্তকরণের যথার্থতা উল্লেখযোগ্যভাবে উন্নত করে, তারা হ্যান্ডস-ফ্রি অপারেশনের অনুমতি দেয়, যার ফলে তাদের নমনীয়তা এবং দক্ষতা বৃদ্ধি পায় - এমনকি যে ব্যবহারকারীদের কাছে ইতিমধ্যেই ভয়েস কন্ট্রোল সহ স্মার্টফোন রয়েছে তাদের জন্যও এটি কাম্য। যাইহোক, পর্দার অভাব একটি বিশাল সীমাবদ্ধতা।

শুধুমাত্র বীপ ব্যবহার করা যেতে পারে সম্ভাব্য কমান্ড সম্পর্কে ব্যবহারকারীদের জানানোর জন্য, এবং আউটপুট উচ্চস্বরে পড়া খুব বেসিক কাজ ব্যতীত ক্লান্তিকর হয়ে ওঠে। রান্না করার সময় ভয়েস কমান্ড সহ একটি টাইমার সেট করা দুর্দান্ত, তবে আপনাকে কতটা সময় বাকি আছে তা জিজ্ঞাসা করার দরকার নেই। নিয়মিত আবহাওয়ার পূর্বাভাস পাওয়া ব্যবহারকারীর জন্য স্মৃতির পরীক্ষা হয়ে দাঁড়ায়, যাকে এক নজরে স্ক্রীন থেকে তুলে ধরার পরিবর্তে সারা সপ্তাহ ধরে অনেকগুলি তথ্য শুনতে এবং শোষণ করতে হয়।

ডিজাইনাররা ইতিমধ্যেই হাইব্রিড সমাধান, ইকো শো (11), যা মৌলিক ইকো স্মার্ট স্পিকারের সাথে একটি ডিসপ্লে স্ক্রিন যুক্ত করেছে। এটি সরঞ্জামের কার্যকারিতা ব্যাপকভাবে প্রসারিত করে। যাইহোক, ইকো শো এখনও স্মার্টফোন এবং ট্যাবলেটগুলিতে উপলব্ধ মৌলিক ফাংশনগুলি সম্পাদন করতে অনেক কম সক্ষম। এটি (এখনও) ওয়েব সার্ফ করতে পারে না, রিভিউ দেখাতে পারে না বা অ্যামাজন শপিং কার্টের বিষয়বস্তু প্রদর্শন করতে পারে না, উদাহরণস্বরূপ।

একটি ভিজ্যুয়াল ডিসপ্লে সহজাতভাবে লোকেদের কেবল শব্দের চেয়ে প্রচুর তথ্য সরবরাহ করার আরও কার্যকর উপায়। ভয়েস অগ্রাধিকারের সাথে ডিজাইন করা ভয়েস ইন্টারঅ্যাকশনকে ব্যাপকভাবে উন্নত করতে পারে, তবে দীর্ঘমেয়াদে, মিথস্ক্রিয়া করার জন্য নির্বিচারে ভিজ্যুয়াল মেনু ব্যবহার না করা আপনার পিঠের পিছনে এক হাত বেঁধে লড়াইয়ের মতো হবে। এন্ড-টু-এন্ড ইন্টেলিজেন্ট ভয়েস এবং ডিসপ্লে ইন্টারফেসের জটিলতার কারণে, বিকাশকারীদের ইন্টারফেসের জন্য একটি হাইব্রিড পদ্ধতির গুরুত্ব সহকারে বিবেচনা করা উচিত।

বক্তৃতা তৈরি এবং স্বীকৃতি সিস্টেমের দক্ষতা এবং গতি বৃদ্ধির ফলে এগুলিকে এই ধরনের অ্যাপ্লিকেশন এবং এলাকায় ব্যবহার করা সম্ভব হয়েছে, যেমন:

• সামরিক (বিমান বা হেলিকপ্টারে ভয়েস কমান্ড, উদাহরণস্বরূপ, F16 VISTA),

• স্বয়ংক্রিয় পাঠ্য প্রতিলিপি (বক্তৃতা থেকে পাঠ্য),

• ইন্টারেক্টিভ ইনফরমেশন সিস্টেম (প্রাইম স্পিচ, ভয়েস পোর্টাল),

• মোবাইল ডিভাইস (ফোন, স্মার্টফোন, ট্যাবলেট),

• রোবোটিক্স (Cleverbot - ASR সিস্টেম কৃত্রিম বুদ্ধিমত্তার সাথে মিলিত),

• স্বয়ংচালিত (গাড়ির উপাদানগুলির হ্যান্ডস-ফ্রি নিয়ন্ত্রণ, যেমন নীল এবং আমার),

• হোম অ্যাপ্লিকেশন (স্মার্ট হোম সিস্টেম)।

নিরাপত্তার জন্য সতর্ক থাকুন!

স্বয়ংচালিত, হোম অ্যাপ্লায়েন্সেস, হিটিং/কুলিং এবং হোম সিকিউরিটি সিস্টেম এবং হোম অ্যাপ্লায়েন্সের একটি হোস্ট ভয়েস ইন্টারফেস ব্যবহার করতে শুরু করেছে, প্রায়ই AI-ভিত্তিক। এই পর্যায়ে, মেশিনের সাথে লক্ষ লক্ষ কথোপকথন থেকে প্রাপ্ত ডেটা পাঠানো হয় কম্পিউটিং মেঘ. এটা স্পষ্ট যে বিপণনকারীরা তাদের প্রতি আগ্রহী। এবং শুধু তাদের নয়।

Symantec নিরাপত্তা বিশেষজ্ঞদের সাম্প্রতিক একটি প্রতিবেদনে সুপারিশ করা হয়েছে যে ভয়েস কমান্ড ব্যবহারকারীরা নিরাপত্তা বৈশিষ্ট্য যেমন দরজার তালা নিয়ন্ত্রণ করবেন না, বাড়ির নিরাপত্তা ব্যবস্থাকে একা ছেড়ে দিন। পাসওয়ার্ড বা গোপনীয় তথ্য সংরক্ষণের ক্ষেত্রেও একই কাজ হয়। কৃত্রিম বুদ্ধিমত্তা এবং স্মার্ট পণ্যগুলির নিরাপত্তা এখনও পর্যাপ্তভাবে অধ্যয়ন করা হয়নি।

যখন সারা বাড়িতে ডিভাইসগুলি প্রতিটি শব্দ শোনে, তখন সিস্টেম হ্যাকিং এবং অপব্যবহারের ঝুঁকি একটি বিশাল উদ্বেগ হয়ে ওঠে। যদি একজন আক্রমণকারী স্থানীয় নেটওয়ার্ক বা এর সাথে সম্পর্কিত ইমেল ঠিকানাগুলিতে অ্যাক্সেস লাভ করে, তাহলে স্মার্ট ডিভাইস সেটিংস পরিবর্তন বা ফ্যাক্টরি সেটিংসে রিসেট করা যেতে পারে, যা মূল্যবান তথ্যের ক্ষতি এবং ব্যবহারকারীর ইতিহাস মুছে ফেলতে পারে।

অন্য কথায়, নিরাপত্তা পেশাদাররা ভয় পান যে ভয়েস এবং VUI-চালিত কৃত্রিম বুদ্ধিমত্তা এখনও আমাদের সম্ভাব্য হুমকি থেকে রক্ষা করার জন্য যথেষ্ট স্মার্ট নয় এবং অপরিচিত ব্যক্তি কিছু জিজ্ঞাসা করলে আমাদের মুখ বন্ধ রাখতে পারে।

একটি মন্তব্য জুড়ুন