سمینار برق بررسی چندین روش بازشناسی حالت گفتار
سمینار برق بررسی چندین روش بازشناسی حالت گفتار
نقش اینترنت در ارتباطات و انتقال اطلاعات کلیات 1-1- سیستم های انتقال دیجیتال 1-1-1. ارسال موازی (parallel) ارسال سریال ارسال سریال غیر هم زمان ارسال سریال هم زمان جهت انتقال اطلاعات ارتباط دو طرفه غیر هم زمان ارتباط دو طرفه هم زمان سیگنال های اطلاعات سیگنال های Periodicو Aperiodic پهنای باند باند پهن نویز القا 1سرعت انتقال اطلاعات مفهوم شبکه دلایل استفاده از شبکه صرفه جویی در وقت حذف محدودیت های جغرافیایی افزایش امنیت شبکه های (Domain Model) Server –Based طراحی شبکه توپولوژی های شبکه و ویژگی های آنها توپولوژی خطی (Bus Topology) توپولوژی ستاره ای (Star Topology) شبکه Star- Bus توپولوژی ترکیبی (Hybrid Topology) کلیات بشر امروزی در دوره ای زندگی می کند که عصر ارتباطات نامیده می شود. در این دوره بیشترین فعالیت های بشری بر پایه ارتباطات و انتقال اطلاعات از طریق شبکه هایی که تمام دنیا را به یکدیگر متصل کرده بنا شده است. این ارتباط در سطح وسیع خود شبکه جهانی اینترنت و در سطح کوچک تر خود شبکه های محلی هستند که در ساختمان های کوچک و بزرگ از جمله مراکز اقتصادی و شرکت ها گسترده شده اند. هدف از برقراری چنین ارتباطی دسترسی سریع به اطلاعات مورد نیاز و انتقال آن است. اهمیت این ارتباط به قدری است که در دانشگاه ها دوره ای به نام فناوری اطلاعات برای تربیت متخصصین آن برگزار می شود. این متخصصین برای هدایت و راهبری شبکه ها در ابتدا باید با اصول و مقدمات طراحی و پیاده سازی شبکه آشنا شوند. در این راستا در واحد کار اول با پاره ای از مفاهیم و اصول اولیه راه اندازی شبکه از قبیل آشنای با سیستم های انتقال دیجیتال، روش های انتقال اطلاعات، سرعت انتقال و توپولوژی های شبکه آشنا می شوید. فراگیر پس از مطالعه این واحد کار می تواند قسمت فیزیکی یک شبکه اعم از نوع شبکه، نوع کابل آن و تجهیزات مورد نیاز برای برقراری ارتباط بین کامپیوترهای یک ساختمان را طراحی و پیاده سازی کند.
1-2- سیستم های انتقال دیجیتال پس از اتصال فیزیکی دو کامپیوتر توسط کابل شبکه یا وسایل ارتباطی دیگر، مهم ترین مسأله نحوه برقراری ارتباط بین آنهاست. منظور از برقراری ارتباط این است که اطلاعات به چه ترتیبی ارسال شوند. می توان این پرسش ها را مطرح کرد که آیا روش ارسال به صورت بیت به بیت و جداگانه باشد یا گروهی از اطلاعات با هم و به صورت گروهی ارسال شوند، یا این که آیا فرستنده آن ها را همانند یک ایستگاه فرستنده رادیویی ارسال نماید یا از روشی که در مخابرات برای انتقال صوت به کار می رود، استفاده شود. جواب این پرسش ها این است که اطلاعات در شبکه به صورت کدهای دودویی ارسال می شوند در سیستم دودویی فقط از دو کد صفر و یک استفاده می شود که در کامپیوتر مقصد از ترکیب این کدها، اعداد، حروف و کاراکترهای ویژه به دست می آید. ارسال اطلاعات به صورت دودویی می تواند به صورت parallel ( یا موازی) یا به صورت سریال ( پشت سر هم) انجام شود. در روش موازی تعدادی از بیت ها با هم و به صورت گروهی ارسال می شوند ولی در روش سریال، بیت ها تک به تک و پشت سر هم ارسال می شوند. نحوه ارسال به صورت موازی فقط یک شیوه دارد، در صورتی که در ارسال سریال از دو روش ارسال هم زمان (synchronous) و غیر هم زمان ( Asynchronoous) استفاده می شود.
1-1-1- ارسال موازی (parallel) در این روش، اطلاعات قبل از ارسال تبدیل به کدهای باینری شده و یک به یک ارسال می شوند. برای مثال می توان گفت که این عمل مانند این است که یک نامه را تبدیل به حروف تشکیل دهنده آن کرده و حروف را یک به یک ارسال کنیم. حال تعدادی کد باینری داریم که می خواهیم ارسال کنیم، اگر تعدادی از آن ها را تبدیل به گروه کرده و با هم بفرستیم ارسال سریع تر انجام می شود و این چیزی است که در ارسال موازی اتفاق می افتد. در این روش تعدادی کاراکتر از طریق چند خطی ارتباطی و به صورت هم زمان با هم ارسال می شوند، این خطوط می توانند در دورون یک کابل شبکه یا یک شبکه بی سیم بنا شده باشند. به صورت پیش فرض 8 خط برای ارسال موازی در نظر گرفته شده است یعنی 2-1-1- ارسال سریال در ارسال سریال، بیت ها به دنبال هم و به صورت سری انتقال می یابند، به این ترتیب که بیت ها پشت سر هم قرار گرفته و یک رشته را می سازند و این رشته به کامپیوتر مقصد ارسال می شود. در حین ارسال ممکن است عوامل مختلفی مثل نویز و هم شنوایی که در همین واحد کار در مورد آن ها توضیح داده شده است، روی اطلاعات اثر گذاشته و آن ها را خراب کنند. برای کنترل بیت ها و کمک به ارسال عاری از اشکال، ابتدا و انتهای بیت ها با یک سرس علامت به نام های بیت شروع و بیت پایان؟ مشخص می شود که در روش های مختلف ارسال سریال محل قرار گیری این علامت ها و محتوای آن ها متفاوت است. ارسال سریال به دو روش امکان پذیر است. الف- ارسال سریال غیر هم زمان دلیل نام گذاری این روش به غیر هم زمان این است که زمان بندی در هنگام ارسال اطلاعات مهم نیست و زمان بندی بین دو واحد فرستنده و گیرنده انجام می شود. در این روش انتقال اطلاعات بر اساس الگوهای ارسال و دریافت که از قبل مشخص شده است. انجام می شود و تا وقتی این الگوها رعایت شوند ارسال بدون وقفه انجام می پذیرد. در این روش هر 8 بیت اطلاعات تبدیل به یک رشته شده و قبل از هر رشته یک Start Bit و پس از هر رشته یک Stop Bit قرار می گیرد. در صورتی که هر کدام از بیت ها هنگام ارسال آسیب ببینند، آن بیت مشخص شده و دوباره ارسال می شود. در ارسال غیر هم زمان 25% از کل ظرفیت خط ارتباط صرف کنترل ترافیک شده و تنها از 75% ظرفیت برای انتقال اطلاعات استفاده می شود. توانایی کامپیوترها در ارسال و دریافت اطلاعات از نظر سرعت متفاوت است، بنابراین ممکن است یک کامپیوتر بتواند در واحد زمان، مقدار بیشتری اطلاعات به سمت کامپیوتر مقصد ارسال کند. بدیهی است در چنین حالتی، کامپیوتر گیرنده که با سرعت کمتری کار می کند نمی تواند تمامی اطلاعات ارسال شده را دریافت نماید، در نتیجه مقداری از این اطلاعات در شبکه از بین می رود، بنابراین در کامپیوترها عملی به نام کنترل ترافیک برای جلوگیری از بروز این مشکل انجام می شود. کامپیوترهایی که در حال تبادل اطلاعات هستند، همواره سرعت ارسال و دریافت را با هم چک کرده و در صورت لزوم سرعت ارسال را کم یا زیاد می کنند. در روش انتقال غیر هم زمان هیچ زمان بندی برای ارسال یا دریافت صورت نمی گیرد و کنترل ترافیک به صورت لحظه ای انجام می شود. به همین دلیل در روش انتقال غیر هم زمان 75% ظرفیت خط انتقال صرف کنترل ترافیک می شود. منظور از ظرفیت خط انتقال همان پهنای باند است که در همین واحد کار توضیح داده شده است.
|
![]() |
دسته بندی | سمینار برق |
فرمت فایل | |
حجم فایل | 1481 کیلو بایت |
تعداد صفحات فایل | 163 |
سمینار برق بررسی چندین روش بازشناسی حالت گفتار
لطفا از این پروژه در راستای تکمیل تحقیقات خود و در صورت کپی برداری با ذکر منبع استفاده نمایید.
چکیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش استفاده از چنین تکنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشکلات موجود در این کار که تشخیص را سختتر میکند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در نهایت برخی کاربردهای آن نیز مورد بررسی قرار میگیرد. نتایج نشان میدهد که شبکههای عصبی می- توانند بهعنوان یک دستهبندی کننده خوب برای شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر شده دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
مقدمه
چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمع آوری دانش و اطلاعات در این زمینه پرداختند. اخیراً نیز موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را بر انگیخته است. بعضی از دلایل این رنسانس عبارتند از : پیشرفت فناوری در ثبت, ذخیره و تحلیل اطلاعات صوتی و تصویری, پیشرفت در فناوری حسگر و کامپیوتر های فرسایش پذیر , بالا رفتن سطح فناوری ارتباط انسان و رایانه از نقطه none intrusive های و کلیک به حس و عاطفه و نرم افزار های زنده وار مخصوص کمک به انسان و رباتهای حیوان شکل های شرکت سونی که قادر به درک و بیان احساسات می Aibo , های شرکت تایگر Furbi خانگی از قبیل تحت عنوان محاسبه عاطفی ایجاد (AI) باشد. به تازگی زمینه های تحقیقاتی جدیدی در هوش مصنوعی شده است. در حوزه رمز گشایی و توصیف و به تصویر کشیدن حالات در گفتار، تا کنون روانشناسان به آزمایشات تجربی بسیاری دست زده اند و فرضیه هایی ارائه داده اند و از طرف دیگر محققان هوش مصنوعی نیز در شاخه های زیر تحقیقات ارزنده ای انجام داده اند: ساخت و ترکیب حالات گفتار, باز شناسایی حالات گفتار و استفاده از نرم افزار هایی برای رمز گشایی و بیان حالات. انگیزه ما تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که می تواند در تجارت (به خصوص کاربرد آن در یک مرکز تلفن), یک کاربرد بالقوه آن تشخیص حالت گفتاری در یک مکالمه تلفنی و ایجاد فیدبک به یک اپراتور یا سرپرست به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان شده توسط تماس گیرنده می باشد. و کاربرد دیگر آن استفاده از محتوای حالت احساسی مکالمات جهت ارزیابی عملکرد اپراتور است. شناسایی خودکار حالت گفتار با توجه با حالات صورت، حرکات بدن و یا ویژگی های گفتار از امیدبخش ترین روش های بازشناسی حالت گفتار ثابت شده است. بخصوص در زمینه سیستم های امنیتی در سالهای اخیر علاقه مندی های بسیاری مشاهده شده است. حال می خواهیم بدانیم که منظور از حالت در گفتار چیست؟ اگر تا کنون در چند سخنرانی شرکت کرده باشید خواهید دید که برخی از سخنرانی ها جذاب و برخی خسته کننده می باشند. این موضوع علاوه بر موضوع سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک ربات خواهد بود، که باعث خواب آلودگی شنونده می شود. بنابراین سخنرانان حرفه ای با تغییر آهنگ گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر می دهند. این تغییرات در نحوه بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت عادی و یکنواخت بعنوان یک حالت شناخته می شود. حالات مختلف ممکن از قبیل: خشم، تنفر، ترس، شادی، غم، هیجان، آرامش، کسالت، افسردگی و … می باشند. حتی در برخی از مواقع در مورد میزان یک حالت بحث می شود، مثلا شاد با خیلی شاد را در نظر می گیرند. اضافه کردن حالت طبیعی به این حالت ها معقول بنظر می رسد تا هر کدام از این حالت ها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کار ها مبنا حالت طبیعی و بدون حالت می باشد. این طبقه بندی بعنوان اساس مقایسه استفاده می شود. امروزه آمار عمومی از یک عبارت بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.
اغلب برای تشخیص مثلا: دروغ، بازی های ویدیویی و کمک روانپزشکی از بازشناسی حالت گفتار استفاده شده است. برای اطمینان از تشخیص صحیح معقول است که تعداد و نوع حالت های قابل تشخیص محدود و متناسب با نیاز در آن کاربرد خاص باشد(برای طبقه بندی مناسب). هنوز بصورت فنی هیچ استاندارد مشخصی برای تشخیص و طبقه بندی حالت های گفتار نداریم. اغلب یک روش تمیز دادن، میان یک مجموعه تعریف شده از حالت های گفتار مجزا است و عقیده مشترکی(واحدی)برای نام شش حالت : 1- خشم 2- تنفر Mpeg تعداد و اسامی آنها موجود نیست. این موضوع در استاندارد 4 -3 ترس 4- شادی 5- غم 6- هیجان را در بر دارد. از طرفی این تحقیقات در هر زبان و لهجه ای خاص خود می باشد و چنانچه از مبنا دور گردیم دقت بازشناسی کاهش می یابد. مثلا نمی توان سیستمی که برای زبان انگلیسی طراحی شده است را برای زبان فارسی بکار برد. زیرا پایگاه داده ای که برای زبان انگلیسی طراحی شده ویژگی های خاص خود را دارد که برای زبان فارسی متفاوت است و کاربردی ندارد. البته ممکن است الگوریتم کاری آنها مشابه باشد. اطلاعات غیر کلامی که در حالات، حرکات و ادای چهره انسان پدیدار می گردد، نقش مهمی درارتباطات بشری دارد. به ویژه افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط برقرار می کنند.