• 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
Ses Sinyallerinden Yapay Zeka Tabanlı Duygu Tanıma Sistemi
#1
Information 
1. Proje Özeti (Executive Summary)

Bu proje, ses sinyallerini analiz ederek konuşmacının anlık duygusal durumunu (öfke, mutluluk, üzüntü, nötr, korku, sürpriz vb.) yüksek doğrulukla tespit eden yapay zeka tabanlı bir sistem geliştirmeyi amaçlamaktadır. Ses işleme teknikleri ve derin öğrenme modelleri kullanılarak, insan-bilgisayar etkileşimini daha doğal ve bağlamsal hale getirecek bir köprü kurmayı hedefliyoruz.

2. Giriş 

İnsan iletişiminin önemli bir bölümünü, kelimelerin kendisinden çok ses tonu ve perde gibi parasözel özellikler oluşturur. Bu projenin motivasyonu, makinelere bu duygusal katmanı anlama yeteneği kazandırmak ve böylece insan duygularına duyarlı uygulamaların önünü açmaktır. Geliştirilen sistem, müşteri hizmetleri, psikolojik destek uygulamaları ve güvenlik sistemleri gibi birçok alanda değerli bir araç olacaktır.


3. Kullanılan Teknolojiler ve Yöntemler


3.1. Veri Seti Yönetimi
  • Kullanılan Veri Setleri: Türkçe ve/veya uluslararası standartlarda kabul görmüş etiketli ses veri setleri (Örn: RAVDESS, TESS, CREMA-D).
  • Ön İşleme: Gürültü giderme, sessizlik kırpma ve sinyal normalizasyonu gibi işlemlerle veri kalitesinin optimize edilmesi.
  • Veri Dengeleme: Modelin tüm duyguları eşit öğrenmesi için örneklem dengesinin sağlanması.

3.2. Özellik Çıkarımı (Feature Extraction)

Ham ses sinyalini modelin öğrenebileceği sayısal gösterimlere dönüştürmek için aşağıdaki özellikler çıkarılmıştır:

Özellik Adı
AçıklamaMFCC (Mel-Frequency Cepstral Coefficients)
Sesin tını ve perde özelliklerini en iyi temsil eden yaygın kullanılan katsayılar.
Pitch (Perde) ve Tonlama
Konuşmanın temel frekansı ve tonlama değişimleri.
Enerji ve ZCR (Zero Crossing Rate)
Sesin şiddeti (gücü) ve gürültü/sıklık bilgisi.



3.3. Derin Öğrenme Modeli

Proje kapsamında yüksek doğruluk elde etmek amacıyla aşağıdaki mimari tercih edilmiştir:
  • Model Tipi: Hibrit CNN-LSTM (Evrişimsel Sinir Ağı - Uzun Kısa Süreli Bellek) Mimarisi.
    • CNN Katmanı: Spektrogramlar üzerinden yerel ve önemli desenleri (özellik gruplarını) yakalamak için kullanılır.
    • LSTM Katmanı: Duygusal durumdaki zamansal (arka arkaya gelen) değişimleri ve sinyal akışını analiz etmek için kullanılır.
  • Eğitim Kütüphanesi: TensorFlow / Keras.

4. Proje Çıktıları ve Uygulama

Geliştirilen sistemin nihai amacı, gerçek zamanlı veya önceden kaydedilmiş ses dosyaları üzerinde çalışabilen, kullanıcı dostu bir arayüze sahip olmaktır.
  • Çıktı Formatı: Giriş yapılan ses sinyali için tespit edilen duygunun olasılık dağılımı (Örn: Mutluluk: %85, Nötr: %10, Öfke: %5).
  • Kullanıcı Arayüzü (Prototip): Geliştirilen modelin test edilebileceği, Python Streamlit veya benzeri bir kütüphane ile oluşturulmuş basit bir web arayüzü.

5. Potansiyel Uygulama Alanları
  • Müşteri Deneyimi: Çağrı merkezlerinde müşteri memnuniyetsizliğini anlık olarak tespit etme.
  • Sağlık ve Refah: Yalnız yaşayan yaşlıların veya hastaların ruh halini izleme.
  • Eğitim: Öğrenci katılımını ve motivasyon seviyesini ses tonlarından analiz etme.
  Reply


Forum Jump:


Users browsing this thread: 1 Guest(s)