پاورپوینت كشف اطلاعات از مستندات نيمه ساخت يافته XML (pptx) 53 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 53 اسلاید
قسمتی از متن PowerPoint (.pptx) :
كشف
اطلاعات از مستندات
نيمه ساخت يافته
XML
عناوين اصلي
ضرورت انجام پ
ژوهش
هدف پژوهش
طبقه بندي مستندات
روش هاي وزن دهي ويژگي
روش وزن دهي ويژگي پيشنهادي
TFCRF
روش وزن دهي ويژگي پيشنهادي
LBTF
سيستم طبقه بندي كننده مستندات نيمه ساختيافته
XML
مشخصات بستر آزمايشگاهي پياده سازي شده
نتايج ارزيابيهاي انجام شده
نتيجه گيري
،
دستاوردهاي پروژه،
پيشنهاد كارهاي آينده
ضرورت انجام پ
ژوهش
مستندات وب
ساختيافته ؟
بازيابي+جستجو+ فهم و يادگيري + ارزيابي + استخراج اطلاعات+...
کشف خودكار
دانش
هاي جديد، الگوها، ارتباطات در مجموعه وسيعي از
مستندات
خوشه بندي
خلاصه سازي
...
مستندات نيمه ساختيافته
XML
كشف خودكار اطلاعات ازمستندات نيمه ساختيافته
XML
متن كاوي
طبقه بندي
هدف پژوهش
بهبود كارايي طبقه بندي كننده
بهبود كشف اطلاعات از مستندات نيمه ساختيافته
XML
سازماندهي
مستندات
تشخيص موضوع
م
ستندات
جستجوي ساختيافته
و
پيدا كردن
مستندات
در راستاي
علايق
كاربر
شاخص بندي خودكار
مستندات در سيستمهاي بازيابي اطلاعات
مرتب كردن
بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها
تشخيص معناي
کلمات مبهم
ارائه راهكاري به منظور بهبود كارايي طبقه بندي كننده جهت بهبود فرايند كشف اطلاعات از مستندات نيمه ساختيافته
XML
طبقه بندي مستندات
طبقهبندي مستندات
=
انتساب اسناد متني بر اساس
محتوي
به يك يا چند
طبقه از قبل تعيين شده
فازهاي طبقه بندي
فاز آموزشي
ساخت مدل با استفاده از مستندات آموزشي
فار آزمايشي
استفاده از مدل بر روي مستندات آزمايشي
ماتريس
تصميم گيري
مراحل طبقه بندي مستندات
پيش پردازش مستندات
شاخص بندي مستندات
تبديل مستندات به برداري از كلمات تشكيل دهنده
انتخاب ويژگي
كاهش ابعاد بردار كلمات
وزن دهي ويژگي
تعيين ميزان اهميت و قدرت كلمات انتخاب شده در متمايز كردن هر مستند از ساير مستندات
طبقه بندي مستندات
اعمال الگوريتم طبقه بندي بر روي بردار
كلمات انتخاب و وزن دهي شده مستندات
طبقه بندي كننده هاي بيزين
نزديكترين
K
همسايه
(KNN)
درخت هاي تصميم گيري
شبكه هاي عصبي
ماشين هاي بردارهاي پشتيبان
(SVM)
آستانه يابي تكرار مستندات
(DF)
بهره اطلاعاتي
(IG)
قدرت ويژگي
(TS)
روش
روش هاي مبتني بر
TF
روش هاي مبتني بر
IDF
راهكار بهبود كارايي طبقه بندي كننده
Luhn
الگوهاي آماري رخداد
كلمات
1960
Humphery
سيستم هاي خبره
1986
Biebricher
و همكاران
درخت هاي تصميم گيري
1988
Creecy
و همكاران
روش
KNN
1992
Hull
الگوريتم
Rocchio
1994
Lewis
و همكاران
طبقه بندي كننده بيزين
1994
Yang
و
Chute
روش رگرسيون
LLSF
1996
Rumelhart
شبكه هاي عصبي
1996
Joachims
SVM
1998
ارائه الگوريتم جديد
طبقه بندي كننده مستندات
بهبود عمليات پيش پردازش
راه حل پيشنهادي
متن كاوي
طبقه بندي مستندات
پيش پردازش
وزن دهي ويژگي
انتخاب ويژگي
شاخص بندي
خوشه بندي
خلاصه سازي
پرسش و پاسخ
استخراج اطلاعات
الگوريتم
طبقه بندي
بهبود روش وزن دهي ويژگي براي بالابردن كارايي طبقه بندي كننده
مستندات نيمه ساختيافته
XML
روش هاي وزن دهي ويژگي
وزن دهي ويژگي
k
: تعداد ويژگي هاي متمايز در كل مجموعة
D
w
ik
:
وزن دهي ويژگي
t
k
در مستند
d
i
روش هاي متداول وزن دهي ويژگي
روشهاي مبتني بر
TF
تابعي از توزيع ويژگي در هر يك از مستندات
روشهاي مبتني بر
IDF
تابعي از توزيع ويژگي در مجموعه مستندات
D
روش هاي مبتني بر اطلاعات طبقات
تابعي از توزيع ويژگي در طبقات
اگر
روش وزن دهي ويژگي مبتني بر
TF
نام روش
رابطه
توضيحات
TF
#(
t
k
’
d
i
)
تعداد تكرار ويژگي
t
k
در مستند
d
i
normTF
-
logTF
-
ITF
r=1
Sparck
k
تعداد ويژگي هاي منحصر به فرد در مجموعة
D
ايده: افزايش وزن دهي ويژگي با افزايش فركانس ويژگي در هر مستند.