Hostarex blog: TF IDF nədir?

TF IDF nədir?

Bloq

TF IDF nədir?

TF IDF nədir? Google-un müvafiq məlumatları saniyələr içində necə təqdim edə biləcəyini araşdırmaqla sualın cavabını tapa bilərikmi?
Natural Language Processing adlanan NLP (Natural Language Processing) alqoritmlərin mətni anlamalarını təmin edir. Çünki alqoritmlərin əksəriyyəti riyazidir və mətnin səmərəli işləməsi üçün rəqəmlər kimi təmsil olunmalıdır. Bunun üçün TF IDF oyuna daxil olur.

TF IDF nədir?

TF-IDF (Term Frequency — Inverse Document Frequency); müddət tezliyi və əks sənəd tezliyi. Mətni mənalı rəqəmlər kimi göstərmək üsuludur. Vektor təmsilçiliyi kimi də tanınır.
TF, yəni terminin tezliyi Hans Peter Luhn (1957), IDF, yəni əks sənəd tezliyi — Karen Spärck Jonesun (1972) işi nəticəsində yaradılmış metrikalardır. 1970-ci illərin əvvəllərində informasiya əldə etmə probleminin həllində istifadə edilən TF İdF o vaxtdan etibarən müxtəlif vəziyyətlərdə istifadə olunan təbii dil işlənməsi (NLP) alqoritmlərində iştirak etmişdir. Bu alqoritmlər arasında sənədlərin klassifikasiyası, mövzu modelləşdirilməsi, durğu sözünün filtrasiyası da var.
Mətnin vektorlaşdırılması üçün TF IDF ilə axtarış motorlarının alqoritmləri, yəni onu rəqəmlərə çevirmək; aidiyyəti üzrə məqalələri sadalayır.
TF İdF araşdırılmış bütün sənədlər (məs. veb-saytlar) kontekstində sözün hansı tezlikdə göründüyü və onun əhəmiyyəti haqqında məlumat verir. Ona görə də bu alqoritm axtarış sistemləri tərəfindən məzmun keyfiyyətinin qiymətləndirilməsi metodu kimi istifadə oluna bilər.
TF IDF mətndə açar sözlər tapmaq üçün faydalıdır, çünki sənəddə ən yüksək qiymətləndirilən sözlər həmin sənədə ən aktualdır. TF IDF; avtomatlaşdırılmış mətn analizi və maşın öyrənmə alqoritmlərində sözləri skorinq etmək üçün çox faydalıdır.

TF IDF necə işləyir?

TF IDF iki komponentə malikdir: termin tezliyi və ya termin tezliyi (TF) və inverse sənəd tezliyi və ya invers sənəd tezliyi (IDF).
Termin tezliyi mətndə və ya datasetdə hər bir sözün neçə dəfə keçdiyini, bir sözün sənəddə göründüyü tezliyi ölçən sayını tutur. Məsələn, əgər bir məqalədə "seo" sözü 10 dəfə, bütün məqalə isə 500 sözdən ibarət olarsa, TF qiyməti 0,02 (10/500) təşkil edir.
IDF - toplanılmış açar sözü olan sənədlər toplusunda olan sənədlərin sayına görə assambleyada olan sənədlərin sayını bölməklə əldə edilən logarithm- dir. Başqa sözlə, əks sənədlərin tezliyi bir terminin əhəmiyyətini ölçür və bu terminin daxil olduğu sənədlərin sayına görə sənədlərin ümumi sayını bölməklə əldə edilir. Əgər araşdırılmış bütün sənədlərin sayı 10 olarsa və yoxlanılmış açar söz kompleksdəki üç sənədlərdə görünürsə, onda IDF qiyməti 0,52 -dir (log (10/3).
İdF sözün sənəd üçün nə qədər əhəmiyyətli olduğunu əslində bizə bildirir. Bu o deməkdir ki, həmin söz bütün sənəd dəstində nə qədər geniş yayılmış və ya nadirdir. 0-a yaxın, söz bir o qədər geniş yayılmışdır. Beləliklə, əgər söz çox geniş yayılıb və bir çox sənədlərə daxil edilibsə, bu rəqəm 0-a yaxın olacaq. Əks halda 1-ə yaxınlaşacaq.
Bir sözün TF IDF qiyməti nə qədər yüksək olarsa, söz tapıldığı sənəd üçün bir o qədər aktualdır.
TF-nin hesablanması zamanı bütün terminlər eyni dərəcədə vacib hesab olunur. Əgər datasetdə söz daha tez-tez görünürsə, tezlik (TF) termininin qiyməti yüksəkdir, halbuki bu, sənəd üçün o qədər də vacib deyil. Məlumdur ki, hər bir sənəd üçün ümumi olan 'And', 'ile', 'if', 'this' kimi müəyyən terminlər dəfələrlə görünür və datasetdə az işlənən sözlər qədər çox məlumat daşımır.
Ona görə də ən yüksək çəki bir terminin az sayda sənədlərdə dəfələrlə ötürülməsidir. Ən aşağı rəqəm demək olar ki, bütün sənədlərdə qeyd olunan terminin nəticəsidir. Ən yüksək və aşağı çəkilər göstərir ki, bu termin sənəddə daha az görünür və ya bir çox məqalələrdə xatırlanır.
TF IDF mənfi dəyər əldə edə bilmir. Minimal dəyəri 0-dır. Hər iki terminin tezliyi (TF) və invers sənəd tezliyi (IDF) müsbət ədədlərdir. TF IDF tezlik termininə və əks sənəd tezliyi məhsuluna bərabər olduğu üçün məhsul 0-dan az ola bilməz.
Bir sənəddə bir söz üçün TF IDF hesablanarkən hər bir sözün tezliyi əvvəlcə hesablanır. Sonra İdF hesablanır. Ən son TF və İdF dəyərləri çoxalır.

TF İdF Nə Üçün Vacibdir?

TF-IDF-nin başa düşülməsi TF-IDF-də tətbiq etdiyiniz alqoritmlərin nəticələrini asanlıqla anlamağa və şərh etməyə kömək edir. Mətn klassifikasiyası problemi NLP-də ümumi problemlərdən biridir. Mətnin klassifikasiyası problemlərində alqoritmlər mövzunu əvvəlcədən müəyyən edilmiş mövzular qrupuna əsaslanaraq proqnozlaşdırmaq məcburiyyətindədirlər.
Bir neçə il əvvəl Google-da məlum olub ki, sözlərin sayı 1500-dən az olanda mətni təmsil etməyin ən yaxşı yolu TF IDF-dir. Bu o deməkdir ki, ümumi bir problem üçün kiçik bir misal çəkdiyiniz zaman, TF IDF-ni sınasanız işə yarayacaq.
Maşın öyrənməsi və axtarış mühərrikinin optimallaşdırılması (SEO) kimi tətbiq sahələrinə göz gəzdirmək TF IDF-nin əhəmiyyətini anlamağa kömək edəcək:

TF IDF və Machine Learning

Təbii dildə maşın öyrənməsi alqoritmlərə görə mətnlərin rəqəmlərə çevrilməsinin zəruriliyinə gətirib çıxarmışdır. Mətn vektorizasiyası; verilənlərin analizi üçün maşın öyrənmə prosesində əsas addımdır.
Maşın öyrənmə alqoritmləri ənənəvi olaraq rəqəmlərlə daha yaxşı işləsə də, TF-IDF alqoritmləri onlara ədədi dəyər və ya vektor təyin edərək sözləri deşifrə etməyə kömək edir. Bu, maşın öyrənməsi üçün inqilabi bir inkişaf olmuşdur, xüsusilə də mətn analizi kimi NLP ilə əlaqəli sahələrdə.
Maşınları öyrənmə alqoritmlərinin anlaya biləcəyi şəkildə sözləri rəqəmlərə çevirdikdə, TF-IDF-nin qiyməti onu işə salacağı yeganə rəqəmdir. Naive Bayes və Support Vector Machines kimi alqoritmlərə köçürülə bilər. Beləliklə, sözlərin sayı kimi daha çox əsas metodların nəticələrini xeyli yaxşılaşdırmaq olar.
TF-İdF sənəddəki hər bir sözdən istifadə edərək təsvir edə bilər onu həmin sənəddəki hər sözün nə dərəcədə aktual olduğunu ifadə edən rəqəmlə əlaqələndirməyə imkan verir.
Buna görə də TF İdF maşın öyrənməsi üçün verilənlərin hazırlanması prosesində faydalıdır, çünki bu mərhələdə maşın öyrənmə alqoritmlərinin istifadəsi üçün sözlər rəqəmlərlə kodlanmalıdır.
TF-IDF-nin necə işlədiyini anlamaq maşın öyrənmə alqoritmlərinin necə işlədiyini daha yaxşı anlamağa kömək edəcək. Maşın öyrənmə və mətn analizində TF-IDF alqoritmləri verilənlərin kateqoriyalaşdırılmasına və açar sözlərin çıxarılmasına kömək edir. Bu o deməkdir ki, dəstək biletlərini və ya geribildirim xətlərinin və məlumatların daxil edilməsi kimi sadə, monoton tapşırıqları saniyələr ərzində yerinə yetirmək olar.

TF IDF və SEO

Axtarış motorları üçün bir məqalənin bütün açar sözlərin yazı məqsədi ilə sıx bağlı olması və düzgün uzunluqda olması mövzunu tam əhatə etdiyinə dair vacib siqnaldır. İstəsəniz, məqaləmizi SEO-uyğun məqaləmizə də yoxlaya bilərsiniz. Məqaləmizdə açar sözdən istifadənin SEO-uyğun məqalədə necə olmalı olduğu izah olunur.
TF IDF müəyyən bir söz və ya ifadənin axtarış sistemi üçün nə qədər dəyərli və ya əhəmiyyətli olduğunu göstərir. Burada, onu məzmuna daxil etmək; TF IDF alqoritmini istifadə edərək Google-un hər bir məqalənin mövzusu üçün aktual hesab etdiyi sözləri kəşf edə və konkret açar söz və ya ifadə üçün top 10 axtarış nəticələrində olan səhifələri təhlil edə bilərsiniz.
Əslində, TF IDF tək-tək SEO aləti deyil. Bununla belə, TF İdF-dən istifadə edərək seçimlərimizi genişləndirmək və bir səhifənin əsas kimliyinə diqqət yetirmək üçün terminologiyadan istifadə edə bilərik. Əslində, TF IDF rəqibin məzmun modellərini incələmək üsulu kimi çox faydalıdır.
TF IDF analizindən bir sözün overuse edilməsi; bir səhifənin axtarış sistemlərində istənilmiş şəkildə sıralama ala bilməməsinin bir səbəbi olduğunu anlamaq olar.
TF IDF analizi axtarış sistemlərində üst səhifələrdə hansı terminlərin istifadə etdiyini göstərir. Bu, ən yaxşı saytların konkret mövzuya necə yaxınlaşdığını anlamağa imkan verir. Buna görə də, TF IDF-dən istifadə rəqiblərin məzmun və məhsul strategiyalarını izləmək üçün başqa bir yoldur.
Həmçinin, məzmun strategiyanızı irəli aparmaqda sizə kömək etmək üçün köhnə məzmunun məqsədini dəyişmək üçün TF IDF-dan istifadə edə bilərsiniz. İllər öncə yazdıqlarınızı yenilərkən TF IDF-lərdən yararlanın; məzmunun bəzilərini yenidən istifadə etmək istədikdə hansı terminlərin, mövzuların və ya nəyin yenilənməli olduğunu görməyə kömək edə bilər.
Hətta, TF IDF analizinin daha vacib olduğunu iddia edənlər də var. Xüsusilə də artıq dərc olunmuş məqalələr üçün yuxarıda görünmür. Bu, məzmuna əlavə edilməsi lazım olan çatışmayan sözləri aşkar etməyə imkan verir ki, məqalə daha keyfiyyətli olsun və mövzunu daha yaxşı izah edə bilsin. TF IDF ilə optimallaşdırma, məzmunununuzun aşağı keyfiyyət kimi təsnif edilməsi ehtimalını azaldır və onun yerləşdiyi yerə müsbət təsir edir.
Nəticə olaraq, TF IDF-nin SEO-da praktiki və əhəmiyyətli bir istifadəyə malik olduğunu, xüsusilə də yüksək keyfiyyətli məzmunun optimallaşdırılması və yaradılmasında faydalı olduğunu demək olar. Bununla belə, TF İdF məzmunun optimallaşdırılması üçün tək istifadə edildikdə ciddi məhdudiyyətlərlə üzləşir:
TF İdF-nin əsas məhdudiyyəti ondan ibarətdir ki, o, cümləni başa düşməkdə vacib olan sözlərin sırasının nəzərə alınmamasıdır. Bundan əlavə, sənəd uzunluğu TF IDF dəyərlərində bir çox fərqliliklərə səbəb ola bilər.

xülasə

TF IDF (termin tezliyi-əks sənəd tezliyi) axtarış motorları tərəfindən sorğu sözünə ən aktual nəticələri təqdim etmək üçün istifadə olunur. Bundan başqa, SEO məqsədləri üçün məzmun strategiyasını hazırlamaq üçün TF IDF; açar söz araşdırmalarından tutmuş rəqiblərin təhlilinə qədər bir çox məqamlarda dəyərli anlayışlar verir.