Tugas
Information Retrieval 2
Oleh : Nourma Yunita_09011197_A
Standard test collections
Berikut
adalah daftar koleksi tes yang paling standar dan seri evaluasi. Kami fokus
terutama pada koleksi tes untuk evaluasi informasi pengambilan ad hoc sistem, tetapi
juga menyebutkan beberapa koleksi tes serupa untuk klasifikasi teks. kita memerlukan test collection yang terdiri dari 3 macam:
§ koleksi dokumen
§ tes information needs (yang
diekspresikan sebagai query)
§ Sebuah set penentuan relevansi
Beberapa test collection dan evaluasi-evaluasi yang
sudah dilakukan oleh beberapa lembaga.
v Cranfield
: pioner, tahun 1950an
The
Cranfield koleksi. Ini adalah koleksi uji perintis dalam memungkinkan ukuran
kuantitatif yang tepat efektivitas temu kembali informasi, tetapi saat ini
terlalu kecil untuk apa pun kecuali percobaan percontohan yang paling dasar.
Dikumpulkan di Inggris dimulai pada akhir 1950-an, mengandung 1.398 abstrak
artikel jurnal aerodinamis, satu set 225 pertanyaan, dan penilaian relevansi
lengkap dari semua (query, dokumen) pasang.
v TREC :
dilakukan oleh NIST, sejak 1992
o
The US National Institute of Standar dan Teknologi
(NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak tahun
1992. Dalam tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi
dokumen yang lebih besar, termasuk koleksi 25 juta halaman GOV2 halaman web.
Sejak awal, koleksi uji dokumen NIST adalah lipat lebih besar daripada apa yang
tersedia untuk peneliti sebelumnya dan GOV2 sekarang koleksi Web terbesar mudah
tersedia untuk tujuan penelitian. Namun demikian, ukuran GOV2 masih lebih dari
2 lipat lebih kecil dari ukuran saat ini koleksi dokumen yang diindeks oleh
perusahaan pencarian web yang besar.
o NII Uji Koleksi untuk IR Systems (NTCIR).
o Proyek NTCIR telah membangun koleksi pengujian
berbagai ukuran mirip dengan koleksi TREC, fokus pada bahasa Asia Timur dan
lintas-bahasa pencarian informasi, di mana permintaan yang dibuat dalam satu
bahasa selama koleksi dokumen yang berisi dokumen dalam satu atau lebih bahasa
lainnya.
o Pertanyaan &
Hukum Relevansi
o Pertanyaan dirancang dan dinilai oleh "Spesialis
Informasi"
o Relevansi penilaian dilakukan hanya untuk
dokumen-dokumen diambil - koleksi tidak seluruh!
o Kompetisi Berbagai penelitian dan komersial kelompok
bersaing (Trec 6 memiliki 51, Trec 7 memiliki 56, Trec 8 memiliki 66)
o Hasil dinilai berdasarkan precision dan recall, naik
ke tingkat recall dari 1000 dokumen.
o Contoh Trec query (topik)
o <num> Nomor: 168
o <title> Topik: Pembiayaan AMTRAK
o <desc> Keterangan:m Sebuah dokumen akan membahas
peran Pemerintah Federal dalam membiayai pengoperasian Railroad Nasional
Transportasi Corporation (AMTRAK)
o <narr> Narasi: Sebuah dokumen yang relevan harus
memberikan informasi tentang tanggung jawab pemerintah untuk membuat AMTRAK
entitas ekonomis. Hal ini juga bisa membahas privatisasi AMTRAK sebagai
alternatif untuk subsidi pemerintah terus. Dokumen membandingkan subsidi
pemerintah yang diberikan kepada transportasi udara dan bus dengan yang
disediakan untuk Amtrak juga akan relevan.
o
Manfaat TREC:
a. membuat penelitian sistem skala untuk koleksi besar
(pra-WWW)
b. memungkinkan untuk perbandingan yang agak dikontrol
o
Kekurangan TREC:
a)
Penekanan pada ingat yang tinggi, yang mungkin tidak
realistis untuk apa kebanyakan pengguna ingin sangat panjang query, juga tidak
realistis.
b)
perbandingan masih sulit untuk membuat, karena sistem
yang cukup berbeda pada banyak dimensi fokus pada peringkat batch daripada
interaksi tidak fokus pada WWW sampai saat ini
o
EVALUASI TREC
1..Penekanan
pada khusus "trek"
a. interaktif track
b. Bahasa Natural Processing (NLP)
c. lagu Multibahasa trek (Cina, Spanyol)
d. penyaringan track
e. Tinggi-Presisi
f.
High-Performance
g. topik
o
HASIL TREC
1. Berbeda setiap tahun
2. Untuk track (ad hoc) utama:
a. Sistem terbaik statistik tidak berbeda nyata
b. Perbedaan kecil kadang-kadang memiliki efek besar
c. seberapa baik adalah model hyphenation
d. bagaimana itu panjang dokumen diperhitungkan
e. Sistem yang dioptimalkan untuk query lagi dan semua
dilakukan buruk untuk lebih pendek, permintaan lebih realistis.
v Cross Language
Evaluation Forum (CLEF)
CLEF : European
Language
a.
CLEF, adalah sebuah
organisasi yang mempromosikan penelitian di multibahasa akses informasi (saat
ini berfokus pada bahasa-bahasa Eropa ). Fungsi khusus adalah untuk
mempertahankan kerangka dasar untuk menguji pencarian informasi sistem, dan
menciptakan repositori data bagi para peneliti untuk digunakan dalam
mengembangkan dibandingkan standar . Organisasi memegang sebuah forum pertemuan
setiap September di Eropa. Sebelum setiap forum, peserta menerima satu set
tugas tantangan. Tugas ini dirancang untuk menguji berbagai aspek sistem
pencarian informasi dan mendorong perkembangan mereka. Kelompok peneliti
mengusulkan dan mengatur kampanye untuk memenuhi tugas-tugas. Hasilnya
digunakan sebagai tolok ukur untuk keadaan seni di daerah-daerah tertentu.,
b.
Cross Language
Evaluation Forum (CLEF), Rangkaian evaluasi telah berkonsentrasi pada
bahasa-bahasa Eropa dan lintas-bahasa pencarian informasi, dan Reuters-RCV1.
Untuk klasifikasi teks, koleksi uji yang paling digunakan telah menjadi
Reuters-21.578 koleksi 21.578 artikel Newswire. Baru-baru ini, Reuters merilis
Volume Reuters jauh lebih besar Corpus 1 (RCV1), yang terdiri dari 806.791
dokumen. Penjelasan yang skala dan kaya membuat dasar yang lebih baik untuk
penelitian masa depan.
c.
20 Newsgroup. Ini
adalah teks lain banyak digunakan klasifikasi koleksi, dikumpulkan oleh Ken
Lang. Ini terdiri dari 1000 artikel dari masing-masing 20 newsgroup Usenet
(nama newsgroup yang dianggap sebagai kategori). Setelah penghapusan artikel
duplikat, seperti yang biasanya digunakan, mengandung 18.941 artikel.
d.
Inisiatif CLEF
(Konferensi dan Labs dari Forum Evaluasi, sebelumnya dikenal sebagai
Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya
adalah untuk mempromosikan penelitian, inovasi, dan pengembangan sistem akses
informasi dengan penekanan pada multibahasa dan multimodal informasi dengan
berbagai tingkat struktur. CLEF mempromosikan penelitian dan pengembangan
dengan menyediakan infrastruktur untuk:
1. multibahasa dan
pengujian sistem multimodal, tuning dan evaluasi,
2. penyelidikan penggunaan
terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik
diperkaya dengan akses informasi,
3. penciptaan koleksi tes
dapat digunakan kembali untuk pembandingan;
4. eksplorasi metodologi
evaluasi baru dan cara-cara inovatif untuk menggunakan data eksperimen,
5. pembahasan hasil,
perbandingan pendekatan, pertukaran ide, dan transfer pengetahuan.
e.
Inisiatif CLEF disusun
dalam dua bagian utama:
1.
serangkaian Evaluasi
Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses informasi dan
lokakarya untuk membahas dan kegiatan percontohan evaluasi yang inovatif;
2.
Konferensi peer-review
pada berbagai isu, termasuk
a.
Melanjutkan
penyelidikan kegiatan lab evaluasi,
b.
Percobaan menggunakan
data multibahasa dan multimodal khususnya, tetapi tidak hanya data yang
dihasilkan dari kegiatan CLEF,
c.
Penelitian dalam
metodologi evaluasi dan tantangan.
d.
Sejak tahun 2000 CLEF
telah memainkan peran utama dalam penyelidikan merangsang dan penelitian di
berbagai bidang utama dalam domain pencarian informasi, menjadi terkenal di
masyarakat IR internasional. Hal ini juga mempromosikan studi dan implementasi
metodologi evaluasi yang tepat untuk beragam jenis tugas dan media. Selama
bertahun-tahun, komunitas riset yang luas, kuat, dan multidisiplin telah
dibangun, yang meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan
untuk menangani penyebaran kegiatan CLEF.
e.
Hasilnya tradisional
disajikan dan dibahas pada lokakarya tahunan dalam hubungannya dengan
Konferensi Eropa untuk Perpustakaan Digital (ECDL), sekarang disebut Teori dan
Praktek di Perpustakaan Digital (TPDL).
f.
Sejak 2010, CLEF telah
mengambil bentuk suatu peristiwa independen, dibentuk oleh sebuah konferensi
peer-review diselenggarakan dengan satu set laboratorium evaluasi.
v Reuters : Text Classification
Reuters dikenal 22.173
koleksi tes, yang secara signifikan lebih besar dari koleksi tes yang paling
tradisional. Selain itu, Reuters memiliki tidak ada perhitungan recall masalah
biasanya terkait dengan beberapa koleksi uji yang lebih besar sekarang
tersedia. Tutorial ini menjelaskan metode ( berasal dari Lewis [Lewis 91] )
digunakan untuk melakukan percobaan pada pengambilan Reuters koleksi. Kemudian,
untuk menggambarkan penggunaan Reuters, beberapa eksperimen sederhana adalah
pengambilan juga disajikan yang membandingkan kinerja algoritma stemming.Penggabungan
dalam diblokir semacam berbasis blok indexing.Two ( posting daftar untuk
digabung) yang dimuat dari disk ke memori, bergabung dalam memori ( gabungan
posting daftar) dan ditulis kembali ke disk. Kami menunjukkan hal bukan termIDs
untuk dibaca lebih baik.
Pada langkah terakhir,
algoritma secara bersamaan menggabungkan sepuluh blok menjadi satu indeks
gabungan yang besar. Contoh dengan dua blok ditunjukkan pada Gambar dan , dimana kami menggunakan untuk menunjukkan dokumen koleksi. Untuk melakukan penggabungan,
kita membuka semua file blok secara bersamaan, dan memelihara buffer baca kecil
untuk sepuluh blok kita membaca dan menulis buffer untuk indeks gabungan akhir
kita menulis. Dalam setiap iterasi, kita pilih term ID terendah yang belum
diproses belum menggunakan antrian prioritas atau struktur data yang sama.
Semua daftar posting untuk term ID dibaca dan digabungkan, dan daftar gabungan
ditulis kembali ke disk. Setiap penyangga membaca diisi ulang dari filenya bila
diperlukan.
Kompleksitas waktu
adalah (T log T) karena langkah dengan kompleksitas waktu
tertinggi adalah memilah dan T merupakan batas atas untuk jumlah
barang yang kami harus mengurutkan (yaitu, jumlah term ID-doc Id pasang). Tapi
waktu pengindeksan aktual biasanya didominasi oleh waktu yang diperlukan untuk
mengurai dokumen (P Arse N EXT B LOCK) dan untuk melakukan final merge (M ERGE
B LOCKS).
Perhatikan bahwa
Reuters-RCV1 tidak terlalu besar di zaman ketika satu atau lebih GB memori
standar pada komputer pribadi. kita bisa menciptakan
indeks terbalik untuk RCV1 dalam memori pada server tidak terlalu gemuk. Teknik
yang kita telah dijelaskan diperlukan, namun, untuk koleksi yang beberapa kali
lipat lebih besar.
Lima langkah dalam
membangun indeks untuk Reuters-RCV1 di diblokir semacam berbasis pengindeksan.