Minggu, 18 November 2012


Tugas Information Retrieval 2
Oleh : Nourma Yunita_09011197_A
Standard test collections
Berikut adalah daftar koleksi tes yang paling standar dan seri evaluasi. Kami fokus terutama pada koleksi tes untuk evaluasi informasi pengambilan ad hoc sistem, tetapi juga menyebutkan beberapa koleksi tes serupa untuk klasifikasi teks. kita memerlukan test collection yang terdiri dari 3 macam:
§  koleksi dokumen
§   tes information needs (yang diekspresikan sebagai query)
§  Sebuah set penentuan relevansi
Beberapa test collection dan evaluasi-evaluasi yang sudah dilakukan oleh beberapa lembaga.
v Cranfield  :  pioner, tahun 1950an
The Cranfield koleksi. Ini adalah koleksi uji perintis dalam memungkinkan ukuran kuantitatif yang tepat efektivitas temu kembali informasi, tetapi saat ini terlalu kecil untuk apa pun kecuali percobaan percontohan yang paling dasar. Dikumpulkan di Inggris dimulai pada akhir 1950-an, mengandung 1.398 abstrak artikel jurnal aerodinamis, satu set 225 pertanyaan, dan penilaian relevansi lengkap dari semua (query, dokumen) pasang.
v TREC  : dilakukan oleh NIST, sejak 1992
o   The US National Institute of Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak tahun 1992. Dalam tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi dokumen yang lebih besar, termasuk koleksi 25 juta halaman GOV2 halaman web. Sejak awal, koleksi uji dokumen NIST adalah lipat lebih besar daripada apa yang tersedia untuk peneliti sebelumnya dan GOV2 sekarang koleksi Web terbesar mudah tersedia untuk tujuan penelitian. Namun demikian, ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran saat ini koleksi dokumen yang diindeks oleh perusahaan pencarian web yang besar.
o   NII Uji Koleksi untuk IR Systems (NTCIR).
o   Proyek NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan koleksi TREC, fokus pada bahasa Asia Timur dan lintas-bahasa pencarian informasi, di mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang berisi dokumen dalam satu atau lebih bahasa lainnya.
o   Pertanyaan &  Hukum Relevansi
o   Pertanyaan dirancang dan dinilai oleh "Spesialis Informasi"
o   Relevansi penilaian dilakukan hanya untuk dokumen-dokumen diambil - koleksi tidak seluruh!
o   Kompetisi Berbagai penelitian dan komersial kelompok bersaing (Trec 6 memiliki 51, ​​Trec 7 memiliki 56, Trec 8 memiliki 66)
o   Hasil dinilai berdasarkan precision dan recall, naik ke tingkat recall dari 1000 dokumen.
o   Contoh Trec query (topik)
o   <num> Nomor: 168
o   <title> Topik: Pembiayaan AMTRAK
o   <desc> Keterangan:m Sebuah dokumen akan membahas peran Pemerintah Federal dalam membiayai pengoperasian Railroad Nasional Transportasi Corporation (AMTRAK)
o   <narr> Narasi: Sebuah dokumen yang relevan harus memberikan informasi tentang tanggung jawab pemerintah untuk membuat AMTRAK entitas ekonomis. Hal ini juga bisa membahas privatisasi AMTRAK sebagai alternatif untuk subsidi pemerintah terus. Dokumen membandingkan subsidi pemerintah yang diberikan kepada transportasi udara dan bus dengan yang disediakan untuk Amtrak juga akan relevan.
o   Manfaat TREC:
a.       membuat penelitian sistem skala untuk koleksi besar (pra-WWW)
b.      memungkinkan untuk perbandingan yang agak dikontrol
o   Kekurangan TREC:
a)     Penekanan pada ingat yang tinggi, yang mungkin tidak realistis untuk apa kebanyakan pengguna ingin sangat panjang query, juga tidak realistis.
b)      perbandingan masih sulit untuk membuat, karena sistem yang cukup berbeda pada banyak dimensi fokus pada peringkat batch daripada interaksi tidak fokus pada WWW sampai saat ini
o    EVALUASI TREC
1..Penekanan pada khusus "trek"
a.       interaktif track
b.      Bahasa Natural Processing (NLP)
c.       lagu Multibahasa trek (Cina, Spanyol)
d.      penyaringan track
e.       Tinggi-Presisi
f.        High-Performance
g.       topik
o  HASIL TREC
1.      Berbeda setiap tahun
2.      Untuk track (ad hoc) utama:
a.       Sistem terbaik statistik tidak berbeda nyata
b.      Perbedaan kecil kadang-kadang memiliki efek besar
c.       seberapa baik adalah model hyphenation
d.      bagaimana itu panjang dokumen diperhitungkan
e.       Sistem yang dioptimalkan untuk query lagi dan semua dilakukan buruk untuk lebih pendek, permintaan lebih realistis.
v Cross Language Evaluation Forum (CLEF)
CLEF  : European Language
a.         CLEF, adalah sebuah organisasi yang mempromosikan penelitian di multibahasa akses informasi (saat ini berfokus pada bahasa-bahasa Eropa ). Fungsi khusus adalah untuk mempertahankan kerangka dasar untuk menguji pencarian informasi sistem, dan menciptakan repositori data bagi para peneliti untuk digunakan dalam mengembangkan dibandingkan standar . Organisasi memegang sebuah forum pertemuan setiap September di Eropa. Sebelum setiap forum, peserta menerima satu set tugas tantangan. Tugas ini dirancang untuk menguji berbagai aspek sistem pencarian informasi dan mendorong perkembangan mereka. Kelompok peneliti mengusulkan dan mengatur kampanye untuk memenuhi tugas-tugas. Hasilnya digunakan sebagai tolok ukur untuk keadaan seni di daerah-daerah tertentu.,
b.         Cross Language Evaluation Forum (CLEF), Rangkaian evaluasi telah berkonsentrasi pada bahasa-bahasa Eropa dan lintas-bahasa pencarian informasi, dan Reuters-RCV1. Untuk klasifikasi teks, koleksi uji yang paling digunakan telah menjadi Reuters-21.578 koleksi 21.578 artikel Newswire. Baru-baru ini, Reuters merilis Volume Reuters jauh lebih besar Corpus 1 (RCV1), yang terdiri dari 806.791 dokumen. Penjelasan yang skala dan kaya membuat dasar yang lebih baik untuk penelitian masa depan.
c.          20 Newsgroup. Ini adalah teks lain banyak digunakan klasifikasi koleksi, dikumpulkan oleh Ken Lang. Ini terdiri dari 1000 artikel dari masing-masing 20 newsgroup Usenet (nama newsgroup yang dianggap sebagai kategori). Setelah penghapusan artikel duplikat, seperti yang biasanya digunakan, mengandung 18.941 artikel.
d.         Inisiatif CLEF (Konferensi dan Labs dari Forum Evaluasi, sebelumnya dikenal sebagai Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya adalah untuk mempromosikan penelitian, inovasi, dan pengembangan sistem akses informasi dengan penekanan pada multibahasa dan multimodal informasi dengan berbagai tingkat struktur. CLEF mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur untuk:
1.      multibahasa dan pengujian sistem multimodal, tuning dan evaluasi,
2.      penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan akses informasi,
3.      penciptaan koleksi tes dapat digunakan kembali untuk pembandingan;
4.      eksplorasi metodologi evaluasi baru dan cara-cara inovatif untuk menggunakan data eksperimen,
5.      pembahasan hasil, perbandingan pendekatan, pertukaran ide, dan transfer pengetahuan.
e.       Inisiatif CLEF disusun dalam dua bagian utama:
1.      serangkaian Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang inovatif;
2.      Konferensi peer-review pada berbagai isu, termasuk
a.       Melanjutkan penyelidikan kegiatan lab evaluasi,
b.      Percobaan menggunakan data multibahasa dan multimodal khususnya, tetapi tidak hanya data yang dihasilkan dari kegiatan CLEF,
c.       Penelitian dalam metodologi evaluasi dan tantangan.
d.      Sejak tahun 2000 CLEF telah memainkan peran utama dalam penyelidikan merangsang dan penelitian di berbagai bidang utama dalam domain pencarian informasi, menjadi terkenal di masyarakat IR internasional. Hal ini juga mempromosikan studi dan implementasi metodologi evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun, komunitas riset yang luas, kuat, dan multidisiplin telah dibangun, yang meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani penyebaran kegiatan CLEF.
e.       Hasilnya tradisional disajikan dan dibahas pada lokakarya tahunan dalam hubungannya dengan Konferensi Eropa untuk Perpustakaan Digital (ECDL), sekarang disebut Teori dan Praktek di Perpustakaan Digital (TPDL).
f.        Sejak 2010, CLEF telah mengambil bentuk suatu peristiwa independen, dibentuk oleh sebuah konferensi peer-review diselenggarakan dengan satu set laboratorium evaluasi.
v Reuters  :  Text Classification
Reuters dikenal 22.173 koleksi tes, yang secara signifikan lebih besar dari koleksi tes yang paling tradisional. Selain itu, Reuters memiliki tidak ada perhitungan recall masalah biasanya terkait dengan beberapa koleksi uji yang lebih besar sekarang tersedia. Tutorial ini menjelaskan metode ( berasal dari Lewis [Lewis 91] ) digunakan untuk melakukan percobaan pada pengambilan Reuters koleksi. Kemudian, untuk menggambarkan penggunaan Reuters, beberapa eksperimen sederhana adalah pengambilan juga disajikan yang membandingkan kinerja algoritma stemming.Penggabungan dalam diblokir semacam berbasis blok indexing.Two ( posting daftar untuk digabung) yang dimuat dari disk ke memori, bergabung dalam memori ( gabungan posting daftar) dan ditulis kembali ke disk. Kami menunjukkan hal bukan termIDs untuk dibaca lebih baik.
Pada langkah terakhir, algoritma secara bersamaan menggabungkan sepuluh blok menjadi satu indeks gabungan yang besar. Contoh dengan dua blok ditunjukkan pada Gambar  dan , dimana kami menggunakan  untuk menunjukkan  dokumen koleksi. Untuk melakukan penggabungan, kita membuka semua file blok secara bersamaan, dan memelihara buffer baca kecil untuk sepuluh blok kita membaca dan menulis buffer untuk indeks gabungan akhir kita menulis. Dalam setiap iterasi, kita pilih term ID terendah yang belum diproses belum menggunakan antrian prioritas atau struktur data yang sama. Semua daftar posting untuk term ID dibaca dan digabungkan, dan daftar gabungan ditulis kembali ke disk. Setiap penyangga membaca diisi ulang dari filenya bila diperlukan.
Kompleksitas waktu adalah (T log T) karena langkah dengan kompleksitas waktu tertinggi adalah memilah dan T  merupakan batas atas untuk jumlah barang yang kami harus mengurutkan (yaitu, jumlah term ID-doc Id pasang). Tapi waktu pengindeksan aktual biasanya didominasi oleh waktu yang diperlukan untuk mengurai dokumen (P Arse N EXT B LOCK) dan untuk melakukan final merge (M ERGE B LOCKS).
Perhatikan bahwa Reuters-RCV1 tidak terlalu besar di zaman ketika satu atau lebih GB memori standar pada komputer pribadi. kita bisa menciptakan indeks terbalik untuk RCV1 dalam memori pada server tidak terlalu gemuk. Teknik yang kita telah dijelaskan diperlukan, namun, untuk koleksi yang beberapa kali lipat lebih besar.
Lima langkah dalam membangun indeks untuk Reuters-RCV1 di diblokir semacam berbasis pengindeksan.




Tidak ada komentar:

Poskan Komentar