Google Books

Google Book Mencatat Hampir 130 Juta Judul Buku

Pernahkah kita berpikir ada berapa buku yang pernah diterbitkan sepanjang sejarah modern? Perlu diingat bahwa umat manusia sudah dapat membaca selama 5000-6000 tahun. Hampir mustahil untuk dapat menghitung jumlah semua buku yang sudah ada, tapi Google Books mencatat ada 129.864.880 judul buku yang pernah diterbitkan. Sebuah angka yang fantastis, bukan karena jumlahnya, tapi presisinya. Bagaimana caranya?

Mereka menggunakan algoritme yang rumit, dan akan coba dibahas secara sederhana di sini. Yang harus ditangani paling pertama adalah pendefinisian “BUKU”. Google mendefinisikan BUKU sebagai literatur yang dibuat dalam bentuk Google menggunakan ISBN (International Standard Book Numbers) sebagai “saringan pertama”. Inti dari ISBN adalah melakukan indexing untuk buku-buku yang diterbitkan secara modern. Akan tetapi, ISBN baru dibuat sekitar 30-40 tahun, dan digunakan hanya di negara-negara barat, maka tidak bisa menjadi “sole source” untuk penghitungan buku ini. Oleh sebab itulah, diambil beberapa sumber lain seperti database buku WorldCat atau Library of Congress. Pencarian ini menghasilkan sekitar semilyar buku.

Dari semilyar buku tersebut, dicari buku-buku yang merupakan duplikat, dan kemudian dihilangkan dari entri. Di sinilah saatnya para engineer jenius dari Google bekerja. Mereka menggunakan algoritme rumit (yang terlalu sulit untuk dipaparkan di sini) untuk menemukan duplikasi tersebut. Dari hasil saringan ini, didapatkan sekitar 210 juta buku. Kemudian, langkah berikutnya adalah menghilangkan data-data yang tidak sesuai dengan definisi buku di atas, seperti microform, rekaman audio, dan video dengan ISBN, menyisakan 146 juta buku. Kemudian, sekitar 16 juta dokumen pemerintahan dihilangkan dari hitungan, menyisakan angka yang disebutkan di awal.

Beberapa perusahaan sudah mengeluarkan gagasan-gagasan untuk memindai semua buku fisik menjadi bentuk digital, dan diproses dengan sistem OCR (pengenal karakter). Google adalah salah satu pionir (dan sejauh ini satu-satunya yang memiliki sumber daya yang cukup memadai) dalam proyek digitisasi karya tulis dan literatur dunia. Memang sebuah ide yang terdengar mengerikan, bahwa dunia kita sudah semakin compact.

Ilustrasinya, bila kita dapat membuat sebuah media penyimpanan data yang mampu menampung semua bentuk literatur digital, sebesar itulah kekayaan literatur kita. Saat ini, sebuah hard disk eksternal berukuran dompet dapat menampung hingga 8TB. Katakanlah seluruh karya literatur dunia berukuran 8000 TB, kita hanya butuh 1000 harddisk, kecil sekali bukan? Ukuran dunia tidak mengecil, tapi jangkauan pandang manusia yang meluas.