Dari manakah AI mendapat maklumatnya?

Pernahkah anda duduk di sana sambil menggaru kepala, seperti… dari mana datangnya benda ini sebenarnya ? Maksud saya, AI tidak menyelongkar susunan perpustakaan yang berdebu atau menonton filem pendek YouTube secara diam-diam. Namun entah bagaimana ia menghasilkan jawapan untuk segala-galanya—daripada petua lasagna hingga fizik lubang hitam—seperti ada kabinet fail tanpa dasar di dalamnya. Realitinya lebih pelik, dan mungkin lebih menarik daripada yang anda sangka. Mari kita rungkaikannya sedikit (dan ya, mungkin kita akan bongkar beberapa mitos di sepanjang jalan).

Adakah ia Sihir? 🌐

Ia bukan sihir, walaupun kadangkala ia terasa begitu. Apa yang berlaku secara tersembunyi pada dasarnya adalah ramalan corak . Model bahasa besar (LLM) tidak menyimpan fakta seperti cara otak anda berpegang pada resipi biskut nenek anda; sebaliknya, mereka dilatih untuk meneka perkataan seterusnya (token) berdasarkan apa yang berlaku sebelum ini [2]. Dalam praktiknya, itu bermakna mereka berpegang teguh pada hubungan: perkataan mana yang tergantung bersama, bagaimana ayat biasanya terbentuk, bagaimana keseluruhan idea dibina seperti perancah. Itulah sebabnya output kedengaran betul, walaupun - kejujuran penuh - ia adalah peniruan statistik, bukan pemahaman [4].

Jadi apakah yang sebenarnya menjadikan maklumat yang dijana AI berguna ? Beberapa perkara:

Kepelbagaian data - mengambil daripada sumber yang tidak terkira banyaknya, bukan daripada satu aliran yang sempit.
Kemas kini - tanpa kitaran penyegaran semula, ia akan cepat basi.
Penapisan - idealnya menangkap sampah sebelum ia meresap masuk (walaupun, biar betul, jaring itu ada lubang).
Semakan silang - bergantung pada sumber pihak berkuasa (fikirkan NASA, WHO, universiti utama), yang merupakan perkara wajib dalam kebanyakan buku panduan tadbir urus AI [3].

Namun, kadangkala ia mereka-reka dengan yakin. Apa yang dipanggil halusinasi ? Pada dasarnya karut yang digilap disampaikan dengan wajah yang serius [2][3].

Artikel yang mungkin anda ingin baca selepas ini:

🔗 Bolehkah AI meramalkan nombor loteri
Meneroka mitos dan fakta tentang ramalan loteri AI.

🔗 Apakah maksudnya untuk mengambil pendekatan holistik terhadap AI?
Memahami AI dengan perspektif yang seimbang tentang etika dan impak.

🔗 Apa yang dikatakan Bible tentang kecerdasan buatan
Meneliti perspektif alkitabiah tentang teknologi dan penciptaan manusia.

Perbandingan Ringkas: Dari Mana AI Berasal 📊

Tidak setiap sumber adalah sama, tetapi setiap satunya memainkan peranannya. Berikut ialah paparan snapshot.

Jenis Sumber	Siapa yang Menggunakannya (AI)	Kos/Nilai	Mengapa Ia Berfungsi (atau tidak...)
Buku & Artikel	Model bahasa yang besar	Tidak ternilai (agak)	Pengetahuan yang padat dan berstruktur - cepat menua.
Laman Web & Blog	Hampir semua AI	Percuma (dengan bunyi bising)	Kepelbagaian liar; campuran kecemerlangan dan sampah yang mutlak.
Kertas Akademik	AI yang banyak menjalankan penyelidikan	Kadangkala disekat berbayar	Ketegasan + kredibiliti, tetapi diselitkan dengan jargon yang berat.
Data Pengguna	AI yang diperibadikan	Sangat sensitif ⚠️	Jahitan yang rapi, tetapi privasi yang menyusahkan.
Web Masa Nyata	AI yang dipautkan carian	Percuma (jika dalam talian)	Mengekalkan maklumat terkini; kelemahannya ialah risiko penyebaran khabar angin.

Alam Semesta Data Latihan 🌌

Ini adalah fasa "pembelajaran zaman kanak-kanak". Bayangkan memberikan seorang kanak-kanak berjuta-juta buku cerita, keratan berita dan bahan bacaan Wikipedia sekaligus. Begitulah rupa pra-latihan. Dalam dunia sebenar, penyedia perkhidmatan mengumpulkan data yang tersedia secara umum, sumber berlesen dan teks yang dihasilkan oleh jurulatih [2].

Berlapis-lapis: contoh manusia yang dipilih susun—jawapan yang baik, jawapan yang buruk, dorongan ke arah yang betul—sebelum peneguhan bermula [1].

Peringatan ketelusan: syarikat tidak mendedahkan setiap butiran. Sesetengah penghadang adalah kerahsiaan (IP, kebimbangan keselamatan), jadi anda hanya mendapat sebahagian daripada peluang untuk mengetahui campuran sebenar [2].

Carian Masa Nyata: Topping Tambahan 🍒

Sesetengah model kini boleh mengintip di luar gelembung latihan mereka. Itulah penjanaan tambahan pengambilan (RAG) - pada asasnya menarik sebahagian daripada indeks langsung atau kedai dokumen, kemudian memasukkannya ke dalam balasan [5]. Sesuai untuk perkara yang pantas berubah seperti tajuk berita atau harga saham.

Masalahnya? Internet sama hebatnya dengan yang lain. Jika penapis atau semakan asal lemah, anda berisiko data sampah akan kembali menyelinap masuk—tepat seperti yang diberi amaran oleh rangka kerja risiko [3].

Penyelesaian yang biasa: syarikat menghubungkan model ke mereka sendiri , jadi jawapan memetik dasar HR semasa atau dokumen produk yang dikemas kini dan bukannya sekadar berpura-pura. Fikirkan: kurang momen "uh-oh", lebih banyak balasan yang boleh dipercayai.

Penalaan Halus: Langkah Penggilapan AI 🧪

Model pra-latihan mentah adalah kikuk. Jadi ia ditala dengan teliti :

Mengajar mereka untuk bersikap suka membantu, tidak berbahaya, jujur (melalui pembelajaran peneguhan daripada maklum balas manusia, RLHF) [1].
Menggosok tepi yang tidak selamat atau toksik (penjajaran) [1].
Melaraskan nada—sama ada mesra, formal atau sarkastik yang suka bermain.

Ia bukan menggilap berlian tetapi sebaliknya mengawal runtuhan statistik agar berkelakuan lebih seperti rakan perbualan.

Kegagalan dan Kegagalan 🚧

Jangan kita berpura-pura ia sempurna:

Halusinasi - jawapan yang tepat tetapi salah sama sekali [2][3].
Bias - ia mencerminkan corak yang dimasukkan ke dalam data; malah boleh menguatkannya jika tidak ditanda [3][4].
Tiada pengalaman langsung - ia boleh bercakap tentang resipi sup tetapi tidak pernah merasainya [4].
Terlalu yakin - prosa mengalir seperti ia tahu, walaupun ia tidak tahu. Rangka kerja risiko menekankan andaian yang tidak jelas [3].

Mengapa Rasanya Seperti Mengetahui 🧠

Ia tidak mempunyai kepercayaan, tiada ingatan dalam erti kata manusia, dan pastinya tiada diri. Namun kerana ia menyusun ayat dengan lancar, otak anda membacanya seolah-olah ia memahami . Apa yang berlaku hanyalah ramalan token seterusnya berskala besar : menghasilkan trilion kebarangkalian dalam sekelip mata [2].

Getaran "kecerdasan" adalah tingkah laku yang muncul—para penyelidik menggelarnya, agak berlagak, sebagai "burung kakak tua stokastik" [4].

Analogi Mesra Kanak-kanak 🎨

Bayangkan seekor burung kakak tua yang telah membaca setiap buku di perpustakaan. Ia tidak memahami cerita tetapi boleh mengadun semula kata-kata menjadi sesuatu yang terasa bijak. Kadangkala ia tepat; kadangkala ia mengarut—tetapi dengan bakat yang cukup, anda tidak selalu dapat membezakannya.

Kesimpulannya: Dari Mana Berasalnya Maklumat AI 📌

Secara ringkasnya:

Data latihan yang besar-besaran (awam + berlesen + dihasilkan oleh jurulatih) [2].
Penalaan halus dengan maklum balas manusia untuk membentuk nada/tingkah laku [1].
Sistem pengambilan apabila disambungkan ke strim data langsung [5].

AI tidak "mengetahui" sesuatu—ia meramalkan teks . Itulah kuasa besarnya dan juga kelemahannya. Kesimpulannya? Sentiasa semak semula perkara penting dengan sumber yang dipercayai [3].

Rujukan

Ouyang, L. et al. (2022). Melatih model bahasa untuk mengikuti arahan dengan maklum balas manusia (InstructGPT) . arXiv .
OpenAI (2023). Laporan Teknikal GPT-4 - campuran data berlesen, awam dan dicipta manusia; objektif dan batasan ramalan token seterusnya. arXiv .
NIST (2023). Rangka Kerja Pengurusan Risiko AI (AI RMF 1.0) - asal usul, kepercayaan dan kawalan risiko. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Mengenai Bahaya Burung Kakaktua Stokastik: Bolehkah Model Bahasa Terlalu Besar? PDF .
Lewis, P. et al. (2020). Penjanaan Tambahan Pengambilan untuk NLP Intensif Pengetahuan . arXiv .

Cari AI Terkini di Kedai Pembantu AI Rasmi

Tentang Kami

Kembali ke blog

Negara/rantau