Model besar ke arah multimodaliti

Pernahkah anda mendengar tentang paradoks Moravec? Paradoks menyatakan bahawa penalaran lanjutan memerlukan sedikit kuasa pengiraan untuk sistem kecerdasan buatan (AI), sambil melaksanakan kemahiran persepsi-motor yang diambil oleh manusia memerlukan sumber pengiraan yang besar. Pada dasarnya, tugas -tugas logik yang kompleks lebih mudah untuk AI daripada tugas deria asas yang dapat dicapai oleh naluri manusia. Paradoks ini menyoroti perbezaan antara AI dan kebolehan kognitif manusia pada tahap ini.

Orang ramai adalah multimodal. Setiap daripada kita adalah seperti terminal pintar yang biasanya perlu pergi ke sekolah untuk dididik (terlatih), tetapi tujuan dan hasil latihan dan pembelajaran itu adalah kita mempunyai keupayaan untuk bekerja dan hidup secara autonomi tanpa selalu bergantung pada arahan luaran dan kawalan.

Kami belajar tentang dunia di sekeliling kita melalui pelbagai modaliti deria seperti penglihatan, ucapan, bunyi, sentuhan, rasa, dan bau untuk menganalisis, alasan, membuat keputusan, dan mengambil tindakan.

Selepas bertahun -tahun gabungan sensor dan evolusi AI, robot sebahagian besarnya dilengkapi dengan sensor multimodal pada peringkat ini. Semasa kami membawa lebih banyak kuasa pengkomputeran ke peranti kelebihan seperti robot, peranti ini menjadi lebih bijak dan lebih bijak, mampu merasakan persekitaran mereka, memahami dan berkomunikasi dalam bahasa semulajadi, memperoleh haptik melalui antara muka penderiaan digital, serta merasakan daya tertentu robot, Halaju sudut, dan juga medan magnet di sekitar robot melalui gabungan pecutan, gyroscopes & magnetometer, dan banyak lagi.

Ke arah era baru robotik dan kognisi mesin

Sebelum model pengubah dan bahasa yang besar (LLM), melaksanakan multimodality dalam AI biasanya memerlukan penggunaan pelbagai model berasingan yang bertanggungjawab untuk pelbagai jenis data (teks, imej, audio) dan integrasi modaliti yang berbeza melalui proses yang kompleks.

Dengan kemunculan model pengubah dan LLM, multimodaliti telah menjadi lebih bersepadu, membolehkan model tunggal untuk memproses secara serentak dan memahami pelbagai jenis data, yang mengakibatkan sistem AI yang lebih mampu merasakan persekitaran mereka secara komprehensif. Peralihan ini telah meningkatkan kecekapan dan keberkesanan aplikasi AI multimodal.

Walaupun LLMs seperti GPT -3 terutamanya berasaskan teks, industri telah membuat kemajuan pesat ke arah multimodality. Dari klip Openai dan Dall-e, dan sekarang Sora dan Gpt -4 o, adalah contoh model yang telah bergerak ke arah interaksi multimodality dan lebih semula jadi manusia. Sebagai contoh, Clip memahami imej yang dipasangkan dengan bahasa semulajadi, dengan itu merapatkan jurang antara maklumat visual dan teks; Dall-E bertujuan untuk menjana imej berdasarkan deskripsi teks. Kami melihat model Google Gemini yang menjalani evolusi yang sama.

Pada tahun 2024, evolusi multimodal mempercepatkan. Pada bulan Februari, Openai mengeluarkan Sora, yang menghasilkan video yang realistik atau imajinatif berdasarkan deskripsi teks. Apabila anda memikirkannya, ini dapat memberikan jalan yang menjanjikan untuk membina simulator dunia sejagat, atau menjadi alat penting untuk robot latihan. Selepas tiga bulan, GPT -4 O telah meningkatkan prestasi interaksi robot manusia dengan ketara dan dapat membuat alasan dalam masa nyata antara audio, penglihatan dan teks. Menggabungkan maklumat teks, visual dan audio untuk melatih model baru ke akhir menghapuskan dua peralihan modal dari modaliti input ke teks dan kemudian dari teks ke modal output, yang seterusnya secara dramatik meningkatkan prestasi.

Pada minggu yang sama pada bulan Februari, Google mengeluarkan Gemini 1.5, yang secara dramatik memperluaskan panjang konteks kepada 1 juta token. Ini bermakna 1.5 Pro boleh memproses sejumlah besar maklumat sekaligus, termasuk satu jam video, 11 jam audio, dan asas kod yang mengandungi lebih daripada 30, 000 baris kod atau 700, 000 Words.Gemini 1.5 dibina di atas penyelidikan terkemuka Google mengenai arkitek pakar pengubah dan campuran ahli (MOE), dan sumber terbuka 2B dan 7B model yang boleh digunakan di tepi sisi. Di persidangan Google I/O pada bulan Mei, selain menggandakan panjang konteks dan melepaskan satu siri alat dan aplikasi AI generatif, Google meneroka visinya untuk masa depan Projek Astra, pembantu AI tujuan umum yang memproses maklumat multimodal , memahami konteks di mana pengguna diletakkan, dan berinteraksi dengan orang dalam perbualan dengan cara yang sangat semula jadi.

Sebagai syarikat di belakang sumber terbuka LLM llama, Meta juga menyertai trek kecerdasan buatan umum (AGI).

Multimodality yang benar ini sangat meningkatkan tahap kecerdasan mesin dan akan membawa kepada paradigma baru untuk banyak industri.

Sebagai contoh, robot digunakan untuk menjadi sangat homogen, dengan beberapa sensor dan keupayaan pergerakan, tetapi pada umumnya mereka tidak mempunyai "otak" untuk mempelajari perkara -perkara baru dan menyesuaikan diri dengan persekitaran yang tidak berstruktur dan tidak dikenali.

LLM multimodal dijangka mengubah keupayaan robot untuk menganalisis, membuat alasan, dan belajar, memindahkan mereka dari pengkhususan ke generalisasi. PC, pelayan, dan telefon pintar adalah pemimpin dalam platform pengkomputeran umum, dan boleh menjalankan pelbagai jenis aplikasi perisian untuk mencapai pelbagai fungsi. Penyebaran akan membantu meningkatkan, menjana skala ekonomi, dan harga boleh dikurangkan secara dramatik apabila mereka meningkat, yang membawa kepada kitaran pengangkatan yang mulia di lebih banyak bidang.

Elon Musk melihat manfaat teknologi umum pada awal, seperti robot Tesla berkembang dari Bumblebee pada tahun 2022 kepada Optimus Gen 1, yang diumumkan pada bulan Mac 2023, dan Kej 2, yang diumumkan pada akhir tahun 2023, dengan keupayaan fleksibiliti dan keupayaan pembelajaran yang semakin meningkat. Selama masa lalu 6-12 bulan, kami telah menyaksikan beberapa kejayaan dalam bidang robotik dan robotik humanoid.

Teknologi baru di belakang robotik generasi akan datang dan kecerdasan terkandung

Tidak ada keraguan bahawa kita masih mempunyai banyak kerja yang perlu dilakukan sebelum kecerdasan terkandung mencapai pengeluaran besar -besaran. Kami memerlukan reka bentuk yang lebih ringan, runtime yang lebih panjang, dan lebih cepat, platform pengkomputeran kelebihan yang lebih kuat untuk memproses dan memusnahkan maklumat data sensor untuk membuat keputusan dan tindakan kawalan yang tepat pada masanya.

Dan kita bergerak ke arah mewujudkan robot humanoid; Beribu-ribu tahun tamadun manusia telah menghasilkan persekitaran di mana-mana yang direka untuk manusia, dan sistem robot humanoid dijangka dapat berinteraksi dengan selesa dengan manusia dan alam sekitar dan melaksanakan operasi yang diperlukan dalam persekitaran yang sedia ada kerana persamaan mereka dalam bentuk kepada manusia. Sistem -sistem ini akan sesuai untuk mengendalikan tugas -tugas yang kotor, berbahaya, dan membosan . Aplikasi sedemikian menggunakan atribut manusia mesin humanoid untuk memudahkan interaksi robot manusia semulajadi, bertindak di ruang yang berpusat pada manusia, dan melaksanakan tugas-tugas yang sering sukar untuk robot tradisional untuk dicapai.

Banyak syarikat AI dan robotik melancarkan penyelidikan dan kerjasama baru di sekitar bagaimana untuk melatih robot untuk alasan dan merancang yang lebih baik dalam persekitaran yang tidak berstruktur baru. Sebagai "otak" baru robot, model yang terlatih pada sejumlah besar data mempunyai keupayaan generalisasi yang sangat baik, membolehkan robot melihat dan memahami persekitaran mereka dengan lebih komprehensif, menyesuaikan pergerakan dan tindakan mereka berdasarkan maklum balas deria, dan mengoptimumkan prestasi mereka dalam pelbagai persekitaran dinamik.

Sebagai contoh yang menarik, Boston Dynamics 'Robot Dog, Spot, boleh bertindak sebagai pemandu pelancong di muzium, berinteraksi dengan pelawat, memperkenalkan mereka kepada pelbagai pameran, dan menjawab soalan mereka. Mungkin sukar untuk dipercayai, tetapi dalam kes ini, persembahan Spot menghiburkan, interaktif, dan halus lebih penting daripada memastikan fakta -fakta yang betul.

Transformer Robotics: Otak Baru Robotik

Transformer Robotics (RT) berkembang pesat untuk menterjemahkan input multimodal terus ke kod yang boleh diambil tindakan. Google DeepMind's RT -2 melaksanakan serta pendahulunya, RT -1, dengan kadar kejayaan hampir 100% ketika melaksanakan tugas yang telah dilihat sebelumnya. Walau bagaimanapun, apabila dilatih dengan Palm-E (model bahasa multimodal yang berorientasikan robot) dan Pali-X (model visi dan bahasa berbilang bahasa berskala besar, tidak direka khusus untuk robot), rt -2 mempunyai keupayaan generalisasi yang lebih baik dan mengatasi rt -1 pada tugas -tugas yang tidak kelihatan.

Microsoft memperkenalkan Llava, pembantu bahasa dan penglihatan berskala besar. Awalnya direka untuk tugas-tugas berasaskan teks, Llava memanfaatkan kuasa GPT -4 untuk membuat paradigma baru untuk arahan multimodal untuk mengikuti data, dengan lancar mengintegrasikan komponen teks dan visual, yang boleh berguna untuk tugas robotik. Selepas pengenalannya, Llava menetapkan rekod baru untuk sembang multimodal dan tugas kuiz saintifik, sudah melebihi keupayaan purata manusia.

Seperti yang dinyatakan sebelum ini, tesla's foray to humanoid dan AI tujuan umum robotik adalah penting bukan sahaja kerana ia direka untuk skala dan pengeluaran besar Robot. Tesla juga mempunyai kes penggunaan pembuatan pintar untuk memohon Optimus untuk proses pengeluaran kenderaan baru.

Lengan adalah asas masa depan robot

ARM percaya bahawa otak robot, kedua-dua "otak besar" dan "otak kecil," harus menjadi sistem pengkomputeran AI yang heterogen yang menyampaikan prestasi unggul, tindak balas masa nyata, dan kecekapan tenaga.

news-800-1

Robotik melibatkan pelbagai tugas, termasuk pengiraan asas (misalnya, menghantar dan menerima isyarat ke dan dari motor), pemprosesan data canggih (contohnya, menafsirkan imej dan data sensor), dan menjalankan LLM multimodal yang disebut tadi. CPU sangat sesuai untuk tugas-tugas tujuan umum, manakala pedal gas AI dan GPU dapat lebih cekap mengendalikan tugas pemprosesan selari, seperti pembelajaran mesin (ML) dan pemprosesan grafik. Pedal gas tambahan seperti pemproses isyarat imej dan codec video juga boleh diintegrasikan untuk meningkatkan keupayaan penglihatan robot dan kecekapan penyimpanan/penghantaran. Di samping itu, CPU harus mempunyai respons respons masa nyata dan perlu dapat menjalankan sistem operasi seperti pakej Linux dan ROS.

Apabila dilanjutkan ke timbunan perisian robot, lapisan sistem operasi juga memerlukan sistem operasi masa nyata (RTOS) yang boleh mengendalikan tugas-tugas kritikal masa, serta pengedaran Linux yang disesuaikan untuk robotik, seperti ROS, yang dapat menyediakan Perkhidmatan yang direka untuk kluster pengkomputeran heterogen. Kami percaya bahawa standard dan program pensijilan yang ditaja ARM seperti Sistem Ready dan PSA yang disahkan akan membantu skala pembangunan perisian robot. System Ready direka untuk memastikan bahawa pengagihan OS kaya standard dijalankan pada pelbagai sistem-cip (SOCS) berdasarkan seni bina ARM, sementara PSA disahkan membantu untuk memudahkan penyelesaian pelaksanaan keselamatan untuk memenuhi keperluan keselamatan dan pengawalseliaan serantau untuk peranti yang bersambung.

Kemajuan dalam model multimodal berskala besar dan generatif AI mengadakan era baru dalam pembangunan robot AI dan robot humanoid. Bersama dengan pengkomputeran dan ekosistem AI, kecekapan tenaga, keselamatan, dan keselamatan berfungsi adalah penting untuk membuat arus perdana robotik dalam era baru ini. Pemproses ARM sudah digunakan secara meluas dalam robotik, dan kami berharap dapat bekerja rapat dengan ekosistem untuk menjadikan ARM sebagai batu asas masa depan robotik AI.