Grok は『銀河ヒッチハイカーガイド』に触発された人工知能で、ほぼすべての質問に答え、さらには問題提起の難題を提供することを目的としています!
Grok はユーモアと反抗精神を持つように設計されているため、ユーモアが好きでない方は使用しないでください!
Grok の独自の根本的な利点は、𝕏プラットフォームを通じてリアルタイムで世界を理解することです。また、他のほとんどの人工知能システムが答えを拒否する質問にも答えます。
Grok はまだ初期テスト版の段階にあり、これは私たちが 2 ヶ月のトレーニングで達成できた最良の成果ですので、皆さんの助けを借りて毎週迅速に改善されることを期待してください。
ありがとうございます、
xAI チーム
なぜ Grok を構築するのか#
xAI では、人間が理解と知識を追求するのを支援する人工知能ツールを作成したいと考えています。
Grok を作成し改善することで、私たちの目標は:
-
フィードバックを収集し、私たちが全人類に最大限の利益をもたらす人工知能ツールを構築していることを確認することです。さまざまな背景や政治的見解を持つ人々に役立つ人工知能ツールを設計することが非常に重要だと考えています。また、法律を遵守しつつ、ユーザーに人工知能ツールを提供したいと考えています。Grok の目標は、このアプローチを公開の場で探求し、実演することです。
-
研究と革新を促進すること:私たちは Grok が誰にとっても強力な研究アシスタントとなり、関連情報への迅速なアクセス、データの処理、新しいアイデアの提案を支援することを望んでいます。
私たちの最終目標は、私たちの人工知能ツールが理解の追求を支援することです。
Grok-1 への旅#
Grok を動かすエンジンは Grok-1 であり、これは私たちが過去 4 ヶ月間にわたって開発した最先端の LLM です。Grok-1 はこの期間中に何度も反復を重ねました。
xAI を発表した後、私たちは 330 億のパラメータを持つプロトタイプ LLM(Grok-0)をトレーニングしました。この初期モデルは、標準 LM ベンチマークで LLaMA 2(70B)の機能に近いですが、トレーニングリソースの半分しか使用していません。この 2 ヶ月間で、推論とコーディング能力において顕著な進歩を遂げ、最終的に Grok-1 が誕生しました。これは最先端の言語モデルで、より強力な機能を持ち、HumanEval コーディングタスクで 63.2%、MMLU で 73% を達成しました。
Grok-1 の能力向上を理解するために、私たちは数学と推論能力を測定することを目的とした標準的な機械学習ベンチマークを使用して一連の評価を行いました。
GSM8k:中学校の数学応用問題(Cobbe et al. 2021)、思考の連鎖を用いたプロンプト。
MMLU:多分野の選択問題(Hendrycks et al. 2021)、5 つの文脈例を提供。
HumanEval:Python コード完了タスク(Chen et al. 2021)、pass@1 に対するゼロショット評価。
数学:LaTeX で書かれた中学校と高校の数学問題(Hendrycks et al. 2021)、固定の 4 回のプロンプトを使用。
ベンチマーク | Grok-0 (33B) | LLaMa 2 70B | Inflection-1 | GPT-3.5 | Grok-1 | Palm 2 | Claude 2 | GPT-4 |
---|---|---|---|---|---|---|---|---|
GSM8k | 56.8%8-shot | 56.8%8-shot | 62.9%8-shot | 57.1%8-shot | 62.9%8-shot | 80.7%8-shot | 88.0%8-shot | 92.0%8-shot |
MMLU | 65.7%5-shot | 68.9%5-shot | 72.7%5-shot | 70.0%5-shot | 73.0%5-shot | 78.0%5-shot | 75.0%5-shot + CoT | 86.4%5-shot |
HumanEval | 39.7%0-shot | 29.9%0-shot | 35.4%0-shot | 48.1%0-shot | 63.2%0-shot | - | 70%0-shot | 67%0-shot |
MATH | 15.7%4-shot | 13.5%4-shot | 16.0%4-shot | 23.5%4-shot | 23.9%4-shot | 34.6%4-shot | - | 42.5%4-shot |
これらのベンチマークテストにおいて、Grok-1 は卓越した成績を示し、計算カテゴリで他のすべてのモデルを超えました。ChatGPT-3.5 や Inflection-1 のようなモデルを超えることができるのは、大量のトレーニングデータと計算リソースを持つものだけです。これは、xAI における LLMs の卓越した効率でのトレーニングにおける急速な進展を示しています。
これらのベンチマークテストがネット上に存在する可能性があるため、私たちのモデルが無意識のうちにこれらのベンチマークテストのトレーニングを受けた可能性を排除できません。そのため、私たちは 2023 年のハンガリー全国高校数学試験で私たちのモデル(および Claude-2 と GPT-4)を手動で評価しました。この試験は 5 月末に発表され、私たちがデータセットを収集した時期よりも遅れています。Grok は C(59%)の成績で試験に合格し、Claude-2 も同じ成績(55%)を獲得し、GPT-4 は B(68%)を取得しました。すべてのモデルは temperature を 0.1 に設定して評価され、同じプロンプトを使用しました。私たちはこの評価のために調整を行っていないことを指摘する必要があります。この実験は、私たちのモデルが明示的に調整されたことのないデータセットに対する「現実の」テストとして機能しました。
人間評価 | Grok-0 | GPT-3.5 | Claude 2 | Grok-1 | GPT-4 |
---|---|---|---|---|---|
ハンガリー全国高校数学試験(2023 年 5 月) | 37%1-shot | 41%1-shot | 55%1-shot | 59%1-shot | 68%1-shot |
私たちはGrok-1 の重要な技術的詳細の要約をモデルカードで提供しています。
xAI のエンジニアリングデザイン#
深層学習研究の最前線では、信頼性のあるインフラストラクチャはデータセットや学習アルゴリズムと同様に慎重に構築される必要があります。Grok を作成するために、私たちは Kubernetes、Rust、JAX に基づくカスタムトレーニングおよび推論スタックを構築しました。
LLM のトレーニングは列車のように急速に進行します。もしその中の一両が脱線すれば、全体の列車が軌道を外れ、再び立て直すのが難しくなります。GPU の故障の方法は多岐にわたります:製造欠陥、緩んだ接続、不正な構成、劣化したメモリチップ、時折のランダムなビット反転などです。トレーニング中、私たちは数千の GPU で数ヶ月にわたって同期計算を行っており、これらの故障モードは規模のために頻繁に発生します。これらの課題を克服するために、私たちは各種の故障を即座に特定し自動的に処理するカスタム分散システムを採用しました。xAI では、1 ワットあたりの有用な計算を最大化することを私たちの努力の重要な焦点としています。過去数ヶ月間、私たちのインフラストラクチャはダウンタイムを最小限に抑え、不安定なハードウェアの下でも高いモデル Flop 利用率(MFU)を維持できるようにしました。
Rust は、スケーラブルで信頼性が高く、メンテナンスが容易なインフラストラクチャを構築するための理想的な選択肢であることが証明されており、高性能、豊富なエコシステムを提供し、分散システムで一般的に見られるほとんどのエラーを防ぐことができます。私たちのチームは小規模であるため、インフラストラクチャの信頼性は非常に重要であり、そうでなければメンテナンスが革新を制限することになります。Rust は、コードの変更やリファクタリングが数ヶ月間ほとんど監視なしで動作するプログラムを生成する可能性を提供してくれます。
私たちは現在、数万のアクセラレーターでのトレーニング実行を信頼性を持って調整し、インターネット規模のデータパイプラインを運営し、新しいタイプの機能やツールを Grok に統合するための次の飛躍に向けて準備を進めています。これがあなたにとって刺激的に聞こえるなら、私たちのチームに応募してください。
xAI の研究#
私たちは Grok に検索ツールとリアルタイム情報アクセスを提供していますが、次のトークン予測に基づくすべての LLMs と同様に、私たちのモデルは虚偽または矛盾した情報を生成する可能性があります。私たちは、信頼性のある推論を実現することが現在のシステムの制限を解決する最も重要な研究方向であると考えています。ここで、xAI で特に興奮している有望な研究方向をいくつか強調したいと思います:
-
スケーラブルなツール支援監視。人間のフィードバックは非常に重要です。しかし、冗長なコードや複雑な推論ステップを処理する際、一貫して正確なフィードバックを提供することは挑戦的であり、特に複雑な推論が関与する場合には困難です。AI は、異なるソースの参考資料を探し、中間ステップを外部ツールで検証し、必要に応じて人間のフィードバックを求めることで、スケーラブルな監視を支援できます。私たちの目標は、AI アシスタントの形で、私たちのAI メンターの時間を最も効果的に活用することです。
-
安全で信頼性が高く、基盤となる形式検証との統合。深い思考能力を持つ AI システムを作成するために、私たちはより明確で検証可能な状況で推論能力を育成することを計画しています。これにより、人間のフィードバックや現実世界との相互作用なしに、私たちのシステムを評価できるようになります。このアプローチの主要な目標の 1 つは、特に AI の安全性に関するコードの正確性に対して正式な保証を提供することです。
-
長期的な文脈理解と情報検索。特定の文脈でモデルをトレーニングし、有用な知識を効率的に発見することは、真にインテリジェントなシステムを生成するための核心です。私たちは、必要なときに情報を発見し検索できる方法を研究しています。
-
対抗的ロバスト性。対抗的な例は、最適化者が AI システムの脆弱性を利用しやすいことを示しています。これはトレーニング中だけでなく、サービス時間中にも発生し、重大なエラーを引き起こします。これらの脆弱性は深層学習モデルの長期的な弱点です。私たちは特に LLMs、報酬モデル、監視システムのロバスト性を向上させることに注力しています。
-
マルチモーダル能力。現在、Grok には視覚や音声などの他の感覚がありません。ユーザーをより良く支援するために、Grok にこれらの異なる感覚を装備し、リアルタイムのインタラクションや支援を含むより広範なアプリケーションを実現する予定です。
私たちは AI が社会に重要な科学的および経済的価値を提供する巨大な潜在能力を持っていると信じており、災害的な悪用を防ぐための信頼できる防止策を開発するために努力します。私たちは、AI が依然として積極的な力であることを確保するために最大限の努力をすべきだと信じています。
私たちの使命に貢献したい場合は、チームに応募してください。