まず私のツイッターを購読してください。技術的なことをツイートします。
このシリーズのスピードランをもう1回やろう。
強化学習 (RL) ミームをあなたに使用しました:
それはなんという餌だったんだ。ああ。
では、なぜ meme-Kelvin にとって RL が何であるかを学ぶのが難しいのでしょうか? それは、彼が RL の概念を理解するのではなく、実装を学びたいからです。それが meme-KELVIN の理由です!
新しいもの、ツール、テクノロジーなどを学ぶときは、その実装から始めるのではなく、そのツールが解決するアイデア、概念、問題から始めます。
ケルビンさん、どうぞ。強化学習 (RL) を理解するには、正しい動きをすることでポイントを獲得できるビデオ ゲームをプレイすることを考えてみましょう。
強化学習はそのようなものであり、プログラムは意思決定を行い、その行動に基づいて報酬やペナルティを得ることで学習します。
これは、START-WITH-IDEAS 原則を強化学習に適用した単なる例です。しかし、52 秒で ML 全体を学習する方法を説明すると約束しました...
52 秒で ML を学ぶには、実装ではなく ML の概念を学び、次に PyTorch または好きなライブラリ名の実装を Google (または GPT) で検索します。いずれにせよ、来年には変更されるでしょうし、それは問題ありません。アイデアはずっと長い間同じままです。アイデアを追求しましょう。
教師あり学習では、プログラムは回答付きの例 (ラベル付きデータと呼ばれる) を使用して学習します。これにより、プログラムは例と回答の関係を学習し、これまで見たことのない新しい例の回答を推測できるようになります。
アルゴリズムと解決すべき問題:住宅価格の予測 (線形回帰)、顧客が製品を購入するかどうかの決定 (決定木)
ここで、プログラムは回答のない例 (ラベルのないデータ) を調べ、その中のパターンやグループを見つけようとします。これは、類似の項目をグループ化したり、データの説明に必要な情報の量を減らしたりするなどのタスクに役立ちます。
アルゴリズムと解決すべき問題:音楽の趣味が似ている人々をグループ化する (k-means クラスタリング)、情報をあまり失わずに画像を圧縮する (主成分分析)
強化学習では、プログラムは試行錯誤し、報酬やペナルティの形でフィードバックを得ることで、意思決定を学習します。目標は、時間の経過とともにより良い意思決定を行い、問題をより効果的に解決することです。
アルゴリズムと解決すべき問題:ロボットに歩行を教える (Q 学習)、チェスをプレイするプログラムをトレーニングする (方策勾配法)
これは、プログラムの学習を向上させるために、生データから重要な情報 (特徴) を選択するプロセスです。場合によっては、専門知識と創造性を使用して新しい特徴を作成することも含まれます。
例:葉の長さと幅を利用して植物の種類を識別する
機械学習モデルがうまく機能しているかどうかを確認することは、それがうまく機能しているかどうかを確認するために重要です。モデルのパフォーマンスを確認するために、精度、精度、再現率、F1 スコア、平均二乗誤差などの測定値がよく使用されます。
⏲️ 残り24秒、頑張れ!
ディープラーニングについても取り上げます!
これは非常に抽象的です。NN は、列に並べられた脳のニューロンが、接続を介して異なる力で左から右に互いに ping を送信している様子を想像できます。ニューロン (各層) が ping される力によって、次の ping が定義され、最終結果自体が決まります。
アルゴリズムと解決すべき問題:画像内のオブジェクトの認識 (フィードフォワード ニューラル ネットワーク)、言語の翻訳 (ラジアル ベース関数ネットワーク)
間違いを犯したら、そこから学び、同じ間違いを繰り返さないように努めます。バックプロパゲーションは、プログラムが同じことを行うための方法です。
これにより、プログラムがどこで間違いを犯したかを理解し、正しい答えをより適切に見つけられるようになります。
CNN は、画像などのグリッド状のデータを理解できる特殊なニューラル ネットワークです。
パターンを学習し、線や形などの絵の部分を認識するのに役立つレイヤーがあります。
アルゴリズムと解決すべき問題:写真内の顔の検出 (LeNet-5)、画像内のさまざまな種類の動物識別 (AlexNet、VGG)
RNN は、一連の数字や単語など、シーケンスで提供されるデータを処理するように設計されています。
以前の入力内容を記憶し、その情報を使用してより良い意思決定を行うことができます。
アルゴリズムと解決すべき問題:株価の予測 (Long Short-Term Memory、LSTM)、指定されたスタイルに基づいたテキストの生成 (Gated Recurrent Units、GRU)
これは、すでに多くのことを学習したプログラム モデルが、限られたデータで新しいタスクを実行できるように微調整される場合です。
プログラムは以前の学習からすでに有用な情報を知っているので、より速く学習し、より優れたパフォーマンスを発揮します。
例:多くの犬種でトレーニングされたモデル (ResNet など) を使用して特定の種類の猫を認識する
これらの技術は、プログラムがデータから過剰に学習することを防ぎ、過剰適合などの問題を引き起こすのを防ぐのに役立ちます。
終了時間: 0 分 52 秒
基本的にはこれで完了です。次は、エージェントのトレーニングに進み、Kelvin がアルゴリズムと解決したい問題の実装を Google で検索します。
ツールを使い始めるには、ツールが解決する問題から始めて、その問題を解決するためにどのような概念が使用されるかを学びます。「ツールを使って何かを行う方法」のように実装を頭の中に留めないでください。複雑で、いずれにしてもすべてが頭の中に収まることはありません。
アイデアを学び、実装を Google で検索します。
実装を 5 ~ 10 回 Google 検索すると、それを記憶しますが、その後、テクノロジが時代遅れになり、忘れてしまいます。大丈夫です。よくあることです。
アイデアは忘れにくく、長い間記憶に残ります
さようなら、次のドラッグレースで会いましょう
いや、待って!
教育システムが実践重視で有益なものであってほしいなら、ツイッターの鳥をフォローすることを検討してください <3
とにかく、テキストが気に入ってもっと読みたい場合や、ソーシャルネットワークの楽しみに夢中になっている場合は、Twitterをフォローしてください。
あるいは誰にも従わず、誰にも耳を傾けず、自分の道を切り開きましょう。
実は私のツイートをフォローして欲しいのですが、ただのセールだったんです。
「43秒でREACTを学ぶ」をチェックしてください