G検定試験対策として押さえておくべき略語・用語を、「G検定公式テキスト」(通称、白本)と「G検定最強の合格テキスト」(通称、緑本)の索引(インデックス)を基にまとめました。
G検定用のテキストを使用しているので、試験対策として必要な内容に厳選されています。
また、新しいワードも随時更新します。
G検定の試験対策、日々の学習にぜひご活用下さいませ。
本記事が皆さまの合格に少しでも寄与できれば幸いです。
自宅受験をする上での前日までの準備、試験前の準備、カンペはありなのか?については、以下の記事をご参考ください。
- ■使い方
- ■参考テキスト
- ■A
- A3C(Asynchronous Advantage Actor-Critic)
- ACM FAT(Association for Computing Machinery Conference on Fairness, Accountability, and Transparency)
- Actor -critic
- AdaBound, Adadelta, Adagrad, Adam, AMSBound
- AI(Artificial Intelligence)
- AI効果
- AIシステム
- AI・データの利用に関する契約ガイドライン
- AIプロジェクト
- ALBERT
- AlexNet
- AlphaGo
- ARモデル(autoregressive model)
- ASSP(Atrous Spatial Pyramid Pooling)
- Atrous Convolution
- Attention
- AUC(area under the curve)
- A-D変換(Analog to Digital Conversion)
- ■B
- ■C
- ■D
- ■E
- ■F
- ■G
- GAN(Generative Adversarial Networks)
- GDPR(General Data Protection Regulation)
- GNMT(Google Neural Machine Translation)
- GoogLeNet
- Gordon Moore
- GPGPU(General-Purpose computing on Graphics Processing Units)
- GPT(Generative Pre-trained)
- GPT-2(Generative Pre-trained 2)
- GPT-3(Generative Pre-trained 3)
- GPU(Graphics Processing Unit)
- Grad-CAM(Gradient-weighted Class Activation Mapping)
- GRU(Gated Recurrent Unit)
- ■H
- ■I
- ■J
- ■K
- ■L
- ■M
- ■N
- ■O
- ■P
- ■Q
- ■R
- ■S
- ■T
- ■U
- ■V
- ■W
- ■X
- ■Y
■使い方
本サイト上で、調べたい「略語」、「用語」を検索してご使用下さい。
検索は、ショートカットキー(「ctrl」を押しながら「F」)で簡単に検索ボックスを出すことが出来ます。
なお、新しいワードは随時更新しています。
■参考テキスト
略語・用語は、「G検定公式テキスト」(通称、白本)と「G検定最強の合格テキスト」(通称、緑本)の索引(インデックス)を基に整理しています。
■A
A3C(Asynchronous Advantage Actor-Critic)
A3C(Asynchronous Advantage Actor-Critic)は、強化学習アルゴリズムの一つで、複数のエージェントが同時に環境と相互作用しながら学習を進めます。これにより、計算リソースを効率的に活用し、学習速度を向上させます。A3Cは、行動器(Actor)と評価器(Critic)の2つのネットワークを使用し、エージェントがより良い行動を選択するためのガイダンスを提供します。行動器は、次に取るべき行動を選び、評価器はその行動の価値を評価します。この手法は、ゲームAIやロボット制御など、さまざまな分野で活用されています。
ACM FAT(Association for Computing Machinery Conference on Fairness, Accountability, and Transparency)
ACM FATは、アルゴリズムの公正性、責任性、透明性に関する研究を集める国際会議です。この会議は、コンピュータサイエンス、統計学、社会科学、法律など、多様な分野からの研究者や実務家が集まり、アルゴリズムが社会に与える影響を議論します。ACM FATは、アルゴリズムの偏見や不透明性を検出し、改善するための技術的および倫理的なソリューションを探求しています。
Actor -critic
行動を選択肢するアクター(actor)と、アクターが選択した行動を評価するクリティック(critic)で構成される強化学習のフレームワークの1つです。
AdaBound, Adadelta, Adagrad, Adam, AMSBound
モーメンタムより更に効率的な手法が立て続けに考えられました。古いものからAdagrad、Adadelta、RMSprop、Adam、AdaBound、AMSBoundなどがあります。アルゴリズムの詳細はもちろんそれぞれ異なりますが、いずれも土台となっているのはモーメンタムと同じで、どの方向に学習を加速すればいいか(そして学習を収束させるか)を考えたものになります。
AI(Artificial Intelligence)
AI(人工知能)は、人間の知能を模倣する技術で、機械に学習、推論、自己修正の能力を与えます。特に、機械学習やディープラーニングがこの分野で重要な役割を果たします。AIは、医療診断、音声認識、自動運転車、金融取引など、さまざまな分野で応用されており、効率化や新しい可能性を提供しています。
推論、認識、判断など、人間と同じ知的な処理能力を持つ機械(情報処理システム)であるという点については、大多数の研究者の意見は一致しているといってよいでしょう。
AI効果
人工知能で何か新しいことが実現され、その原理がわかってしまうと、「それは単純な自動化であって知能とは関係ない」と結論付ける人間の心理的な効果をAI効果と呼びます。
AIシステム
AIを構成要素として含むシステムをAIシステムと言います。
AI・データの利用に関する契約ガイドライン
経済産業省は、AI・データ契約ガイドライン検討会を設置し、2018年に「AI・データの利用に関する契約ガイドライン」を確定し、2019年に改訂版(ver.1.1)を公表しました。
AIプロジェクト
AIプロジェクトの進め方として重要なことは、これまでのシステムインテグレータ的なシステム開発(ウォーターフォール)とは全く異なっている点です。人が設計し、人の想定通りに稼働する従来のシステムとは異なり、AIに基づいたシステムは、全ての想定を織り込むことは原理的に不可能となります。その前提を理解した上で全体像を把握し、アジャイル的なプロジェクト・マネジメントを行わなければなりません。
ALBERT
GPTのパラメータ数は約1億で、BERTは約3億でした。この時点で既に扱うのが困難なほどのパラメータ数であったため、タスクの精度を落とさずにパラメータ数を削減する工夫をしたALBERTやDistiBERTといったモデルが提案されました。
AlexNet
CNNの発展形です。
画像認識において高い識別精度を達成するために、畳み込み層とプーリング層を繰り返し積層して深くしていくアプローチが取られました。例えば2012年に画像認識の精度を競うコンペティション(ILSVRC)で圧倒的な精度を誇ったモデルであるAlexNet(アレックスネット)は、畳み込み層⇒プーリング層⇒畳み込み層⇒プーリング層⇒畳み込み層⇒畳み込み層⇒畳み込み層⇒プーリング層⇒全結合層(3層)という構造をしています。
AlphaGo
2016年3月、世界中が驚愕した歴史的な事件が起こりました。囲碁の世界でトップレベルの実力者である韓国のプロ棋士に、DeepMind社が開発した人工知能の囲碁プログラムAlphaGo(アルファ碁)が4勝1敗と大きく勝ち越したのです。
ARモデル(autoregressive model)
自己回帰モデル(ARモデル)は一般的に回帰問題に適用される手法ですが、対象とするデータに大きな特徴があります。それは、このモデルが対象とするのは時系列データ(time series data)であるということです。
ASSP(Atrous Spatial Pyramid Pooling)
SegNetやU-Netのようなエンコーダとデコーダの構造、PSPNetのような複数解像度の特徴をとらえる機構(ASPP)を採用したモデルはDeepLab V3+と呼ばれています。
Atrous Convolution
カーネルサイズを大きくすると広い範囲の情報を集約できますが、計算量と学習するパラメータ数が増えてしまう問題があります。この問題を解決する畳み込み処理としてDilated convolution またはAtrous Convolutionが採用されています。
Attention
「時間の重み」をネットワークに組み込んだのがAttentionと呼ばれる機構です。
AUC(area under the curve)
正解率などとはまた異なった観点でモデルの性能を評価するのがROC曲線およびAUCです。
ROC曲線より下部の面積のことをAUCと呼びます。
A-D変換(Analog to Digital Conversion)
音声は本来、空気の振動が波状に伝わるものであり、時間とともに連続的に変化するアナログなデータです。これをコンピュータで扱うには離散的なデジタルデータに変換する必要があります。この変換処理をA-D変換と呼びます。
■B
Bag-of-N-grams
Bowでは単語がバラバラに保存されており、出現順序の情報は失われてしまいますが、局所的な出現順序が重要な意味を持つ場合もあります。そこでn-gramとBoWを組み合わせたBag-of-N-gramsを利用することもあります。
BERT(Bidirectional Encoder Representations from Transformers)
Google社が開発した事前学習モデルで、その名の通りトランスフォーマーのエンコーダを利用しています。
BiRNN(Bidirectional RNN)
通常のRNNは過去から未来への一方向でしか学習をすることができませんが、RNNを2つ組み合わせることで、未来から過去方向も含めて学習できるようにしたモデルのことをBiRNNと言います。
BoW(Bag-of-Words)
単語を単位として文や文書などを表現するにはどのようにすればよいでしょうか。これらを単に単語列として表現することは可能ですが、それでは複数の文や文書をまとめて分析するときなどに不便です。そこで文や文書を、そこに出現する単語の集合として表現することを考えます。これをBag-of-Wordsと呼びます。
BPR(Business Process Re-engineering)
AIを利活用する場合はBPRが発生します。現業務プロセスがアナログ空間にいる「人」が実行することを前提としたプロセスである場合、AIを利活用するプロセスに変換する必要があるためです。
BPTT(BackPropagation Through-Time)
RNNでは、過去の隠れ層から(現在の)隠れ層に対してもつながり(重み)があることが大きな違いとなります。すなわち、これまでに与えられたかこの情報が、現在の新しくやってきた情報に対してどれくらい重みを持っているのかを学習することになります。実際は勾配降下法で式を求めていくだけなのですが、時間軸に沿って誤差を反映していくためBPTTと呼ばれています。
■C
CBOW(Continuous Bag of Words)
CBOW(Continuous Bag of Words)は、word2vecの一種で、コンテキストから中心単語を予測するモデルです。具体的には、入力は周辺語を用いて出力は中心語を予測します。例えば、”I love reading __ books”という文があれば、前後の単語(”I”, “love”, “reading”, “books”)から”books”を推測します。この方法は、高頻度で出現する単語をうまく扱い、テキストの意味関係を捉えるのに適しています。CBOWは、自然言語処理(NLP)で単語の意味をベクトル表現に変換するために広く使用されています。
CEC(Constant Error Carousel)
CEC(Constant Error Carousel)は、機械やシステムの安定性や精度を評価するための指標です。これは、一定の誤差が繰り返し発生することを示し、システムの安定性や信頼性を確認するために使用されます。LSTMのセルはCECとも呼びます。
CIFAR-10
画像認識用のデータセットのひとつです。CIFAR-10は動物や乗り物などのカラー画像です。
CNN(Convolutional Neural Network)
畳み込みニューラルネットワーク、画像認識の最も強力な手法。入力層には、画像そのものを入力し、ネットワークの前段で学習した結果をより下流にある層に入力する処理を繰り返し、層が進むに従いより高度な特徴が学習可能になります。
Confusion Matrix
Confusion Matrix(混同行列)は、分類モデルの性能を評価するための表です。行と列に実際のクラスと予測されたクラスを配置し、分類結果を整理します。例えば、真陽性(TP)、偽陽性(FP)、真陰性(TN)、偽陰性(FN)の数を明示し、モデルの誤差や偏りを視覚的に理解するのに役立ちます。これにより、正解率、精度、再現率などの評価指標を算出できます。混同行列は、モデルの改善や性能比較に非常に重要です。
Compound Coefficient
複合係数(Compound Coefficient)と呼ばれる係数を導入することで最適化し、CNNをスケールアップします。
CPU(Central Processing Unit)
機械学習やディープラーニングにとって重要な演算装置であるCPUとGPU。ディープラーニングでは特にGPUが重要です。
CUDA(Compute Unified Device Architecture)
GPUの製造をリードしている企業のひとつはNVIDIA社です。GPGPUで並列演算を行う開発環境CUDAを提供し、ほとんどの深層学習ライブラリで使われています。
Cycプロジェクト
エキスパートシステムの中でも特に野心的なプロジェクトがCycプロジェクトです。人間が持つ「常識の全て」をコンピュータに取り入れ、人間同等の推論システムを構築することを目指しています。目標が高すぎるものだけに、現在でも未完成の状態のままです。
■D
DBPedia
オープンデータセットとは、企業や研究者が公開しているデータセットです。コンピュータビジョン分野であればImageNet、PascalVOC、MS COCO、自然言語処理であればWordNet、SQuAD、DBPedia、音声分野であればLibriSpeechなどが挙げられます。
DCGAN(Deep Convolutional GAN)
GANはもともmと(ディープ)ニューラルネットワークを用いていました。そこに畳み込みニューラルネットワークを採用したものをDCGANと呼びます。DCGANによって高解像度な画像の生成を可能にしています。
DeepLab
Atrous convolutionを導入したモデルがDeepLabです。
DeepLab V3+
ASPPを採用したモデルはDeepLab V3+と呼ばれています。
DENDRAL
スタンフォード大学で実用指向のAIを推進してきたエドワード・ファイゲンバウムは1960年代に未知の有機化合物を特定するDENDRALというエキスパートシステムを既に開発していました。
DenseNet
ResNetは、単純なアイデアにも関わらず高い識別精度を達成しました。以降、ResNetが主流のモデルとなり、カーネル数を増やしたWide ResNetやSkip connectionを工夫したDenseNetなど派生モデルが登場しています。
Depthwise Convolution
Depthwise Separable Convolutionでは、空間方向とチャネル方向に対して独立に畳み込み処理を行います。空間方向はDepthwise Convolution、チャネル方向はPointwise Convolutionと呼びます。
Depthwise Separable Convolution
Depthwise Separable Convolutionでは、空間方向とチャネル方向に対して独立に畳み込み処理を行います。空間方向はDepthwise Convolution、チャネル方向はPointwise Convolutionと呼びます。
DevOps
Development とOperationsを合成した造語です。
Dilated convolution
カーネルサイズを大きくすると広い範囲の情報を集約できますが、計算量と学習するパラメータ数が増えてしまう問題があります。この問題を解決する畳み込み処理としてDilated convolution またはAtrous Convolutionが採用されています。
DistiBERT
GPTのパラメータ数は約1億で、BERTは約3億でした。この時点で既に扱うのが困難なほどのパラメータ数であったため、タスクの精度を落とさずにパラメータ数を削減する工夫をしたALBERTやDistiBERTといったモデルが提案されました。
Docker
環境を切り替えるためのツールとしては、pyenvやvirtualenv、pipenvなど様々なものがあります。また、Dockerのような仮想環境を利用することで、OSのレベルから環境の一貫性を保つこともできます。
DQN(Deep Q-Network)
2013年に、深層強化学習で最も基本的な手法であるDQNがDeepMind社から発表されました。
■E
Early Stopping
「ちょうど良いエポック数」のところで学習を止めるためには、単純に早期終了(Early Stopping)という手法を使います。これを一言で説明すると、これ以上精度の向上が見込めない場合、早期に学習を打ち切ることです。
EfficientNet
CNNをスケールアップするための優れた手法が、EfficientNetと呼ばれるモデル群の開発に繋がりました。EfficientNetでは、Compound Coefficientに基づいて、深さや広さ、解像度を最適化しながらスケール調整することで、小さなモデルで効率よく高い精度を達成していきます。
ELIZA
ELIZAは、1964年に開発された対話システムであり、現在のチャットボットの「祖先」として位置づけられています。テキストデータをユーザーとやり取りすることで、ユーザーにコンピューターと実際に会話をしているように感じさせます。
ELMo(Embeddings from Language Models)
文脈を考慮した単語の学習を実現すべく、2018年にアレン研究所により、ELMoが開発されました。ELMoの仕組みの特徴は、対象単語を含む文章全体を学習の入力とし、深いネットワークを使って埋め込み表現を学習することです。
ELSI(Ethical, Legal and Social Implications)
新たに開発された技術が社会に受け入れられるように、技術的な課題以外に「倫理的・法的・社会的な課題」に対処する必要があります。科学技術が及ぼす倫理的・法的・社会的な影響を一体化して検討する試みがELSIです。
Encoder
機械翻訳モデルは一般的には、2種類のRNNで構成された「エンコーダ・デコーダ」タイプのモデルを基本とします。ここでいうエンコーダとデコーダはオートエンコーダーで使われているパーツです。エンコーダでは可変長のデータとなる元の文章を取り込んで圧縮させ、デコーダでは可変長の翻訳後の文章を出力します。
Experience Replay
発案当初はDQNにとって、エージェントから得られるサンプルが時系列的に強い相関を持つことが問題となりました。一般的に、サンプル間の相関はディープラーニングに悪影響を及ぼします。現実的に、DQNがうまくいくようにさせたのは、Experience Replay(経験再生)という工夫です。サンプルのバッファーから一度に複数のサンプルを取り出してミニバッチ学習を行う仕組みによって、サンプル間の相関を軽減することが出来ました。
■F
Faster R-CNN
Fast R-CNNまで利用していたSelective Searchは、処理時間がかかります。この処理をRegion Proposal NetworkというCNNモデルに置き換えてさらなる高速化されたモデルがFaster R-CNNです。
Fast R-CNN
R-CNNの構造を簡略化して、高速化されたモデルがFast R-CNNです。Fast R-CNNは、物体候補領域をそれぞれCNNに入力するのではなく、画像全体を入力して特徴マップを獲得することで高速化します。
fastText
Word2vecを提案したトマス・ミコロフらによって新たに開発され、Word2vecの延長線上にあるfastTextというライブラリがあります。Word2vecと比較した場合のfastTextの変更点は、単語埋め込みを学習する際に単語を構成する部分文字列の情報も含めることです。
FAT(Fairness, Accountability, and Transparency)
プライバシーや公平性の問題について取り組む、FAT(Fairness, Accountability, and Transparency:公平性・説明責任・透明性)という研究領域やコミュニティがあります。
FCN(Fully Convolutional Network)
CNNをセマンティックセグメンテーションタスクに利用した方法がFCNです。一般的なCNNは、畳み込み層とプーリング層だけでなく、全結合層を用います。
FFT(Fast Fourier Transform)
FFT(高速フーリエ変換)により音声信号は周波数スペクトルに変換できます。
FPN(Fully Convolutional Network)
物体検出には、大まかな物体の位置を特定した後、その物体クラスを識別する2段階モデルと位置の特定とクラスの識別を同時に行う1段階モデルがあります。2段階モデルにはR-CNNとその後継モデルやFPNが、1段階モデルにはYOLOとその後継モデルやSSDが挙げられます。
F値(F measure)
F measure = (2×precision×recall)/(precision+recall)
適合率と再現率の調和平均です。
Precision:適合率
Recall:再現率
■G
GAN(Generative Adversarial Networks)
敵対的生成ネットワークは、イアン・グッドフェローの研究チームによって提案された生成手法です。GANは実質的に、ジェネレータとディスクリミネーターの2種のネットワークから成り立っています。ジェネレータとディスクリミネーターを競合させることによって、それぞれの性能がどんどん強くなっていき、本物と見分けられないような「偽物データ」(=新しい画像サンプル)を生成できるようになります。
GDPR(General Data Protection Regulation)
GDPR(EU一般データ保護規則)は、EUにおける個人データやプライバシー保護に関する規則です。GDPRは2016年4が月に制定、2018年5月に施行されました。一般の消費者のみならず、従業員や企業担当者などを含む全ての個人についての情報が対象になります。
GNMT(Google Neural Machine Translation)
2016年にGoogle社がニューラル機械翻訳であるGMNTを発表しました。発表当初はRNNの対から構成されるエンコーダ・デコーダモデルが組み込まれていました。エンコーダが翻訳前の文章を読み込み、埋め込み層を用いて分散表現に変換し、隠れ層で特徴表現に変換した活性化値をデコーダにわたします。こうして、デコーダを通じて訳文(新しいデータ)を出します。
GoogLeNet
GoogLeNetは、Googleが開発した深層学習モデルで、2014年のILSVRC(ImageNet Large Scale Visual Recognition Challenge)で優勝しました。このモデルは、Inceptionモジュールを使用し、異なるサイズの畳み込みフィルターを組み合わせることで、より多様な特徴を抽出します。22層の深い構造を持ち、計算効率を高めるために1×1の畳み込みを多用しています。補助分類器を導入することで、学習の安定性も向上させています。
Gordon Moore
Intelの創業者の一人であるゴードン・ムーアが、1965年に「半導体の集積率は18ヶ月で2倍になる」というムーアの法則を半導体製造における経験則として論文で発表しました。
GPGPU(General-Purpose computing on Graphics Processing Units)
GPGPUは、グラフィックス処理装置(GPU)を汎用計算に利用する技術です。元々は画像処理やゲームのために設計されたGPUですが、その並列処理能力を活かして科学計算や機械学習など、幅広い分野で利用されています。これにより、従来のCPUでは難しかった大規模なデータ処理が高速に行えるようになりました。
GPT(Generative Pre-trained)
OpenAIが開発したGPTはエンコーダを持たず、トランスフォーマーのデコーダと似た構造を持つネットワークを用いて、過去の単語列から次の単語を予測するように学習を行います。GPTは文章の内容や背景を学習する上で高いし恵能を発揮し、幅広い「言語理解タスク」に対応できます。
GPT-2(Generative Pre-trained 2)
GPT-2は、2019年にOpenAIが開発した自然言語処理モデルで、GPTシリーズの2番目のバージョンです。15億パラメータを持ち、大規模なテキストデータで事前学習されています。GPT-2は、文章生成、翻訳、質問応答など多岐にわたるタスクに対応でき、その高い性能と柔軟性から、さまざまなアプリケーションで利用されています。GPT-2の登場により、AIの言語理解と生成能力が大幅に向上しました。
GPT-3(Generative Pre-trained 3)
GPT-3は、2020年にOpenAIが開発した自然言語処理モデルで、GPTシリーズの3番目のバージョンです。1750億パラメータを持ち、大規模なテキストデータで事前学習されています。
GPU(Graphics Processing Unit)
GPUは、リアルタイムの画像処理向けに設計された演算処理装置で、並列演算処理を得意とします。例えば、大規模なテンソル(行列やベクトル)計算に使われます。単純な処理に限定することで、大規模かつ高速な演算ができるわけです。
Grad-CAM(Gradient-weighted Class Activation Mapping)
Grad-CAM(Gradient-weighted Class Activation Mapping)は、深層学習モデルの予測結果を視覚的に説明する手法です。特に、画像認識モデルにおいて、どの部分が予測に影響を与えたかをヒートマップとして表示します。これにより、モデルの判断根拠を理解しやすくなり、信頼性が向上します。
勾配情報を活用することで、ディープラーニングモデルそのもの判断根拠を持たせます。
GRU(Gated Recurrent Unit)
GRU(Gated Recurrent Unit)は、リカレントニューラルネットワーク(RNN)の一種で、LSTM(Long Short-Term Memory)と同様に長期依存関係を学習するために設計されています。GRUは、ゲート機構を持ち、入力情報を選択的に保持または忘却することで、効率的に情報を処理します。LSTMよりもシンプルな構造を持ち、計算コストが低いため、多くの自然言語処理タスクで利用されています。
GRUでは、入力ゲート、出力ゲート、忘却ゲートの代わりにリセットゲートと更新ゲートが使用されます。
■H
Hinton
Geoffrey Hinton(ジェフリー・ヒントン)は、イギリス生まれの計算機科学者で、人工知能(AI)と深層学習の先駆者です。彼は、ニューラルネットワークの研究で知られ、特にバックプロパゲーションアルゴリズムの普及に貢献しました。2018年には、深層学習の業績によりチューリング賞を受賞しました。
Geoffrey Hintonは、オートエンコーダの提唱者であり、2006年にこの技術を発表しました。
■I
Ian Goodfellow
Ian Goodfellow(イアン・グッドフェロー)は、アメリカの計算機科学者で、特に敵対的生成ネットワーク(GAN)の発明で知られています。彼はGoogle Brain、OpenAI、Appleなどの研究機関で働き、現在はGoogle DeepMindの研究科学者です。彼はまた、深層学習に関する教科書「Deep Learning」の共著者でもあります。彼の研究は、AIと機械学習の分野で大きな影響を与えています。
ICML(International Conference on Machine Learning)
ICML(International Conference on Machine Learning)は、機械学習分野の主要な国際会議で、最新の研究成果や技術が発表されます。FAT(Fairness, Accountability, and Transparency)は、AIシステムの公平性、説明責任、透明性を確保するための重要な概念です。ICMLでは、FATに関する研究も多く発表され、AIの倫理的な側面が強調されています。
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)は、画像認識アルゴリズムの精度を競う国際的なコンペティションです。2010年に始まり、2017年まで毎年開催されました。ILSVRCは、ImageNetという大規模なデータセットを使用し、物体検出や画像分類のタスクで競技者が技術を競い合います。順位が決まるのは「精度」ではなく「誤差率」です。特に、2012年のAlexNetの優勝は、ディープラーニングの発展に大きな影響を与えました。
ImageNet
ILSVRCは画像認識モデルを生成するために、大規模データベースImageNetからの学習データを用いています。画像に移っている物体にはラベル(クラス名)が付与されています。ImageNetの画像データのボリュームは、クラスの種類は2万以上、画像数は1400万枚を超えるほどです。クラス名に関して、WordNetという概念辞書を参照することで上位語、下位語の概念を取り入れています。例えば、「あやめ」の上位語は「花」です。
■J
Jupyter Notebook
Jupyter Notebookは、データサイエンスや機械学習の分野で広く利用されているオープンソースのインタラクティブな開発環境です。Python、R、Juliaなどのプログラミング言語をサポートし、コード、テキスト、数式、グラフなどを一つのドキュメント内で統合的に扱うことができます。これにより、AIモデルの開発、トレーニング、評価が容易になり、研究や教育の場で重宝されています。特に、データの可視化や共有が簡単に行えるため、AI開発において重要なツールとなっています。
■K
K-分割交差検証
K-分割交差検証は、モデルの性能を評価するための手法です。データセットをK個の等しい部分に分割し、そのうちの1つをテストデータ、残りをトレーニングデータとして使用します。このプロセスをK回繰り返し、各回で異なる部分をテストデータとすることで、モデルの汎化性能を評価します。これにより、データの偏りを減らし、より信頼性の高い評価が可能になります。
■L
LeNet
LeNetは、Yann LeCun(ヤン・ルカン)によって開発された初期の畳み込みニューラルネットワーク(CNN)です。LeNetは、畳み込み層とプーリング層を交互に配置し、特徴抽出と次元削減を行います。これにより、画像の重要な特徴を効果的に捉えることができます。LeNetの成功は、後の深層学習モデルの発展に大きな影響を与えました。
LIME(Local Interpretable Model-agnostic Explanations)
LIME(Local Interpretable Model-agnostic Explanations)とSHAP(SHapley Additive exPlanations)は、機械学習モデルの予測結果を解釈するための手法です。LIMEは、モデルの予測に影響を与える特徴を局所的に分析し、理解しやすい説明を提供します。一方、SHAPは、ゲーム理論に基づき、各特徴の寄与度を計算して全体の予測に対する影響を定量化します。これにより、モデルの透明性と信頼性が向上します。
LOD(Linked Open Data)
LOD(Linked Open Data)は、ウェブ上でデータを公開・共有するための技術です。オントロジーは、データの意味や関係を定義するための概念モデルで、LODの基盤となります。オントロジーを使用することで、異なるデータソース間のリンクが容易になり、データの相互運用性が向上します。
LSTM(Long Short-Term Memory)
LSTM(Long Short-Term Memory)は、リカレントニューラルネットワーク(RNN)の一種で、長期依存関係を学習するために設計されています。LSTMは、CEC(Cell State)と呼ばれるメモリセルを持ち、入力ゲート、出力ゲート、忘却ゲートの3つのゲート構造を通じて情報を選択的に保持または忘却します。これにより、勾配消失問題を軽減し、長期間にわたる情報の伝達が可能になります。LSTMは、時系列データや自然言語処理などのタスクで優れた性能を発揮します。
■M
Marvin Minsky
Marvin Minsky(マービン・ミンスキー)は、アメリカの計算機科学者であり、人工知能(AI)の先駆者です。1956年に開催されたダートマス会議で、AIという用語が初めて使われました。この会議は、Minskyを含む多くの研究者が集まり、AIの基礎を築くための議論が行われました。Minskyは、ニューラルネットワークや知識表現に関する研究で知られ、1969年にはチューリング賞を受賞しました
Mask R-CNN
Mask R-CNNは、物体検出とインスタンスセグメンテーションを同時に行うための手法です。Faster R-CNNを基盤としており、物体のバウンディングボックスを予測するだけでなく、各物体のマスクも生成します。これにより、画像中の各物体の輪郭を高精度で抽出できます。
MLM(Masked Language Model)
Masked Language Model(MLM)は、自然言語処理における事前学習手法の一つです。MLMでは、入力テキストの一部の単語をマスクし、モデルがそのマスクされた単語を予測するように訓練されます。これにより、文脈を理解し、欠落した情報を補完する能力が向上します。BERT(Bidirectional Encoder Representations from Transformers)は、MLMを用いた代表的なモデルであり、Next Sentence Prediction(NSP)も併用して、文脈理解をさらに深めています。これにより、多くの自然言語処理タスクで高い性能を発揮しています。
Matplotlib
Matplotlibは、Pythonでデータの可視化を行うためのライブラリです。2Dグラフやプロットを簡単に作成でき、データ解析や科学計算の分野で広く利用されています。Matplotlibは、折れ線グラフ、散布図、ヒストグラムなど多様なグラフをサポートし、カスタマイズも容易です。これにより、データの視覚的な理解が深まり、結果の共有がスムーズになります。
MNIST(Modified National Institute of Standards and Technology)
MNIST(Modified National Institute of Standards and Technology)は、手書き数字の画像データセットです。Fashion MNISTは、MNISTの代替として使われるファッションアイテムのデータセットです。CIFAR-10は、動物や乗り物などのカラー画像のデータセットです。どれも、クラス数が10個、データ数は数万枚です。ImageNetは、1400万以上の画像で、クラスの種類は2万以上です。
MT-DNN(Multi-Task Deep Neural Networks)
MT-DNN(Multi-Task Deep Neural Networks)は、Microsoftが開発した自然言語理解モデルです。BERTを基盤とし、複数のタスクを同時に学習することで、より一般化された表現を獲得します。
MYCIN
MYCINは、1970年代にスタンフォード大学で開発された初期のエキスパートシステムです。主に感染症の診断と抗生物質の推奨を行うために設計されました。MYCINは、医師が入力する症状や検査結果に基づいて診断を行い、適切な治療法を提案します。診断の精度は70%程度でした。この精度は、細菌感染を専門としていない医者よりは高いけれど、専門医の精度(80%)には劣りました。
■N
Neural Network
Neural Network(ニューラルネットワーク)は、人間の脳の神経細胞(ニューロン)の働きを模倣した計算モデルです。入力層、中間層(隠れ層)、出力層から構成され、各層のニューロンが重み付きの接続を通じて情報を伝達します。ニューラルネットワークは、パターン認識や分類、予測などのタスクに優れた性能を発揮し、特にディープラーニングの分野で広く利用されています。これにより、画像認識や自然言語処理など、多くの応用が可能になりました。
NSP(Next Sentence Prediction)
Next Sentence Prediction(NSP)は、自然言語処理モデルの事前学習手法の一つです。NSPでは、モデルが2つの文を入力として受け取り、2番目の文が1番目の文に続くかどうかを予測します。これにより、文脈理解が向上し、文章の一貫性を保つ能力が強化されます。BERT(Bidirectional Encoder Representations from Transformers)は、NSPを用いた代表的なモデルであり、多くの自然言語処理タスクで高い性能を発揮しています。
No Free Lunch Theorem
No Free Lunch Theorem(ノーフリーランチ定理)は、機械学習や最適化アルゴリズムに関する理論です。この定理は、すべての可能な問題に対して、あるアルゴリズムが他のアルゴリズムよりも常に優れているわけではないことを示しています。つまり、特定の問題に対して最適なアルゴリズムが存在する一方で、他の問題に対しては劣る可能性があるということです。これにより、問題に応じたアルゴリズムの選択が重要であることが強調されます。
NumPy
NumPyは、Pythonで科学計算を行うためのライブラリです。多次元配列データを高速に演算するための機能を提供し、効率的な数値計算を可能にします。ビッグデータ解析や機械学習の基盤として広く利用されています。
■O
OpenAI Five
OpenAI Fiveは、OpenAIが開発したAIシステムで、5対5のビデオゲーム「Dota 2」をプレイします。強化学習を用いて自己対戦を繰り返し、戦略を学習します。PPO(Proximal Policy Optimization)は、強化学習の一手法で、OpenAI Fiveの学習に利用されています。また、LSTM(Long Short-Term Memory)は、長期依存関係を学習するためのリカレントニューラルネットワークで、ゲーム内の複雑な状況を理解するために使用されています。2018年にはプロチームと対戦し、勝利を収めました。
Open Pose
OpenPoseは、リアルタイムで人のポーズを検出するためのオープンソースソフトウェアで、深層学習を活用して高精度なポーズ認識を実現します。Parts Affinity Fields(PAFs)は、OpenPoseの一部として使用され、体の各部分間の連続的な親和性をモデル化することで、正確なポーズ推定を可能にします。これにより、体の各部分がどのように関連しているかを示し、複雑なポーズの認識を向上させます。幅広い用途に活用されています。
■P
Pandas
Pandasは、Pythonでデータ操作と分析を行うためのオープンソースライブラリです。特に表形式データの処理に優れており、データフレームという構造を使ってデータの読み込み、クリーンアップ、操作、可視化が容易に行えます。SQLライクな操作が可能で、大規模データセットの処理においても非常に強力です。データ分析や機械学習プロジェクトで広く使用され、直感的なインターフェースが多くのデータサイエンティストやアナリストに支持されています。
PYPL(PopularitY of Programming Languages)
PYPL(PopularitY of Programming Languages)は、Googleなどの人気サイトを基に、プログラミング言語の人気度を示す指標です。この指標は月次で更新され、世界中のスキルフルなエンジニアの数やコース、サードパーティベンダーの情報をもとに算出されます。PYPLは、特にPython、Java、JavaScriptなどの人気言語をランキングし、開発者が最新のトレンドを把握するのに役立ちます。
Python
Pythonは、シンプルで読みやすい構文と強力な機能で人気があります。オープンソースであり、誰でも自由に利用・改良ができ、世界中の開発者が協力して改善を続けています。ウェブ開発、データサイエンス、人工知能、機械学習などの分野で幅広く活用されており、豊富なライブラリとコミュニティサポートがその魅力をさらに引き立てます。Pythonの汎用性と使いやすさが、さまざまなプロジェクトでの採用を促しています。
■Q
Q学習
Q学習は、強化学習の一種で、エージェントが環境と相互作用しながら最適な行動を学ぶ手法です。具体的には、TD(Temporal Difference)学習という手法を用いて、エージェントはQ値を更新します。TD学習は、未来の報酬を考慮しながら、現時点での行動を評価します。このQ値を更新することで、エージェントは最適な行動戦略を学び、例えばロボットの制御やゲームAIの開発などに応用されます。試行錯誤を通じて、未知の環境でも効果的に適応できます。
Q値
Q値は、エージェントがある状態で取るべき行動の価値を示します。エージェントは環境から報酬を受け取り、その情報を基にQ値を更新します。これにより、どの行動が報酬を最大化するかを学びます。行動価値関数と状態価値関数が使われ、行動価値関数は状態と行動の組み合わせの価値を、状態価値関数は特定の状態の価値を示します。この行動価値観数をQ値と言います。エージェントは試行錯誤を重ねながら、これらの値を調整し、最適な戦略を学習していきます。
■R
R-CNN(Regional CNN)
R-CNN(Regional CNN)は、物体検出に優れた深層学習アルゴリズムです。まず、物体候補領域検出を行うためにSelective Searchを使用し、画像内の物体候補領域を抽出します。次に、これらの領域を畳み込みニューラルネットワーク(CNN)に入力し、特徴を抽出および分類します。最終的に、各物体のバウンディングボックスを予測し、検出精度を高めます。この手法により、複雑な画像データでも高い性能を発揮します。
RAINBOW
RAINBOWは、強化学習において先進的なアルゴリズムで、複数の技術を組み合わせています。その中には、ダブルDQN、デュエリングネットワーク、ノイジーネットワークが含まれています。ダブルDQNは、Q学習の過学習を防ぐ手法であり、デュエリングネットワークは状態価値と行動価値を分けて学習し、効率を向上させます。ノイジーネットワークは探索の多様性を確保し、学習の安定性を向上させます。これらの技術を統合することで、RAINBOWは強力な強化学習モデルを実現します。
ReLU関数(Rectified Linear Unit)
ReLU(Rectified Linear Unit)関数は、ニューラルネットワークで使用される活性化関数の一つです。入力が0以下の場合は0を返し、0以上の場合はそのままの値を返します。このシンプルな関数は、計算が高速で勾配消失問題を軽減するため、深層学習で広く利用されています。ReLUは非線形性を導入し、ニューラルネットワークが複雑なデータパターンを学習できるようにする重要な役割を果たしています。
ResNet(Residual Network)
ResNet(Residual Network)は、深層学習モデルの一種で、層を跨いで情報を伝達するスキップ・コネクションを用いることで、より深いネットワークでも効果的に学習できる特徴があります。これにより、深さに伴う学習の劣化問題を解決します。ResNetは2015年のILSVRCで優勝し、画像認識において重要な進展をもたらしました。
RNN(Recurrent Neural Network)
RNN(リカレントニューラルネットワーク)は、時系列データや可変長データの解析に優れています。各ノードが前のステップの出力を次のステップにフィードバックすることで、過去の情報を保持しながら処理を行います。しかし、RNNは勾配消失問題に直面しやすく、長い依存関係を持つデータでは学習が難しくなります。また、重み衝突問題も発生することがあり、ネットワークが最適な重みを見つけることが困難になります。これらの課題を克服するために、LSTMやGRUなどの改良版が提案されています。
ROI(Region of Interest)
関心領域(ROI: Region of Interest)は、画像処理やコンピュータビジョンで、特定の解析や処理が必要な領域を指します。ROIの設定には、バウンディングボックスと呼ばれる手法がよく使われます。バウンディングボックスは、画像内の物体を囲む矩形領域のことで、物体検出において重要な役割を果たします。物体検出では、画像内の複数の物体を特定し、その位置を正確に把握することが求められます。バウンディングボックスを用いることで、各物体のROIが明確になり、効率的かつ高精度な解析が可能となります。
■S
SARSA(State-Action-Reward-State-Action)
SARSA(State-Action-Reward-State-Action)は、TD(Temporal Difference)学習を用いた強化学習アルゴリズムです。SARSAはオンポリシー学習法であり、エージェントが実際に選択した行動に基づいて学習します。Q値を更新する際には、現在の状態と行動、次の状態と行動、そして報酬を使用します。一方、Q学習(Q-learning)はオフポリシー学習法で、エージェントの実際の行動に関係なく最適な行動価値を学習します。これにより、SARSAは現実の行動に即した学習、Q学習はより一般化された知識を獲得します。
Selective Search
Selective Searchは、物体検出のための領域提案手法で、R-CNN(Region-CNN)と組み合わせることで効果を発揮します。R-CNNは、Selective Searchを使用して画像内の関心領域(ROI)を生成し、各領域を個別に分類することで物体を検出します。具体的には、Selective Searchによって生成された候補領域をCNN(畳み込みニューラルネットワーク)で特徴抽出し、SVM(サポートベクターマシン)を使って分類します。このプロセスにより、精度の高い物体検出が可能となりますが、計算コストが高いという課題もあります。その後、R-CNNの改良版であるFast R-CNNやFaster R-CNNが登場し、処理速度と精度のバランスが改善されました。
Self-Attention
Self-Attention(自己注意機構)は、各要素が他の要素とどれだけ関連しているかを評価するメカニズムで、トランスフォーマーモデルに用いられます。文中の単語間の関連性を計算し、重要な関係を強調することで、文脈理解を向上させます。一方、Source-Target Attentionはエンコーダ・デコーダモデルで、入力(ソース)と出力(ターゲット)の関連性を評価します。これにより、翻訳タスクでの精度が向上し、意味の一貫性を保ちながら適切な単語を選択することが可能となります。両者とも並列に計算できるため、従来のRNNに比べて効率が高いのが特徴です。
Seq2Seq(Sequence-to-sequence)
Sequence-to-Sequence(Seq2Seq)は、入力シーケンスから出力シーケンスを生成するための深層学習モデルです。主にエンコーダとデコーダの2つのRNNから構成されます。エンコーダは入力シーケンスを固定長のベクトルに変換し、デコーダはそのベクトルを元に出力シーケンスを生成します。この手法は翻訳や対話システムなどに広く利用され、特に注意機構(Attention Mechanism)を組み合わせることで、文脈理解や翻訳精度が向上します。
SHAP(SHapley Additive exPlanations)
SHAP(SHapley Additive exPlanations)は、機械学習モデルの出力を解釈するための手法です。各特徴量の重要度を計算し、予測に対する影響を示します。ゲーム理論のShapley値を応用し、各特徴量が予測にどれだけ寄与しているかを定量化します。一方、LIME(Local Interpretable Model-agnostic Explanations)は、モデルの局所的な挙動を解釈するための手法で、特定の予測に対する特徴量の寄与を示します。どちらもブラックボックス性を解消し、モデルの透明性を向上させる点で役立ちます。
Skip-gram
Skip-gramは、単語のベクトル表現を学習するためのモデルで、特にWord2Vecアルゴリズムの一部です。Skip-gramは、特定の単語からその周囲語(コンテキストワード)を予測することで、単語の意味を捉えます。具体的には、ウィンドウと呼ばれる範囲内にある単語を使用して、その単語の前後に出現する単語を予測します。
Sigmoid関数
Sigmoid関数(シグモイド関数)は、ニューラルネットワークの活性化関数で、入力を0から1の範囲に変換します。バイナリ分類で、正例(ポジティブサンプル)と負例(ネガティブサンプル)を区別するために使われます。出力が0.5以上であれば正例、それ以下であれば負例と判断するのが一般的です。この閾値(しきい値)を調整することで、分類の精度を最適化することが可能です。Sigmoid関数は、データの正確な分類を実現するための重要な役割を果たします。
Society5.0
Society5.0は、日本の未来ビジョンであり、技術革新と社会の調和を目指す概念です。これは、内閣府によって提唱され、技術の進化を社会に組み込み、人々の生活を豊かにすることを目的としています。Society5.0の定義は、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させることで、新たな価値を創造し、経済発展と社会課題の解決を両立させる社会を目指すものです。具体的には、AI、IoT、ロボティクスなどの先端技術を活用し、医療、教育、交通などの分野で革新を推進します。また、環境保護や社会的公正も重視しており、持続可能な社会の実現を目指しています。
Source-Target Attention
Self-Attention(自己注意機構)は、各要素が他の要素とどれだけ関連しているかを評価するメカニズムで、トランスフォーマーモデルに用いられます。文中の単語間の関連性を計算し、重要な関係を強調することで、文脈理解を向上させます。一方、Source-Target Attentionはエンコーダ・デコーダモデルで、入力(ソース)と出力(ターゲット)の関連性を評価します。これにより、翻訳タスクでの精度が向上し、意味の一貫性を保ちながら適切な単語を選択することが可能となります。両者とも並列に計算できるため、従来のRNNに比べて効率が高いのが特徴です。
SSD(Single Shot Detector)
SSDは、物体検出アルゴリズムの一つで、R-CNNに比べて高速な処理が可能です。SSDは、一度の画像処理で複数のオブジェクトを検出し、異なるスケールの特徴を活用して高精度な検出を実現します。これにより、リアルタイムの物体認識、自動運転、セキュリティシステムなどに広く応用されます。R-CNNは高精度ですが処理速度が遅く、SSDはその欠点を補う形で開発されました。
SVM(Support Vector Machine)
SVM(Support Vector Machine)は、機械学習のアルゴリズムで、分類や回帰分析に利用されます。特徴空間上でデータを線形分離するための最適な境界を見つけることが目標です。この境界は、異なるクラスのデータポイントを最大のマージンを持って分けます。マージンとは、境界から各クラスのデータポイントまでの距離のことです。サポートベクトルは、このマージンに最も近いデータポイントであり、これらのポイントが境界の位置を決定します。非線形データには、カーネルトリックを用いて高次元空間に写像することで対応します。SVMは、高い汎化性能を持ち、実用的な問題解決に広く使用されています。
■T
tanh関数
tanh(ハイパボリックタンジェント)関数は、ニューラルネットワークの活性化関数の一つで、出力範囲が-1から1の間です。これにより、入力値を平滑に圧縮し、特にリカレントニューラルネットワーク(RNN)でよく使われます。tanh関数はシグモイド関数に似ていますが、出力範囲が異なるため、より中心化されたデータを提供し、学習の収束性を改善します。また、勾配消失問題を軽減する効果もあり、これにより深層ネットワークの訓練がより安定します。
TF-IDF(Term Frequency-Inverse Document Frequency)
TF-IDF(Term Frequency-Inverse Document Frequency)は、テキストマイニングでよく使われる統計手法です。文書内の単語の重要度を評価するために使われます。Term Frequency(TF)は、単語が文書内に出現する頻度を示し、Inverse Document Frequency(IDF)は、その単語が他の文書でどれだけ珍しいかを示します。この2つを掛け合わせることで、特定の単語が文書全体でどれだけ重要かを計算します。TF-IDFは、検索エンジンやテキスト分類などで広く利用されています。
Transformer
Transformerは、自然言語処理(NLP)で革命を起こしたニューラルネットワークアーキテクチャです。自己注意機構(Self-Attention)を採用し、文脈の中で各単語の関係性を効率的に学習します。これにより、大規模なデータセット上で高度な言語モデルを訓練でき、機械翻訳、テキスト生成、質問応答など多岐にわたるタスクで優れた性能を発揮します。これに対して、RNN(リカレントニューラルネットワーク)は時間的なデータの処理に適しており、連続したデータの依存関係を捉えるのが得意ですが、長い文脈の情報を保持するのが難しい場合があります。BERTやGPTなどのモデルは、Transformerを基盤としています。
t-SNE(t-Distributed Stochastic Neighbor Embedding)
t-SNE(t-Distributed Stochastic Neighbor Embedding)は、高次元データを可視化するための次元圧縮手法です。これにより、データポイント間の距離を保ちながら、低次元(通常2次元または3次元)に埋め込み、データの構造やクラスタリングを視覚的に理解しやすくします。次元圧縮を通じて、複雑なデータセットのパターンや関係性を視覚化しやすくし、特に画像やテキストの特徴抽出結果の分析に効果的です。
Turing-NLG(Turing Natural Language Generation)
Turing-NLG(Turing Natural Language Generation)は、マイクロソフトが開発した170億パラメータの大規模な言語モデルです。これは、Transformerアーキテクチャを基盤とし、機械翻訳、テキスト生成、質問応答などのタスクで優れた性能を発揮します。2020年2月に発表され、当時の最先端技術を大きく超える成果を示しました。Turing-NLGは、自然言語処理の分野での多くの課題を解決するための強力なツールとなっています。
■U
Uncle Bernie’s Rule(バーニーおじさんのルール)
学習に必要なデータ量の決め方として、従来から経験則として、バーニーおじさんのルールがあり、「モデルのパラメータ数の10倍のデータ量が必要」と主張しています。
■V
VAE(Variable Auto-Encoder)
VAE(Variational Autoencoder)は、ディープラーニングの一種で、入力データを特徴抽出し、その後元のデータに近い形で再構築するモデルです。VAEは、データを潜在空間にマッピングし、その空間内で統計分布を使ってデータのランダムサンプリングを行います。こうして得られたサンプルをデコーダによって復元することで、新しいデータを生成する能力を持っています。これにより、データの表現力を高め、新しいデータ生成が可能になります。
VGG(Visual Geometry Group)
VGG(Visual Geometry Group)は、イギリスのオックスフォード大学にある研究グループで、主にコンピュータビジョンと画像処理の分野で活動しています。特に、VGGによるディープラーニングのアーキテクチャは、画像認識の分野で広く使用されています。例えば、VGG16やVGG19といったモデルは、多くの画像認識タスクで高い精度を達成しています。このアーキテクチャは、複数の畳み込み層を持ち、各層で特徴を抽出し、最終的に分類器によって画像のクラスを予測します。
■W
Web API(Web Application Programming Interface)
AIシステムは、Web APIを通じて手軽に利用できるようになっています。これにより、開発者は自分のアプリケーションにAI機能を統合することが可能です。例えば、音声認識、自然言語処理、画像分類など、さまざまなAIサービスがWeb APIとして提供されています。Web APIはHTTPプロトコルを使用し、リクエストを送信し、JSONやXML形式でレスポンスを受け取ります。これにより、異なるプラットフォームや言語間でシームレスにデータをやり取りし、AI機能を簡単に活用できます。
Wide ResNet
Wide ResNetは、ResNet(残差ネットワーク)の拡張版で、カーネル数を広げることで性能を向上させたモデルです。通常のResNetが深い層を持つのに対し、Wide ResNetは層の幅とカーネル数を増やすことで計算効率を改善し、過学習を抑える効果があります。これにより、より高い精度を達成しつつ、計算リソースを効率的に使用できます。各層のカーネル数を増やすことで、より多くの情報を一度に処理し、高精度な学習が可能となります。
word2vec
word2vecは、自然言語処理(NLP)において単語をベクトル空間に埋め込む技術です。これにより、類似した意味を持つ単語が近いベクトル位置に配置されるように学習します。この技術は、単語の意味的関係を大規模なテキストデータから自動で学習し、類似度計算やクラスタリングなどで応用されます。分布仮説に基づいており、「単語の意味は、その周辺の単語によって決まる」という考え方です。word2vecは、CBOW(Continuous Bag of Words)とSkip-gramという2つのモデルを使って、単語のコンテキスト情報を効果的に捉えます。
WordNet
WordNetについて200字程度で教えて
WordNetは、英語の語彙に関するデータベースであり、語の意味や関係を体系的にまとめたものです。スタンフォード大学の心理学者ジョージ・ミラーと彼のチームによって開発されました。WordNetは、単語がシノニムセット(同義語のグループ)として整理され、名詞、動詞、形容詞、そして副詞に分類されています。このデータベースは、自然言語処理(NLP)の研究やアプリケーションで広く利用されており、機械翻訳、テキスト解析、検索エンジンの最適化などで役立っています。
■X
XAI(Explainable AI)
XAI(Explainable AI, 説明可能AI)は、人工知能の決定や予測を人間が理解しやすくする技術です。これにより、AIシステムの透明性が向上し、信頼性が高まります。XAIは、機械学習モデルの内部動作を可視化し、結果の理由や根拠を提供します。これが特に医療、金融、法執行機関など、倫理的な意思決定が重要な分野で重要視されています。XAIの技術は、AIシステムの誤りや偏見を検出し、改善するための手段としても有効です。
■Y
YOLO(You Only Look Once)
YOLO(You Only Look Once)は、リアルタイム物体検出のためのディープラーニングアルゴリズムで、1段階モデルとして設計されています。これは、画像全体を一度に処理し、物体の位置とクラスを同時に予測することで、高速かつ正確な検出を可能にします。YOLOは、単一のニューラルネットワークを使用し、各グリッドセルが物体のバウンディングボックスとクラス確率を予測します。この手法により、自動運転や監視システムなど、時間が重要な応用に適しています。