問題作成には世界50カ国、500機関から1000人以上の専門家が参加。その基準は厳格だ。「明確な正解があるが、ネット検索では即座に答えが見つからない」ものであること。
実際、7万件以上の投稿の中から、既存のAIが正解できてしまった問題は容赦なく却下され、AIを完膚なきまでに叩きのめした問題だけが厳選された。
例えば、ギリシャ神話の家系図に関するマニアックなトリビアから、摩擦のないレール上を滑る物体の力学的関係を問う物理学の問題まで、そのレベルはまさに博士課程クラス。
この試験に対し、人間の専門家たちはそれぞれの専門分野で90%以上の正答率を叩き出している。一方、AIはどうだったか