受付時間/9:30〜20:00まで

スタッフブログSTAFF BLOG

制作部 Lab  

ChatGPTの頭が悪くなっているかもという話

Lab  

2023.08.11

こんにちは、ラボの松山です。


ChatGPTの吐き出す答えの質が低下している可能性について、以前からまことしやかに囁かれてきたが、それはあくまでも噂レベルであり、実際に実証されたものではなかった。しかし、今回、スタンフォード大学とカリフォルニア大学バークレー校の研究チームが、この噂の真偽を確かめるべく、ChatGPTの応答精度が3月から6月にかけてどのように変化したかを調査した結果、驚くべき事実が明らかになった。

この問題を取り上げた研究論文「How is ChatGPT’s behavior changing over time?(ChatGPTの動作は時間の経過と共にどのように変化するか?)」では、スタンフォード大学とカリフォルニア大学バークレー校の研究者であるMatei Zaharia氏、Lingjiao Chen氏、James Zou氏が、ChatGPTの応答の変化を詳細に検証している。特に、注目すべきは「GPT-4に、『この数は素数ですか?段階的に答えてください』という質問をした場合の成功率が、3月の時点では97.6%の精度であったものが、6月にはなんと2.4%にまで低下している」ことである。この結果は、GPT-4の性能低下を示すものとして、社会に大きな反響を呼んでいる。

研究者らは、GPT-3.5とGPT-4の古いバージョンと新しいバージョンの性能を、数学の問題解決、トリッキーな質問への回答、コード生成、視覚的思考といった4つの異なるタスクで評価した。その結果、GPT-4とGPT-3.5の性能は、時間の経過とともに大きく変動することが明らかになった。例えば、GPT-4の精度が3月バージョンと6月バージョンでは大きく異なることが示されているが、一方で、GPT-3.5の6月バージョンは、特定のタスクにおいては3月バージョンよりも優れた結果を示している。

これに対して、OpenAIは一貫してGPT-4の能力低下を否定しており、逆に新しいバージョンが前のバージョンよりも賢くなっていると主張している。しかし、研究者や専門家らは、大規模言語モデルの性能評価が非常に複雑であり、その変動に対する理解が進むべきだと指摘している。

結論として、今回の研究はChatGPTの性能変化を詳細に調査し、その結果がどのように解釈されるべきかを示すものとして注目される。AI技術の進化に伴い、その信頼性と品質を確保するためには、透明性と説明責任が重要であることを再確認する機会となった。

スタッフプロフィール

Lab  のブログ

制作部Lab  

各業務のプロフェッショナルが業務を担当するので他社に負けないクオリティを安定して提供できます。

プロフィールをチェック >

このスタッフのブログ一覧 >