banner
ホームページ / ニュース / スウェーデン国立図書館が AI を活用して何世紀にもわたる言語データを解明した方法
ニュース

スウェーデン国立図書館が AI を活用して何世紀にもわたる言語データを解明した方法

May 10, 2023May 10, 2023

ヴァイキング時代の原稿から 1970 年代の放送に至るまで、AI はスウェーデンの歴史の鍵となる 1,800 万点以上のアイテムのデジタル化に貢献しています

スウェーデン国立図書館 – Kungliga biblioteket – は、国の印刷物および電子歴史資料を収集および保存し、一般の人々や研究者がアクセスできるようにする責任を負っています。

AI 開発を一時停止すると実際に何が得られるのでしょうか?

書籍、新聞、雑誌、地図、写真、録音など 1,800 万点以上の品物を所蔵しており、そのコレクションは 1,000 年以上前に遡ります。

研究者や一般の人々がこれらのコレクションにアクセスしやすくするために、より広範な近代化戦略の一環として、人工知能 (AI) の強力な可能性を活用しました。

AI はより先進的な枠組みで議論されることが多いですが、スウェーデン国立図書館を含め、多くの組織が私たちの過去についての洞察を得るために AI を活用しています。 図書館のコレクションは膨大かつ多様であり、常に増加しています。 最大の課題の 1 つは、維持する膨大な量の資料を管理することです。

「私たちが持っている最も古い写本は、バイキング時代のものです」と、Kungliga biblioteket のデータラボである KBLab のディレクター、Love Börjeson 氏は言います。 「私たちはまた、非常に大規模なアイスランド語のコレクションと非常に大規模なラテン語のコレクションを持っています。」

図書館には毎年何百万もの新しい資料が送られてきますが、追いつくのが大変でした。 もう 1 つの課題は、研究者がそのコレクションをより発見しやすくするという課題でしたが、資料の深さは維持されており、精査するのは困難でした。

Börjeson 氏は 2019 年から KBLab を率いており、2021 年からは AI スウェーデンの応用言語テクノロジーのデータおよびインフラストラクチャの責任者を務めています。彼はハイ パフォーマンス コンピューティング (HPC) 環境で大規模な AI モデルを扱っており、米国で計算社会科学の学歴を持っています。スタンフォード。

カタログ作成、登録、保存など、コレクションの管理に関連するタスクを自動化することが優先事項でした。 図書館はまた、これらのコレクションの見つけやすさを改善したいと考えていました。 AI を導入したこの図書館は、この分野の最新の研究開発に追いつき、常に最新のツールと技術を確実に使用して先を行く必要にも直面しました。

この図書館は、多層計算インフラストラクチャの実装を含む最新化プロセスに着手しました。 これには、新しいラップトップ、ワークステーション、サーバー、スーパーコンピューターが含まれます。

スウェーデン国立図書館は、17 世紀以降の新聞、1979 年からのラジオおよびテレビ放送、2005 年からの電子法定納本をデジタル化してきました。

また、2019 年の変圧器モデルから始めて、何世紀にもわたる言語データのデジタル化にも取り組んできましたが、より強力なシステムが必要であることにすぐに気づきました。

彼らは、2020 年と 2021 年にオンプレミス AI 開発のために、スウェーデンのプロバイダー AddPro から買収した 2 台の Nvidia DGX システムを設置しました。これにより、EU 内の GPU ベースのスーパーコンピューターでのさらに大規模な実行に備えることができます。

このライブラリは、大規模言語モデル (LLM) をトレーニングするための PyTorch フレームワークである Nvidia NeMo Megatron と、音声をテキストに書き起こすための AI ツールを使用します。 研究者はこれらのプラットフォームを使用して、特定のラジオ放送を検索できます。

歴史家、考古学者、ミュージシャン、データサイエンティストは、歴史的瞬間を再構想するために AI を導入しています。 現代のコンピューティングの進化に関する多くの物語と同様、AI による成功はコラボレーション、機会、実験の価値に基づいています。

続きを読む

チームはテキスト生成モデルも開発しており、AI を使用してビデオを処理し、自動説明を生成したいと考えています。 この図書館はヨーテボリ大学とも提携し、研究室のモデルを使用した言語研究のための下流アプリを開発しています。

この図書館の最も重要な成果の 1 つは、スウェーデン言語モデル (SweLL) と呼ばれる AI ベースのシステムであり、これは何世紀にもわたる言語データのデジタル化とロック解除という課題に取り組むために導入されました。 SweLL は機械学習アルゴリズムを使用してスウェーデン語のテキストを分析し、言語パターンと構文を学習し、手書きの文書をデジタル テキストに転写します。 また、システムはスペルミスを修正し、トピック、期間、作成者ごとにテキストに自動的にタグ付けして分類します。

SweLL は言語データのアクセシビリティを高めました。 研究者や学習者がスウェーデン語データに簡単にアクセスできるようになり、言語のパターンや傾向を迅速かつ正確に検索して分析できるようになります。 さらに、このライブラリは Nvidia DGX システムを使用して 24 を超えるオープンソース変圧器モデルを開発しました。これらは Hugging Face を通じて利用可能であり、研究者は数量指向の研究に特化したデータセットを作成できます。

この図書館は、今後数年間でよりアクセスしやすくするために、大量の歴史的テキスト データをデジタル化しています。 LLM により、ジャーナリストなど研究者以外の人々もデータを簡単に操作できるようになりました。

「彼らは『ウクライナ紛争中の新聞の見出しに書かれた感情は何ですか』といった質問をすることができます」とベルジェソン氏は言う。 「悲しいことでしたが、昨年の秋にはプラスになり、その後またマイナスになりました。実際にデータにアクセスしなくても、そのような定量的な質問をすることができます。」

フランクフルトがデータセンターのスプロール化を取り締まる理由レオナルド氏が 13 か月でセキュアなクラウドを受け入れた方法インテルの FaceCatcher はディープフェイクの撲滅を目指している

データ処理における法的および技術的な障害を克服するには時間がかかる場合がありますが、実現可能です。 LLM には、データの移動時に誤ったニュースが生成されるリスクがありますが、計算リソースをデータの近くに保つことで最小限に抑えることができます。

Börjeson 氏は、地元のコンピューティング リソースに多額の投資をするという同機関の決定に満足しています。なぜなら、それは時間がかかるどころか、実際には短期間で効果があるからです。 「これにより、当社のデータ サイエンティストは AI モデルをトレーニングする際により熟練できるようになりました」と彼は言い、その成果は大幅かつ迅速であると付け加えました。

この投資により、以前は時間とリソースを大量に消費していたデータ処理に必要な時間とコストが大幅に削減されました。 AI はまた、新たな発見への道を切り開き、これまで知られていなかった言語パターンを特定し、スウェーデンの歴史と文化に対する新たな洞察につながりました。

予想外なことに、このプロジェクトは地域図書館、民間企業、スウェーデン政府など他の組織にも恩恵をもたらしました。 これらの利点には、スウェーデン北部のバス停の位置を微調整したり、裁判所や警察官の官僚的な仕事量を軽減したりすることが含まれます。

IT ニュース、レビュー、機能、洞察が毎日あなたの受信箱に直接届きます。

Rene Millman は、サイバーセキュリティ、AI、IoT、クラウドをカバーするフリーランスのライター兼放送者です。 彼は GigaOm の寄稿アナリストとしても働いており、以前は Gartner のアナリストとしてインフラストラクチャ市場を担当していました。 彼は、私たちの生活に影響を与え、形づくるテクノロジーのトレンドや企業に関する見解や専門知識を提供するために、数多くのテレビ出演を行っています。 Twitter でレネ・ミルマンをフォローしてください。

OpenAIは、新しいトレーニング方法で生成AIの「幻覚」を軽減することを目指しています

デル CTO: AI は、これから来る量子の嵐に比べたら大したことはありません

Spotify、「戦略的再編」推進の中で従業員の2%を一時解雇へ

ロリー・バスゲイト著 2023年5月26日

David Howell 著 2023 年 5 月 25 日

ジョン・ノーラン著 2023年5月24日

Sandra Vogel 著 2023 年 5 月 24 日

ルネ・ミルマン著2023年5月23日

ロス・ケリー著2023年5月22日

ロリー・バスゲイト著 2023年5月19日

ロリー・バスゲイト著 2023年5月19日

Simon Aldous 2023 年 5 月 17 日

ロリー・バスゲイト著 2023年5月16日

Fleur Doidge著 2023年5月16日

投稿しました

投稿しました

投稿しました

投稿しました

IT ニュース、レビュー、機能、洞察が毎日あなたの受信箱に直接届きます。

ITPro にご登録いただきありがとうございます。 すぐに確認メールが届きます。

問題が発生しました。 ページを更新して、もう一度お試しください。