メイン 革新 Google AIにより、ユーザーは携帯電話のカメラを使用して27の言語でテキストを即座に翻訳できるようになりました

Google AIにより、ユーザーは携帯電話のカメラを使用して27の言語でテキストを即座に翻訳できるようになりました

どの映画を見るべきですか?
 
(GIF:グーグル)

(GIF:グーグル)



人工知能のおかげで、海外旅行はかつてないほど簡単になりました。

Google翻訳アプリを使用すると、ユーザーはテキストを即座に翻訳できます。アプリで、翻訳したいテキストにカメラを向けるだけで、インターネット接続や携帯電話のデータは必要なく、目の前で希望の言語にライブで変換されます。この便利な機能はしばらくの間利用可能でしたが、7つの言語としか互換性がありませんでした。 、機械学習のおかげで、Googleはアプリをアップグレードして27の言語を即座に翻訳しました。

次回プラハに来てメニューが読めなくなったときは、GoogleのソフトウェアエンジニアであるOtavioGoodが同社の調査について書いています。 ブログ

Googleはまた、AIを使用して音声認識エラーを半分に減らしました。

現在、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、スペイン語の翻訳に加えて、ブルガリア語、カタロニア語、クロアチア語、チェコ語、デンマーク語、オランダ語、フィリピン語、フィンランド語、ハンガリー語、インドネシア語、リトアニア語、ノルウェー語、ポーランド語、ルーマニア語、スロバキア語、スウェーデン語、トルコ語、ウクライナ語。また、テキストの翻訳をライブで見る代わりに写真を撮ることを選択した場合、合計37の言語がサポートされます。

では、Googleはどのようにして利用可能な言語の数を増やすことができたのでしょうか。彼らは最初に、以前は拡張現実翻訳アプリケーションであったWord Lensを買収し、機械学習と畳み込みニューラルネットワークを使用してアプリの機能を強化しました。画像認識の進歩が鍵となりました。

5年前、コンピュータに猫と犬の画像を与えると、どちらがどちらかを判断するのに苦労しました。畳み込みニューラルネットワークのおかげで、コンピューターは猫と犬の違いを知ることができるだけでなく、さまざまな品種の犬を認識することさえできるとグッド氏は語った。はい、彼らはただ以上に良いです トリッピーアート —外国のメニューを翻訳したり、最新バージョンのGoogleの翻訳アプリで署名したりする場合は、現在、ディープニューラルネットを使用しています。

ステップバイステップ

最初 、翻訳は背景の乱雑さを取り除き、テキストを見つける必要があります。同じ色のピクセルの塊を見つけると、それらが文字であると判断します。そして、それらのブロブが互いに接近しているとき、それは読み取られるべき連続した線であると理解します。

次、 アプリは、個々の文字が何であるかを認識する必要があります。ここでディープラーニングが登場します。

畳み込みニューラルネットワークを使用して、文字と非文字でトレーニングし、さまざまな文字がどのように見えるかを学習できるようにします、とブログ投稿を読みます。

研究者たちは、見た目がきれいな文字だけでなく、汚れた文字も使用してソフトウェアをトレーニングする必要がありました。グッド氏は、現実の世界で出された手紙は、反射、汚れ、汚れ、そしてあらゆる種類の奇妙さによって損なわれていると書いています。そこで、文字ジェネレーターを作成して、あらゆる種類の偽の汚れを作成し、現実世界の騒々しさを説得力を持って模倣しました。偽の反射、偽の汚れ、偽の奇妙さなどです。 いくつかの

トレーニングに使用される汚い手紙のいくつか。 (写真:グーグル)








ザ・ 第三 ステップは、翻訳を取得するために辞書で認識された文字を検索することです。また、精度をさらに高めるために、Sが5と誤読された場合に備えて、辞書のルックアップは概算です。

最後に、 翻訳されたテキストは、同じスタイルで元のテキストの上にレンダリングされます。

画像内の文字をすでに見つけて読んだので、これを行うことができます。そのため、文字がどこにあるかを正確に知ることができます。文字の周囲の色を見て、それを使用して元の文字を消去できます。そして、元の前景色を使用して翻訳を上に描くことができます、とブログ投稿は読んでいます。

可能な限り効率的にし、インターネットやデータ接続なしでこれらすべてのステップをリアルタイムで完了できるようにするために、Googleチームは、処理できる情報の密度に上限がある非常に小さなニューラルネットを開発しました。彼らは独自のトレーニングデータを生成していたため、適切なデータを含めることが重要でしたが、余分なものは何も含まないため、ニューラルネットワークは重要でないことに情報密度をあまり使用していません。例としては、少し回転しているが多すぎない文字を認識する必要がある方法があります。

最終的に、ユーザーにはさらに20の言語が残されますが、速度は同じです。

関連項目:GoogleのAIチームが機械学習研究の概要を教えてくれました

あなたが好きかもしれない記事 :