paint-brush
私が 100 万ドルを稼ぎ、それを AI 翻訳者の作成に費やした方法@alexeir
482 測定値
482 測定値

私が 100 万ドルを稼ぎ、それを AI 翻訳者の作成に費やした方法

Aliaksei Rudak2022/06/22
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

モバイル アプリだけで 100 万ドルを稼ぎ、それを使って AI に基づく新しい機械翻訳システムを作成したという私の個人的な話です。少ないリソースで複雑なディープ テック製品を作成する、長くて困難な道のり。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 私が 100 万ドルを稼ぎ、それを AI 翻訳者の作成に費やした方法
Aliaksei Rudak HackerNoon profile picture

すべての始まり

10 年前、私はソフトウェア エンジニアとして働いていましたが、その後、自分のプロジェクトを開始するために仕事を辞めました。余分なお金を節約するために、私は小さな故郷に行き、学生向けのウェブサイト、会計ソフトウェア、モバイルゲームを同時に作成していました。ビジネス経験がないため、収入を得るのに問題が発生したため、すべてのプロジェクトを終了する必要がありました。都に戻ってきて、また就職した。話は数回繰り返されました。


私が再び破産したとき、完全な経済危機に直面しました。仕事が見つからず、とても辛い思いをしました。冷静な目で世界を見るのは良い理由でした。正直なところ、自分のビジネスにどのニッチを選択すればよいかわからなかったことを認めなければなりませんでした.好きなプロジェクトを行うことは、どこにも行かないように思えました。


私にできることは、モバイル アプリケーションを作成することだけでした。テクノロジー企業での数年間の仕事で役に立つ経験を積むことができたので、根本的に異なるアプリ (ゲーム、音楽、アート、健康、ライフスタイル、言語) を作成し、市場のニーズをテストすることにしました。用意されたアセットとコード ライブラリのセットにより、2D ゲーム、GPS トラッカー、単純なユーティリティなど、さまざまなトピックに関するアプリケーションを簡単に作成できました。ほとんどのアプリケーションには、複数の画像、2 つのボタン、および 1 つの機能しかありませんでした。しかし、アイデアと収益化モデルをテストするには十分でした。たとえば、ランニング アプリは、人の速度、距離、消費カロリーを追跡しました。これ以上何もない。ストックでグラフィックを購入し、ソース コードを再利用することで、2 年間で何百もの単純なアプリケーションを作成することができました。


最初は、アプリケーションは無料でした。次に、広告とアプリ内購入を追加し、キーワードと明るいアイコンをピックアップしました。ユーザーが私のアプリをダウンロードし始めました。翻訳、トラックのナビゲーション、音楽シミュレーター (ピアノ、ドラム、ギターのコード、プレーヤー)、シンプルなカジュアル ゲームなど、いくつかのアプリケーションは利益に差がありました。


その後、わずか 1 か月で、翻訳者が 100 万回以上ダウンロードされ、ランキング カテゴリで 100 位になっていることに気付きました。世界には何百もの言語があり、人々はすべての言語についてクエリを入力します。ニッチは有望であることが判明しました。

その後、Google API を使用して約 40 の単純なトランスレーターが作成されました。 100 万文字あたり 20 ドルかかりました。その後、アプリの改良版が登場し、広告、アプリ内購入、音声翻訳が含まれました。


私は大都市に引っ越して家を買うのに十分なお金を稼いだ。その時までに、50 ~ 70 件の翻訳アプリケーションと合計 500 万件のダウンロードがありました。ユーザーの増加により、有料の Google Translate API のコストが増加しました。そのため、ビジネスの収益性は大幅に低下しました。有料ユーザーは一度に 1,000 文字のブロックを翻訳したため、リクエストを制限せざるを得ませんでした。この翻訳制限に直面したとき、彼らは悪いレビューを残し、払い戻しを受けました.収入の 70% が私たちの費用をまかなっていました。翻訳量が多いため、このビジネスは有望ではありませんでした。費用を回収するには、アプリケーションに広告を追加する必要がありました。それは常にユーザーを怖がらせます。そのため、翻訳用の API が必要でした。


Google 以外にも、いくつかの企業が翻訳用のクラウド API を提供しています。私は、40 言語のテクノロジー ライセンスに 3 万ドルを支払い、オンプレミスに展開する準備ができていました。これにより、固定価格で無制限の回数翻訳し、サーバー上の任意の数のユーザーにサービスを提供できます.しかし、それに応じて、私は予想の数倍の金額を受け取りました。高すぎました。彼らの技術を翻訳用に再現することにしました。


アウトソーシング会社を経営している友人に相談しました。 2016年の終わりに、彼は私にチームを割り当てました。 Google の API に頼るのではなく、アウトソーシング ベースで 6 か月以内に問題を解決できると期待していました。


通訳のところへ行く途中

作業が始まりました。 2016 年には、いくつかのオープン ソース プロジェクト (Apertium、Joshua、Moses) が見つかりました。簡単な文章に適した統計的機械翻訳でした。 3 人から 40 人がこれらのプロジェクトを支援しました。後で、強力なサーバーと高価な高品質のデータセットが必要であることが明らかになりました.翻訳ペアの 1 つのハードウェアと高品質のデータセットにお金を費やした後でも、品質には多くの要望が残されていました。



技術的には、翻訳者を作成するための「データセットをダウンロードしてトレーニングする」方式にはなりませんでした。私たちが気づいていなかった100万のニュアンスがあることが判明しました。さらにいくつかのリソースを試しましたが、良い結果が得られませんでした。それでも仕事は続き、フリーランサーも入社。


2017 年 3 月、私たちは OpenNMT というオープンソース プロジェクトを見つけました。このプロジェクトは立ち上げられたばかりで、新技術であるニューラル ネットワークに基づいた翻訳を提供しました。


したがって、OpenNMT は大胆な動きをしました。私のような愛好家がこの作業に参加できるように、彼らは開発をオープン ソースで共有しました。彼らは、専門家が新規参入者を無料で支援し始めるフォーラムを作成しました。そして、それは良い見返りをもたらしました。誰もが基礎を取り、それに基づいて実験を行うことができるため、翻訳に関するスタートアップや科学的研究が現れ始めました。


誰もが大規模なデータセットを処理する計算能力を持っていたとしても、市場では NLP (自然言語処理) の専門家を見つけるという問題が深刻です。 2017 年には、このトピックは画像​​およびビデオ処理よりもはるかに発展していませんでした。データセット、科学論文、専門家、フレームワークなどの数が減ります。ビジネスを構築し、NLP の研究論文から地元のニッチを閉じることができる人はさらに少数です。 Google のような一流企業も小規模企業も、同じカテゴリーの企業に対して競争力を獲得する必要があります。


奇妙に思えるかもしれませんが、競争するために、彼らは市場に新しいプレーヤーを追加することにしました.彼らがそこに現れるためには、市場を魅力的にする必要があります。参入の敷居は依然として高く、言語処理技術の需要は急速に高まっています (音声アシスタント、チャットボット、翻訳、音声認識、分析など)最大の成長。彼らは、NLP の新興企業を喜んで買収して、地位を強化しています。


結局のところ、すべてのデータセットとアルゴリズムを手にしたとしても、NLP ベクターで高品質の翻訳者や別のスタートアップを作るという意味ではありません。仮にそうしたとしても、市場のパイの大部分を手に入れるという事実にはほど遠い.したがって、助けが必要です。誰かが成功した場合は、購入またはマージします。


翻訳実験を迅速に処理し、コンソールからのテストの実行を停止するために、データの準備とフィルタリングから翻訳テストの展開まで、すべてのタスクを実行できるダッシュボードが作成されました。下の図: 右側には、モデルがトレーニングされているタスクと GPU サーバーのリストがあります。中央はニューラル ネットワークのパラメーターで、下はトレーニングに使用されるデータセットです。


仕事を続ける

2018 年、私は主要なヨーロッパ言語での高品質の翻訳の問題を解決することに時間を費やしました。すべてがうまくいくには、さらに6か月かかると思いました。私はリソースが限られており、データ サイエンスのタスクに関与する人はごくわずかでした。素早く動く必要がありました。問題の解決策は簡単なものに思えました。翻訳の品質に満足できませんでした。


私たちのコミュニティが、ニューラル ネットワークの新しいアーキテクチャである Transformer について話し始めたことに気付きました。誰もがこの Transformer モデルに基づくニューラル ネットワークのトレーニングを急いで行い、古い Lua (Torch) の代わりに Python (Tensorflow) に切り替え始めました。私もやってみることにしました。


また、新しいトークナイザーを採用し、テキストを前処理し、別の方法でデータのフィルタリングとマークアップを開始しました。それ以外の場合は、翻訳後にテキストを処理してエラーを修正しました。 10,000 時間のルールが機能しました。目標までには多くのステップがあり、ある時点で、アプリケーションの API で使用するのに翻訳品質がすでに十分であることに気付きました。変更ごとに 2 ~ 4% の品質が向上しましたが、競合他社のソリューションを使用する代わりに製品を使用し続けるクリティカル マスには不十分でした。


次に、固有表現認識、音訳、特定の辞書、単語の誤りを修正するシステムなど、翻訳の品質をさらに向上させるさまざまなツールの接続を開始しました。 5 か月の懸命な作業の後、一部の言語の品質が大幅に向上し、人々の不満が減り始めました。それがターニングポイントでした。すでにソフトウェアを販売でき、翻訳用の API があるため、コストを大幅に削減できます。費用はコンピューティング パワーだけなので、売り上げやユーザー数を増やすことができます。


ニューラル ネットワークをトレーニングするには、優れたコンピューターが必要でした。しかし、私たちはお金を節約しました。 20台の通常のコンピューター(それぞれにGTX1080ビデオカードが装備されています)をレンタルし、Lingvanexコントロールパネルを介して20台の簡単なテストを同時に開始しました. 1回のテストに1週間かかり、長い時間でした。品質を向上させるには、より多くのリソースを必要とする他のパラメーターを使用して実行する必要がありました。 1 台のマシンにクラウド コンピューティングと複数のビデオ カードが必要でした。 Amazon 8 GPU V100 x 4 のクラウド サービスをレンタルすることにしました。高速でしたが、非常に高価でした。夜にテストを開始し、朝には 1200 ドルの請求書が届きました。当時、それ以外に強力な GPU サーバーのレンタル オプションはほとんどありませんでした。私はこの考えを放棄し、より安価なオプションを探す必要がありました.自分で作成してみてはいかがでしょうか。


私たちはチームと相談し始め、いくつかの強力な GPU を使用して最大 10,000 ドルの価格でコンピューターを作成することが可能であると判断しました。 2週間後、すべての準備が整いました。


2019 年の初めに、私はついにこのコンピューターを自宅で組み立て、クラウド サービスにいくら支払う必要があるかを気にすることなく、多くのテストを実施し始めました。 BLEU メトリックによると、英西翻訳が Google 翻訳に近いことに気付き始めました。コンピューターは一晩中鳴り響き、眠れませんでした。コンソールにエラーがないことを確認する必要がありました。午前中、1 語から 100 語までの長さの 100 文を翻訳するテストを実行したところ、長い文も含めて適切な翻訳であることがわかりました。この夜はすべてを変えました。トンネルの終わりに光が見え、優れた翻訳品質を実現できることに気づきました。


科学論文

モバイル翻訳アプリでお金を稼いでいたので、その品質を向上させ、Android、Mac OS、および Windows デスクトップ用のバージョンを作成することにしました。翻訳 API を手に入れたら、アプリ開発を終えて他の市場に参入したいと思っていました。しかし、競合他社はさらに先を行っていました。いくつかのコア機能と機能が必要でした。


私が最初にやろうと決めたのは、インターネットにアクセスできないモバイル アプリケーションのオフライン音声翻訳でした。これは個人的な問題でした。たとえば、ドイツに行き、ドイツ語のパッケージのみを電話 (100 MB) にダウンロードすると、英語からドイツ語への翻訳、または英語からドイツ語への翻訳が得られます。海外でのインターネットアクセスが問題になる可能性があります。 Wi-Fi が利用できない、遅い、または使用できないことがよくあります。当時、2017 年には、Google API を使用するためにインターネット接続が必要な高品質の翻訳アプリが何千もありました。携帯電話で高速に実行し、高品質で翻訳できるように、ニューラル モデルをコンパクトにするという課題がありました。


スペインで、機械翻訳プロジェクトの経験が豊富な人を見つけました。約 3 か月間、翻訳用ニューラル ネットワーク モデルのサイズを縮小し、1 言語あたり 100 MB を達成して携帯電話で実行するという分野で共同研究を行いました。

辞書の特定のサイズ (たとえば、30,000 語) に、さまざまな長さとトピックの単語を翻訳するためのオプションをできるだけ多く埋め込むために、サイズを縮小する必要がありました。


その後、2018 年 5 月にスペインのアリカンテで開催された欧州機械翻訳協会で研究成果が公開・発表され、チーム メンバーの 1 人が博士号を取得しました。その上で。


カンファレンスでは、多くの人が製品を購入したいと考えていましたが、用意されていたのは 1 つの言語ペア (英語とスペイン語) だけでした。携帯電話向けのニューロンのオフライン翻訳は 2018 年 3 月に準備が整い、夏までは他のすべての言語で翻訳を行うことができました。しかし、時間とお金が足りませんでした。この機能を一時停止する必要がありました。 1年後、私はそれに戻って完成させました。


その後、テキスト、音声、写真の翻訳に加えて、競合他社にはなかった文字起こしによる通話翻訳を追加することにしました。さまざまな国の人々が携帯電話または固定電話を使用してサポートに電話することが多いことを知っていました。また、あなたが電話をかけている人には、アプリをインストールする必要はありませんでした.この機能には多くの時間と費用がかかるため、別のアプリケーションに入れました。これが、電話の翻訳者を立ち上げた方法です。


翻訳付きボイスチャットも追加。これは、ガイドが彼らの言語を話すことができ、各訪問者が翻訳を聞くことができる場合、観光グループに役立ちます.最後に、電話またはコンピューターでの大きなファイルの翻訳です。


会社設立

プロジェクトは成長しました。アプリケーションは、モバイル プラットフォームだけでなく、コンピューター、ウェアラブル デバイス、インスタント メッセンジャー、ブラウザー、音声アシスタントにも登場しています。テキストの翻訳に加えて、音声、写真、ファイル、ウェブサイト、電話の翻訳が作成されました。当初、私は翻訳 API を自分のアプリケーション専用にするつもりでした。しかし、それをみんなに提供することにしました。


それまでは、人を雇って外注して、個人ですべてを管理していました。しかし、製品の複雑さとタスクの数が急速に増加し始め、機能を委任して、オフィスの自分のチームにすばやく人を雇う必要があることが明らかになりました。友人に電話したところ、彼は仕事を辞め、2017 年 3 月に Lingvanex 社を設立することを決めました。


2020 年までは、モバイル翻訳アプリケーションに重点を置いていました。最近、モバイル アプリケーション向けの Appstore Search Optimization (ASO) のアルゴリズムが変更されました。有料インストールを購入せずに Apple App Store のキーワードを使用すると、効果がなくなりました。有料トラフィックによるユーザー獲得は非常に高価になっています。それでも、4,000 万回のダウンロードを獲得し、最初の 100 万ドルを稼ぐことができました。


2020 年末に、B2B 市場への移行を決定しました。私たちは、国際ビジネスには翻訳機能が必要だと考えています。サポートする言語が多ければ多いほど、より多くの収益が得られます。


5 年間で、「なぜ Lingvanex は Google よりも優れているのか」という何千もの質問を受けました。さまざまな答えを出そうとしましたが、ここでは簡単に答えようとします — データのプライバシー、機能、価格、サポート サービス。大量のデータを翻訳する必要がある場合、またはプライバシーが必要な場合は、Lingvanex Translator を使用してください。


現在、翻訳には 3 つのオプションがあります。Cloud API、SDK、および主力製品である Translation Server です。


Cloud API - Google の 4 倍の API によるテキストとサイトの翻訳 (100 万文字あたり 5 ドル)。大量のデータの場合、価格が重要になる場合があります。 Google と同じ REST API 形式をサポートしているため、移行が容易です。


翻訳 SDK -アプリにオフライン翻訳機能を追加する必要がある場合は、これが最適です。 iOS、Android、Mac OS、Windows プラットフォームと 110 の言語をサポートしています。各言語はわずか 70 MB で、200 MB の RAM を使用します。


オンプレミスの翻訳サーバー-テキスト、ファイル、音声、および HTML の無制限の安全で超高速な翻訳。オフラインで動作し、1 日あたり数十億文字を翻訳できます。また、サーバーは 19 の言語で音声の書き起こしを行うことができます。 Ubuntu の Docker イメージとして提供されます。料金は月額 $200 からで、言語の数によって異なります。


概要

何年にもわたって、私はモバイル アプリから約 100 万ドルの収益を上げ、利益のほとんどを独自の翻訳システムの作成に費やしました。あなたは私たちを訪問することができます Webサイト翻訳品質をテストし、当社の製品について詳しく知ることができます。


無料の製品デモを入手したり、質問したりするには、[email protected] まで電子メールでお気軽にお問い合わせください。


こちらにも掲載