paint-brush
Làm thế nào tôi kiếm được 1 triệu đô la và chi tiêu nó vào việc tạo ra một người dịch AItừ tác giả@alexeir
482 lượt đọc
482 lượt đọc

Làm thế nào tôi kiếm được 1 triệu đô la và chi tiêu nó vào việc tạo ra một người dịch AI

từ tác giả Aliaksei Rudak2022/06/22
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Câu chuyện cá nhân của tôi về việc kiếm 1000000 đô la một mình trên các ứng dụng dành cho thiết bị di động và dành nó để tạo ra một hệ thống dịch máy mới dựa trên AI. Cách lâu dài và khó khăn để tạo ra sản phẩm công nghệ sâu phức tạp với nguồn lực nhỏ.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Làm thế nào tôi kiếm được 1 triệu đô la và chi tiêu nó vào việc tạo ra một người dịch AI
Aliaksei Rudak HackerNoon profile picture

Tất cả bắt đầu như thế nào

10 năm trước, tôi làm kỹ sư phần mềm và sau đó đã nghỉ việc để bắt đầu các dự án của riêng mình. Để tiết kiệm thêm một khoản tiền, tôi đến một quê hương nhỏ, nơi tôi từng làm việc trên một trang web dành cho sinh viên, phần mềm kế toán và trò chơi di động cùng một lúc. Không có kinh nghiệm kinh doanh gây ra một số vấn đề với việc tạo thu nhập, vì vậy tất cả các dự án phải đóng cửa. Tôi trở lại thủ đô để kiếm việc làm, một lần nữa. Câu chuyện lặp đi lặp lại một vài lần.


Khi tôi bị phá sản một lần nữa sau đó phải đối mặt với một cuộc khủng hoảng kinh tế hoàn toàn. Tôi không thể tìm được việc làm và cảm thấy thật kinh khủng. Đó là một lý do chính đáng để nhìn thế giới qua đôi mắt tỉnh táo. Tôi phải thành thật thú nhận rằng tôi không biết nên chọn thị trường ngách nào cho công việc kinh doanh của mình. Thực hiện các dự án bạn thích dường như là một con đường không đến nơi đến chốn.


Điều duy nhất tôi có thể làm là tạo ra các ứng dụng di động. Vài năm làm việc trong các công ty công nghệ cho phép tôi có được một số kinh nghiệm hữu ích, vì vậy tôi quyết định tạo ra các ứng dụng khác nhau về cơ bản (trò chơi, âm nhạc, nghệ thuật, sức khỏe, lối sống, ngôn ngữ) và thử nghiệm nhu cầu của thị trường. Các bộ nội dung và thư viện mã được chuẩn bị sẵn giúp bạn có thể đơn giản tạo các ứng dụng về các chủ đề khác nhau: trò chơi 2D, bộ theo dõi GPS, tiện ích đơn giản, v.v. Hầu hết chúng đều có một số hình ảnh, 2 nút và chỉ một chức năng. Nhưng nó đã đủ để kiểm tra ý tưởng và mô hình kiếm tiền. Ví dụ: một ứng dụng đang chạy theo dõi tốc độ, khoảng cách và lượng calo đốt cháy của một người. Chỉ có bấy nhiêu thôi. Mua đồ họa trên cổ phiếu và sử dụng lại mã nguồn đã giúp tôi tạo ra hàng trăm ứng dụng đơn giản trong hơn 2 năm.


Lúc đầu, các ứng dụng đều miễn phí. Sau đó, tôi thêm quảng cáo và mua hàng trong ứng dụng, đồng thời chọn các từ khóa và biểu tượng sáng sủa. Người dùng bắt đầu tải xuống ứng dụng của tôi. Một số ứng dụng khác nhau về lợi nhuận: người dịch, điều hướng cho xe tải, trình mô phỏng âm nhạc (piano, trống, hợp âm guitar, người chơi), cũng như các trò chơi thông thường đơn giản.


Sau đó, tôi nhận thấy rằng chỉ trong một tháng, người dịch đã được tải xuống hơn 1 triệu lần, chiếm vị trí thứ 100 trong danh mục xếp hạng. Có hàng trăm ngôn ngữ trên thế giới và mọi người nhập truy vấn cho mọi ngôn ngữ. Thị trường ngách hóa ra đầy hứa hẹn.

Khoảng 40 trình dịch đơn giản sau đó đã được tạo bằng Google API. Tôi phải trả 20 đô la cho mỗi 1 triệu ký tự. Sau đó, xuất hiện các phiên bản ứng dụng được cải tiến, nơi tôi bao gồm quảng cáo, mua hàng trong ứng dụng và dịch giọng nói.


Tôi kiếm đủ tiền để chuyển đến thành phố lớn và mua một căn nhà. Vào thời điểm đó, tôi đã có 50–70 ứng dụng dịch và tổng cộng 5 triệu lượt tải xuống. Sự phát triển của người dùng đã làm tăng chi phí của API Google Dịch trả phí. Vì vậy lợi nhuận kinh doanh giảm sút nghiêm trọng. Việc trả tiền cho người dùng đã dịch các khối 1K ký tự cùng một lúc, điều này buộc chúng tôi phải hạn chế yêu cầu của họ. Khi họ gặp phải giới hạn dịch thuật này, họ đã để lại những đánh giá không tốt và được hoàn lại tiền. 70% thu nhập trang trải chi phí của chúng tôi. Với khối lượng dịch thuật lớn, công việc kinh doanh này không có triển vọng. Để bù đắp chi phí, cần phải thêm quảng cáo vào các ứng dụng; điều đó luôn khiến người dùng sợ hãi. Đó là lý do tại sao chúng tôi cần API của mình để dịch.


Bên cạnh Google, một số công ty đã cung cấp API đám mây để dịch. Tôi đã sẵn sàng trả $ 30K cho giấy phép công nghệ của họ bằng 40 ngôn ngữ để triển khai tại chỗ. Điều này sẽ cho phép tôi dịch không giới hạn số lần với một mức giá cố định và phục vụ bất kỳ số lượng người dùng nào trên máy chủ của tôi. Nhưng đáp lại, tôi nhận được số tiền cao hơn gấp nhiều lần so với dự kiến. Nó quá đắt. Tôi quyết định tạo lại công nghệ của họ để dịch.


Tôi tìm đến một người bạn sở hữu một công ty gia công phần mềm. Vào cuối năm 2016, anh ấy đã phân bổ một đội cho tôi. Tôi dự kiến ​​sẽ giải quyết vấn đề trong sáu tháng trên cơ sở thuê ngoài, không phụ thuộc vào API của Google.


Trên đường đến phiên dịch của tôi

Công việc đã bắt đầu. Vào năm 2016, chúng tôi đã tìm thấy một số dự án mã nguồn mở - Apertium, Joshua và Moses. Đó là một bản dịch máy thống kê phù hợp với các văn bản đơn giản. Từ 3 đến 40 người đã ủng hộ các dự án này. Sau đó, rõ ràng là chúng ta cần những máy chủ mạnh mẽ và bộ dữ liệu chất lượng cao, những thứ này đắt tiền. Ngay cả sau khi chúng tôi chi tiền cho phần cứng và tập dữ liệu chất lượng cho một trong các cặp bản dịch, chất lượng vẫn còn nhiều điều mong muốn.



Về mặt kỹ thuật, nó không đi đến sơ đồ “tải xuống tập dữ liệu và đào tạo” để tạo một trình dịch. Nó chỉ ra rằng có một triệu sắc thái mà chúng tôi thậm chí không nhận thức được. Chúng tôi đã thử thêm một vài tài nguyên nhưng không đạt được kết quả tốt. Tuy nhiên, công việc vẫn tiếp tục và những người làm nghề tự do đã gia nhập công ty.


Vào tháng 3 năm 2017, chúng tôi đã tìm thấy một dự án mã nguồn mở có tên là OpenNMT. Dự án vừa được khởi động và cung cấp bản dịch dựa trên công nghệ mới - mạng nơ-ron.


Do đó, OpenNMT đã thực hiện một bước đi táo bạo: họ chia sẻ sự phát triển của họ trong mã nguồn mở để những người đam mê như tôi có thể tham gia vào công việc này. Họ đã tạo ra một diễn đàn, nơi các chuyên gia của họ bắt đầu trợ giúp miễn phí những người mới đến. Và nó đã mang lại lợi nhuận tốt: các công ty khởi nghiệp và các công trình khoa học về dịch thuật bắt đầu xuất hiện vì mọi người đều có thể nắm bắt cơ sở và tiến hành các thí nghiệm của mình trên cơ sở đó.


Ngay cả khi tất cả mọi người đều có khả năng tính toán để xử lý các bộ dữ liệu lớn, câu hỏi về việc tìm kiếm các chuyên gia về NLP (Xử lý ngôn ngữ tự nhiên) vẫn rất gay gắt trên thị trường. Năm 2017, chủ đề này kém phát triển hơn nhiều so với xử lý hình ảnh và video. Ít bộ dữ liệu, bài báo khoa học, chuyên gia, khuôn khổ và hơn thế nữa. Thậm chí còn ít hơn những người có thể xây dựng một doanh nghiệp và đóng bất kỳ ngách nào tại địa phương của họ từ các tài liệu nghiên cứu NLP. Cả những công ty hàng đầu như Google và những công ty nhỏ hơn đều cần đạt được lợi thế cạnh tranh so với những người chơi trong danh mục của họ.


Nghe có vẻ lạ, nhưng để cạnh tranh, họ quyết định thêm người chơi mới vào thị trường. Để họ xuất hiện ở đó - bạn cần phải làm cho thị trường trở nên hấp dẫn. Ngưỡng đầu vào vẫn còn cao và nhu cầu về công nghệ xử lý ngôn ngữ đang tăng nhanh (trợ lý giọng nói, chatbot, dịch, nhận dạng giọng nói, phân tích, v.v.) Các công ty lớn quan tâm đến các công ty khởi nghiệp như chúng tôi đang phát triển, nắm bắt các ngách mới và hiển thị tăng trưởng tối đa. Họ rất vui khi mua các công ty khởi nghiệp NLP để củng cố vị trí của họ.


Xét cho cùng, ngay cả khi bạn có tất cả các tập dữ liệu và thuật toán trong tay - điều này không có nghĩa là bạn sẽ tạo ra một trình dịch chất lượng cao hoặc một công ty khởi nghiệp khác trong vector NLP. Và ngay cả khi bạn làm vậy, thì việc bạn kiếm được một miếng bánh lớn trên thị trường còn lâu mới có được. Do đó, bạn cần giúp đỡ, và nếu ai đó thành công, hãy mua hoặc hợp nhất.


Để nhanh chóng xử lý các thử nghiệm dịch và ngừng chạy thử nghiệm từ bảng điều khiển, Trang tổng quan đã được tạo cho phép chúng tôi thực hiện tất cả các tác vụ, từ chuẩn bị và lọc dữ liệu đến triển khai thử nghiệm dịch. Trong hình bên dưới: bên phải là danh sách các tác vụ và máy chủ GPU mà các mô hình đang được đào tạo. Ở trung tâm là các tham số của mạng nơ-ron và bên dưới là các tập dữ liệu sẽ được sử dụng để huấn luyện.


Tiếp tục công việc

Trong năm 2018, tôi đã dành thời gian của mình để giải quyết vấn đề dịch thuật chất lượng cao sang các ngôn ngữ chính của Châu Âu. Tôi nghĩ rằng tôi cần thêm sáu tháng nữa để mọi thứ ổn thỏa. Tôi bị hạn chế về nguồn lực, chỉ có rất ít người tham gia vào các nhiệm vụ khoa học dữ liệu. Nó là cần thiết để di chuyển nhanh chóng. Có vẻ như giải pháp cho vấn đề là một cái gì đó đơn giản. Tôi không hài lòng với chất lượng bản dịch.


Tôi nhận thấy rằng cộng đồng của chúng tôi bắt đầu nói về một kiến ​​trúc mới cho mạng nơ-ron - Máy biến áp. Mọi người đổ xô đào tạo mạng nơ-ron dựa trên mô hình Transformer này và bắt đầu chuyển sang Python (Tensorflow) thay vì Lua (Torch) cũ. Tôi quyết định thử nó quá.


Chúng tôi cũng sử dụng một tokenizer mới, xử lý trước văn bản và bắt đầu lọc và đánh dấu dữ liệu theo một cách khác, nếu không sẽ xử lý văn bản sau khi dịch để sửa lỗi. Quy tắc 10 nghìn giờ đã hoạt động: có nhiều bước để đạt được mục tiêu và tại một số thời điểm, tôi nhận ra rằng chất lượng bản dịch đã đủ để sử dụng trong API cho các ứng dụng của mình. Mỗi thay đổi làm tăng thêm 2-4% chất lượng, điều này không đủ cho khối lượng quan trọng nơi mọi người tiếp tục sử dụng sản phẩm thay vì sử dụng các giải pháp của đối thủ cạnh tranh.


Sau đó, chúng tôi bắt đầu kết nối các công cụ khác nhau cho phép chúng tôi cải thiện hơn nữa chất lượng bản dịch: nhận dạng thực thể được đặt tên, chuyển ngữ, từ điển cụ thể, hệ thống sửa lỗi trong từ. Sau 5 tháng làm việc chăm chỉ, chất lượng của một số ngôn ngữ đã trở nên tốt hơn nhiều và mọi người bắt đầu ít phàn nàn hơn. Đó là một bước ngoặt. Bạn đã có thể bán phần mềm và vì bạn có API để dịch, bạn có thể giảm chi phí rất nhiều. Bạn có thể tăng doanh số bán hàng hoặc số lượng người dùng, bởi vì chi phí duy nhất của bạn là sức mạnh tính toán.


Để đào tạo một mạng nơ-ron, tôi cần một máy tính tốt. Nhưng chúng tôi đã tiết kiệm được tiền. Chúng tôi đã thuê 20 máy tính thông thường (mỗi máy tính được trang bị một card màn hình GTX1080) và thực hiện đồng thời 20 bài kiểm tra đơn giản trên chúng thông qua Bảng điều khiển Lingvanex. Mất một tuần cho mỗi lần kiểm tra, quả là một thời gian dài. Để đạt được chất lượng tốt hơn, bạn phải chạy với các tham số khác đòi hỏi nhiều tài nguyên hơn. Chúng tôi cần điện toán đám mây và nhiều thẻ video hơn trên một máy. Chúng tôi quyết định thuê dịch vụ đám mây Amazon 8 GPU V100 x 4. Nó nhanh nhưng rất đắt. Chúng tôi bắt đầu bài kiểm tra vào ban đêm, và buổi sáng nhận được hóa đơn 1200 đô la. Vào thời điểm đó, có rất ít lựa chọn cho thuê máy chủ GPU mạnh mẽ ngoài nó. Tôi đã phải từ bỏ ý tưởng này và tìm kiếm các lựa chọn rẻ hơn. Có thể cố gắng tạo ra của riêng tôi?


Chúng tôi đã bắt đầu tham khảo ý kiến ​​của nhóm và quyết định rằng có thể tạo ra một máy tính sử dụng một số GPU mạnh mẽ với mức giá lên đến 10 nghìn đô la, điều này sẽ giải quyết được các vấn đề của chúng tôi và trả hết sau một tháng. Hai tuần sau, mọi thứ đã sẵn sàng.


Vào đầu năm 2019, cuối cùng tôi đã lắp ráp chiếc máy tính này ở nhà và bắt đầu tiến hành nhiều thử nghiệm, mà không cần lo lắng về những gì tôi cần phải trả cho các dịch vụ đám mây. Tôi bắt đầu nhận thấy rằng bản dịch tiếng Anh-Tây Ban Nha gần giống với bản dịch của Google theo chỉ số BLEU. Máy tính vo ve cả đêm, không tài nào chợp mắt được. Nó là cần thiết để đảm bảo không có lỗi trong bảng điều khiển. Vào buổi sáng, tôi đã chạy thử nghiệm dịch 100 câu có độ dài từ 1 đến 100 từ và thấy rằng nó là một bản dịch tốt, kể cả những câu dài. Đêm này đã thay đổi mọi thứ. Tôi đã nhìn thấy ánh sáng cuối đường hầm và nhận ra rằng mình có thể đạt được chất lượng bản dịch tốt.


Bài báo khoa học

Kiếm tiền từ các ứng dụng phiên dịch trên thiết bị di động, tôi quyết định cải thiện chất lượng của chúng, cũng như tạo phiên bản cho Android, Mac OS và Windows Desktop. Tôi hy vọng rằng khi tôi có API dịch của mình, tôi sẽ hoàn thành việc phát triển ứng dụng để thâm nhập vào các thị trường khác. Nhưng các đối thủ cạnh tranh đã đi xa hơn nhiều. Một số chức năng và tính năng cốt lõi là cần thiết.


Điều đầu tiên tôi quyết định làm là dịch giọng nói ngoại tuyến cho các ứng dụng di động mà không cần truy cập Internet. Đây là một vấn đề cá nhân. Ví dụ: bạn đến Đức, chỉ tải gói tiếng Đức xuống điện thoại (100 MB) và nhận bản dịch từ tiếng Anh sang tiếng Đức và ngược lại. Truy cập Internet ở nước ngoài có thể là một vấn đề. Wifi thường không khả dụng, chậm hoặc không sử dụng được. Vào thời điểm đó, năm 2017, có hàng nghìn ứng dụng dịch chất lượng cao yêu cầu kết nối Internet để sử dụng Google API. Chúng tôi đã có một thách thức là làm cho các mô hình thần kinh nhỏ gọn để có thể chạy nhanh trên điện thoại di động và dịch với chất lượng tốt.


Tôi tìm thấy những người ở Tây Ban Nha có kinh nghiệm tốt trong các dự án dịch máy. Trong khoảng 3 tháng, chúng tôi đã cùng nhau thực hiện nghiên cứu trong lĩnh vực giảm kích thước của mô hình mạng nơ-ron để dịch, để đạt được 100 MB mỗi ngôn ngữ và sau đó chạy trên điện thoại di động.

Kích thước phải được giảm xuống để trong một kích thước nhất định của từ điển (ví dụ: 30 nghìn từ) để nhúng nhiều tùy chọn nhất có thể để dịch các từ có độ dài và chủ đề khác nhau.


Sau đó, kết quả nghiên cứu của chúng tôi đã được công bố rộng rãi và được trình bày tại Hiệp hội Dịch máy Châu Âu ở Alicante (Tây Ban Nha) vào tháng 5 năm 2018, và một trong những thành viên trong nhóm đã có bằng Tiến sĩ. trên đó.


Tại hội nghị, nhiều người muốn mua một sản phẩm, nhưng chỉ có một cặp ngôn ngữ sẵn sàng (Anh - Tây Ban Nha). Bản dịch ngoại tuyến trên tế bào thần kinh cho điện thoại di động đã sẵn sàng vào tháng 3 năm 2018 và có thể thực hiện việc này bằng tất cả các ngôn ngữ khác cho đến mùa hè. Nhưng tôi không có đủ thời gian và tiền bạc. Tôi đã phải tạm dừng tính năng này. Một năm sau, tôi quay lại với nó và hoàn thành nó.


Sau đó, ngoài dịch văn bản, giọng nói và hình ảnh, chúng tôi quyết định bổ sung dịch vụ dịch cuộc gọi điện thoại bằng bảng điểm, điều mà các đối thủ cạnh tranh không có. Chúng tôi biết rằng mọi người ở các quốc gia khác nhau thường sử dụng điện thoại di động hoặc điện thoại cố định để gọi hỗ trợ. Và đối với một người mà bạn đang gọi, không cần phải cài đặt ứng dụng. Chức năng này đòi hỏi nhiều thời gian và chi phí, vì vậy chúng tôi đã đưa nó vào một ứng dụng riêng. Đây là cách chúng tôi khởi chạy Trình dịch cuộc gọi điện thoại .


Cũng đã thêm các cuộc trò chuyện thoại với bản dịch. Điều này sẽ hữu ích cho các nhóm khách du lịch khi hướng dẫn viên có thể nói ngôn ngữ của họ và mỗi du khách sẽ nghe bản dịch. Và cuối cùng - dịch các tệp lớn trên điện thoại hoặc máy tính.


Tập thể công ty

Dự án đã phát triển. Các ứng dụng đã xuất hiện không chỉ cho nền tảng di động mà còn cho máy tính, thiết bị đeo được, trình nhắn tin tức thì, trình duyệt và trợ lý giọng nói. Ngoài việc dịch văn bản, bản dịch giọng nói, hình ảnh, tệp, trang web và cuộc gọi điện thoại đã được tạo ra. Ban đầu, tôi dự định tạo API dịch của mình để chỉ sử dụng cho các ứng dụng của mình. Nhưng sau đó tôi quyết định cung cấp nó cho mọi người.


Cho đến thời điểm đó, tôi tự mình quản lý mọi thứ với tư cách cá nhân, thuê người làm bên ngoài. Nhưng sự phức tạp của sản phẩm và số lượng nhiệm vụ bắt đầu tăng lên nhanh chóng, và rõ ràng là bạn cần phải ủy quyền các chức năng và nhanh chóng thuê người vào nhóm của riêng bạn trong văn phòng của bạn. Tôi gọi điện cho một người bạn, anh ấy xin nghỉ việc và quyết định thành lập công ty Lingvanex vào tháng 3/2017.


Cho đến năm 2020, trọng tâm của chúng tôi là các ứng dụng dịch thuật di động. Gần đây, Appstore Search Optimization (ASO) cho các ứng dụng di động đã thay đổi thuật toán của nó. Các từ khóa trong Apple App store mà không mua các bản cài đặt trả phí đã trở nên vô hiệu. Việc chuyển đổi người dùng với lưu lượng truy cập phải trả tiền đã trở nên rất tốn kém. Tuy nhiên, nó đã giúp tôi đạt được 40 triệu lượt tải xuống và kiếm được một triệu đô la đầu tiên.


Vào cuối năm 2020, chúng tôi quyết định chuyển sang thị trường B2B. Chúng tôi nghĩ rằng bất kỳ doanh nghiệp quốc tế nào cũng cần có tính năng dịch thuật. Bạn càng hỗ trợ nhiều ngôn ngữ, bạn càng nhận được nhiều doanh thu.


Trong 5 năm, tôi đã nhận được hàng nghìn câu hỏi “Tại sao Lingvanex lại tốt hơn Google”. Tôi đã cố gắng đưa ra các câu trả lời khác nhau, nhưng bây giờ tôi cố gắng trả lời ngắn gọn - quyền riêng tư dữ liệu, chức năng, giá cả, dịch vụ hỗ trợ. Sử dụng Lingvanex Translator nếu bạn cần dịch khối lượng lớn dữ liệu hoặc khi bạn cần sự riêng tư.


Hôm nay, chúng tôi có ba tùy chọn để dịch: Cloud API, SDK và sản phẩm hàng đầu của chúng tôi - Máy chủ dịch.


API đám mây - Dịch văn bản và trang web thông qua API của chúng tôi rẻ hơn gấp 4 lần so với Google ($ 5 cho mỗi triệu ký tự). Giá có thể rất quan trọng đối với khối lượng lớn dữ liệu. Chúng tôi hỗ trợ định dạng API REST giống như Google nên sẽ dễ dàng di chuyển.


SDK dịch - Nếu bạn cần thêm tính năng dịch ngoại tuyến vào ứng dụng của mình, thì đây là lựa chọn tốt nhất. Chúng tôi hỗ trợ các nền tảng iOS, Android, Mac OS và Windows và 110 ngôn ngữ. Mỗi ngôn ngữ chỉ có 70MB và sử dụng 200 MB RAM.


Máy chủ dịch tại chỗ - Bản dịch văn bản, tệp, âm thanh và HTML an toàn và cực nhanh không giới hạn. Nó hoạt động ngoại tuyến và có thể dịch hàng tỷ ký tự mỗi ngày. Ngoài ra, máy chủ có thể tạo bản ghi âm bằng 19 ngôn ngữ. Nó xuất hiện dưới dạng hình ảnh docker cho Ubuntu. Giá bắt đầu từ $ 200 / tháng và phụ thuộc vào một số ngôn ngữ.


Bản tóm tắt

Trong những năm qua, tôi đã kiếm được khoảng 1 triệu đô la doanh thu từ các ứng dụng dành cho thiết bị di động và dành phần lớn lợi nhuận để tạo ra hệ thống dịch của riêng mình. Bạn có thể ghé thăm của chúng tôi trang mạng để kiểm tra chất lượng bản dịch và biết thêm về sản phẩm của chúng tôi.


Để nhận demo sản phẩm miễn phí hoặc đặt câu hỏi, vui lòng liên hệ với tôi qua email [email protected]


Cũng được xuất bản tại đây