paint-brush
Um mergulho profundo no LLaMA v2 para aplicativos de bate-papopor@mikeyoung44
1,200 leituras
1,200 leituras

Um mergulho profundo no LLaMA v2 para aplicativos de bate-papo

por Mike Young5m2023/07/19
Read on Terminal Reader

Muito longo; Para ler

Implementação da A16z-infra do novo modelo de chat [llama13b-v2-chat] da Meta. O modelo é hospedado no Replicate, um serviço de hospedagem de modelo de IA que permite interagir com modelos complicados com apenas algumas linhas de código ou uma simples chamada de API. Com impressionantes 13 bilhões de parâmetros, esse modelo foi adaptado significativamente para aplicativos de bate-papo.
featured image - Um mergulho profundo no LLaMA v2 para aplicativos de bate-papo
Mike Young HackerNoon profile picture
0-item
1-item
2-item


Pense nas complexidades de gerar respostas semelhantes às humanas em aplicativos de bate-papo online. Como você pode tornar a infraestrutura eficiente e as respostas realistas? A solução são os modelos de linguagem de IA. Neste guia, nos aprofundamos na implementação do a16z-infra do novo LLM llama13b-v2-chat da Meta , um modelo de linguagem de 13 bilhões de parâmetros ajustado especificamente para aplicativos de bate-papo. Esse modelo é hospedado no Replicate, um serviço de hospedagem de modelo de IA que permite interagir com modelos complicados e poderosos com apenas algumas linhas de código ou uma simples chamada de API.


Neste guia, abordaremos o que é o modelo llama13b-v2-chat, como pensar sobre suas entradas e saídas e como usá-lo para criar conclusões de bate-papo. Também mostraremos como encontrar modelos semelhantes para aprimorar seus aplicativos de IA usando AIModels.fyi . Então, vamos cortar o jargão da IA e chegar ao núcleo.


Inscreva-se ou siga-me no Twitter para mais conteúdo como este!

Sobre o modelo de bate-papo LLaMA-v2

O modelo LLaMA13b-v2-chat disponível no Replicate foi criado pela equipe a16z-infra e é construído sobre o novo modelo LLaMA v2 da Meta. A Meta criou o LLaMA com o objetivo de entender e gerar melhor a linguagem humana, e o modelo de bate-papo que examinaremos foi aprimorado para melhorar as interações entre usuários humanos e chatbots de IA. Com impressionantes 13 bilhões de parâmetros, esse modelo foi adaptado significativamente para esse caso de uso específico. Você pode encontrar mais detalhes sobre este modelo e os outros modelos da a16z-infra na página do criador em AIModels.fyi .


A implementação Replicate do modelo llama13b-v2-chat usa a poderosa GPU Nvidia A100 (40 GB) para previsões, com um tempo médio de execução de 7 segundos por previsão. Seu preço é de apenas $ 0,014 por execução, o que o torna amplamente acessível para projetos de baixo orçamento ou startups.

Compreendendo as entradas e saídas do bate-papo LLaMA v2

Compreender o que entra e sai de um modelo é a chave para alavancar seus recursos de forma eficaz. Portanto, vamos nos familiarizar com as entradas e saídas do modelo.

entradas

O modelo aceita as seguintes entradas:


  1. prompt (string): O prompt para enviar ao Llama v2.


  2. max_length (inteiro): O número máximo de tokens a serem gerados. Tenha em mente que uma palavra é geralmente 2-3 fichas. O valor padrão é 500.


  3. temperature (número): Ajusta a aleatoriedade das saídas. Maior que 1 é aleatório e 0 é determinístico. Um bom valor inicial é 0,75.


  4. top_p (número): durante a decodificação de texto, ele amostra da porcentagem p superior dos tokens mais prováveis. Diminua para ignorar tokens menos prováveis. O valor padrão é 1.


  5. repetition_penalty (number): Fornece penalidade para palavras repetidas no texto gerado. 1 não é penalidade. Valores maiores que 1 desencorajam a repetição, menores que 1 a encorajam.


  6. debug (booleano): usado para fornecer saída de depuração em logs.


Observe que os criadores do modelo recomendam que você siga esta estrutura ao criar seu prompt:

 User: <your prompt goes here> Assistant:


Por exemplo...

 User: give me tips on things to do in Maine Assistant:

Saídas do Modelo

O modelo produz a seguinte saída:


  1. Um esquema JSON bruto, catalogando a estrutura de saída - uma matriz de strings a ser usada para computação posterior ou interface do usuário. Aqui está um exemplo do esquema de saída:
 { "type": "array", "items": { "type": "string" }, "title": "Output", "x-cog-array-type": "iterator", "x-cog-array-display": "concatenate" }


Agora, vamos fazer a transição para o âmago da questão de como usar esse modelo.

Usando o bate-papo LLaMA v2 para gerar conclusões de bate-papo naturais

Quer você seja um novato que se interessa por código ou um veterano experiente, usar o modelo llama13b-v2-chat para criar conclusões de bate-papo realistas pode ser muito divertido.


Use este link de demonstração para interagir com a interface do modelo e entender seu funcionamento se você estiver apenas brincando e quiser ter uma ideia de como ele funciona. Quando estiver pronto para implementá-lo em seu projeto, siga as etapas abaixo.


Primeiramente, você precisará configurar seu ambiente instalando o cliente Node.js:

 npm install Replicate


Em seguida, autentique seu token de API e defina-o como uma variável de ambiente. Este token é pessoal e, portanto, deve ser mantido em sigilo:

 export REPLICATE_API_TOKEN=r8_******


Em seguida, você pode executar o modelo com o seguinte script:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", { input: { prompt: "..." } } );


Você também pode definir um webhook para ser chamado quando sua previsão estiver concluída. Isso pode ser benéfico na manutenção de logs ou na configuração de alertas automáticos.

 const prediction = await replicate.predictions.create({ version: "df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", input: { prompt: "..." }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

Para obter mais detalhes, você sempre pode consultar a documentação em Replicate .

Indo além: encontrando outros modelos de texto para texto com AIModels.fyi

Quer explorar alguns outros chatbots para seu aplicativo? Encontrar modelos semelhantes ao llama13b-v2-chat é fácil quando você está usando AIModels.fyi .


Aqui está um guia passo a passo para ajudá-lo a encontrar outros modelos de IA que atendam às suas necessidades específicas:

Passo 1: Visite AIModels.fyi

Acesse AIModels.fyi para começar sua exploração.

Etapa 2: use a barra de pesquisa

Digite frases-chave como "texto para texto", "modelos de linguagem" etc. O mecanismo de pesquisa fornecerá uma lista de modelos adequados à sua consulta.

Passo 3: Filtre os Resultados

Os filtros para restringir sua pesquisa podem ser encontrados na página de resultados da pesquisa. Você pode filtrar e classificar os modelos por tipo, custo, popularidade ou até mesmo por criadores específicos. Por exemplo, se você estiver procurando por um modelo de texto para texto econômico, poderá classificar os modelos por preço para encontrar a opção mais barata.

Conclusão

Neste guia, exploramos o potencial do LLaMA v2, um modelo de linguagem econômico e rico em recursos. É a espinha dorsal potencial para o seu próximo aplicativo de bate-papo, alimentando conversas diferenciadas e realistas. Agora você sabe como implementar esse modelo, entender suas entradas/saídas e gerar efetivamente conclusões de chat relevantes.


Você pode achar esses outros guias úteis à medida que continua a desenvolver seu conhecimento:


Ao pegar sua imaginação e fundi-la com essas ferramentas de IA, você se lança no vasto universo da inteligência artificial, criando novos e empolgantes projetos. Estamos ansiosos para ver onde você irá a seguir. Não se esqueça de se inscrever para mais tutoriais, para manter-se atualizado sobre modelos de IA novos e aprimorados e alimentar sua criatividade para seu próximo projeto de IA. Até então, feliz aventura de IA e lembre-se de dizer olá no meu twitter .


Inscreva-se ou siga-me no Twitter para mais conteúdo como este!