Como executar o Llama 3 localmente com o Ollama?

Ollama, uma ferramenta gratuita e de código aberto, permite a operação de vários modelos de linguagem de grande porte, como o Llama 3, em computadores pessoais, mesmo aqueles com capacidades limitadas. Ele utiliza llama.cpp, uma biblioteca de código aberto que otimiza o desempenho de LLMs em máquinas locais com demanda mínima de hardware. Ollama também possui um tipo de gerenciador de pacotes que simplifica o processo de download e ativação de LLMs de forma rápida e eficiente com um único comando.

Arruinando o Llama 3 localmente com Ollama passo a passo

Para começar, o passo inicial é instalar Ollamaque é compatível com os três principais sistemas operacionais, com a versão Windows atualmente em visualização.

Lhama 3: Tudo o que você precisa saber sobre o último LLM da Meta

Após a instalação, basta abrir seu terminal. O comando para ativar o Ollama é consistente em todas as plataformas suportadas.

ollama corre lhama3

Aguarde alguns minutos para que o modelo seja baixado e carregado, após os quais você poderá começar a interagir com ele!

Como executar o Llama 3 localmente com Ollama — Ollama, uma ferramenta gratuita e de código aberto, permite a operação de vários modelos de linguagem grandes, como o Llama 3 (Crédito da imagem)

API Ollama

Se você está pensando em incorporar o Ollama em seus projetos, ele fornece sua própria API e também uma compatível com OpenAI. Essas APIs facilitam o carregamento automático de um LLM armazenado localmente na memória, executando a inferência e descarregando-o após um período especificado.

No entanto, você deve primeiro baixar os modelos que deseja utilizar por meio da linha de comando antes de poder operar o modelo por meio da API.

ollama puxa lhama

Ollama também oferece APIs dedicadas, incluindo vários SDKs especificamente para Javascript e Python. Para uma tarefa básica de geração de texto usando a API, basta ajustar o parâmetro do modelo para o modelo desejado. Para obter instruções detalhadas, consulte a API oficial documentação.

curl http://localhost:11434/api/generate -d ‘{

“modelo”: “lhama”,

“prompt”:”o que é inteligência artificial?”

}’

Este é o método para realizar uma inferência de geração de chat usando a API.

curl http://localhost:11434/api/chat -d ‘{

“modelo”: “lhama”,

“mensagens”: [

{ “role”: “user”, “content”: “what is artificial intelligence?” }

]

}’

Como configurar o Ollama com WebUI?

Comece baixando e instalando Área de Trabalho Docker no seu computador para configurar um ambiente estável para a execução de aplicativos em contêineres. Após a instalação, abra seu terminal e execute o seguinte comando para extrair a imagem mais recente do Ollama do Docker Hub:

janela de encaixe execute -d

–nome ollama

-p 11434:11434

-v ollama_volume:/root/.ollama

ollama/ollama:mais recente

Este comando recupera a versão mais recente da imagem Ollama, completa com todas as bibliotecas e dependências necessárias para operar o modelo:

execução do docker: isso inicia a criação e inicialização de um novo contêiner Docker.
-d: ativa o modo desanexado, permitindo que o contêiner opere em segundo plano no seu terminal.
–nome ollama: atribui o nome “ollama” ao contêiner, o que simplifica futuras referências a ele por meio de comandos do Docker.
-p 11434:11434: mapeia a porta 11434 no contêiner para a porta 11434 no sistema host, facilitando a interação com o aplicativo dentro do contêiner por meio da porta especificada do sistema host.
-v ollama_volume:/root/.ollama: anexa um volume chamado “ollama_volume” a /root/.ollama dentro do contêiner para armazenamento persistente, garantindo que os dados permaneçam intactos durante reinicializações e recriações do contêiner. O Docker criará automaticamente “ollama_volume” se ainda não existir.
ollama/ollama:mais recente: especifica a imagem do contêiner, usando a versão “mais recente” da imagem “ollama/ollama” de um registro Docker, como o Docker Hub.

A seguir, para liberar a funcionalidade, digite este comando em seu terminal:

$ docker ps

aa492e7068d7 ollama/ollama:latest “/bin/ollama serve” 9 segundos atrás Até 8 segundos 0.0.0.0:11434->11434/tcp ollama

$ curl localhost: 11434

Ollama está correndo

Prossiga clonando o repositório oficial do Ollama WebUI:

clone do git https://github.com/ollama-webui/ollama-webui

cd ollama-webui

Em seguida, abra o arquivo Compose para visualizar a configuração YAML:

versão: ‘3.6’

Serviços:

oláma:

volumes:

– ollama:/root/.ollama

# Remova o comentário abaixo para expor a API Ollama fora da pilha do contêiner

# portas:

# – 11434:11434

nome_do_container: ollama

pull_policy: sempre

tty: verdade

reiniciar: a menos que seja parado

imagem: ollama/ollama:mais recente

ollama-webui:

construir:

contexto: .

argumentos:

OLLAMA_API_BASE_URL: ‘/ollama/api’

dockerfile: Dockerfile

imagem: ollama-webui:mais recente

nome_do_container: ollama-webui

depende de:

– olhama

portos:

– 3000:8080

ambiente:

– “OLLAMA_API_BASE_URL=http://ollama:11434/api”

hosts_extras:

–host.docker.internal:host-gateway

reiniciar: a menos que seja parado

volumes:

olama: {}

Antes de prosseguir com as próximas etapas, certifique-se de interromper o contêiner Ollama Docker usando este método:

docker compor -d

Navegue até Docker Dashboard, clique em Containers e em seguida clique na porta WebUI.

Agora você configurou com êxito o Ollama com sua WebUI em apenas dois minutos, evitando processos complexos de implantação de pod. Com esta configuração, você pode acessar uma ampla gama de recursos e funcionalidades através da WebUI. Envolva Ollama para gerar vários textos criativos, como poemas, códigos, roteiros, composições musicais, e-mails e cartas. Você também pode usá-lo para traduzir texto entre diferentes idiomas sem esforço ou receber assistência e sugestões de codificação.

Crédito da imagem em destaque: meta