Working shit

* /status works * starting up works * Config works * /ollama works * autocomplete works * downloading works * threads work * images work
2024-06-10 03:14:52 +01:00 · 2024-06-10 03:14:52 +01:00 · 2b4c324ba6
commit 2b4c324ba6
parent e45e87167f
8 changed files with 547 additions and 1 deletions
--- a/.gitignore
+++ b/.gitignore
@ -281,3 +281,5 @@ pyrightconfig.json
 .ionide
 # End of https://www.toptal.com/developers/gitignore/api/python,visualstudiocode,pycharm+all
 .venv/
 default.db
--- a/config.toml
+++ b/config.toml
@ -0,0 +1,31 @@
 [bot]
 token = "MTI0OTUwNjU1ODIwODExNDgxMA.G_JIT7.R2R_1-2IHhdzEf6mHUgIa82oyRuwonBRrkd_Pc"
 debug_guilds = [1106243455816052847]
 [servers]
 order = ["SpeedySHRoNK", "IvyPC", "nextop-ts", "optiplex", "shronk"]
 [servers.SpeedySHRoNK]
 base_url = "http://ollama.shronk.net:11434"
 gpu = true
 vram_gb = 10
 [servers.IvyPC]
 base_url = "http://192.168.0.26:11435"
 gpu = true
 vram_gb = 8
 [servers.nextop-ts]
 base_url = "http://laptop-linux.fluffy-gentoo.ts.net:11434"
 gpu = true
 vram_gb = 4
 [servers.optiplex]
 base_url = "http://192.168.0.254:11434"
 gpu = false
 vram_gb = 16
 [servers.shronk]
 base_url = "http://ollama.shronk.net:11434"
 gpu = false
 vram_gb = 16
--- a/jimmy/cogs/chat.py
+++ b/jimmy/cogs/chat.py
@ -0,0 +1,328 @@
 import asyncio
 import io
 import logging
 import time
 import typing
 import contextlib
 from fnmatch import fnmatch
 import discord
 from discord import Interaction
 from ollama import AsyncClient, ResponseError, Options
 from discord.ext import commands
 from jimmy.utils import async_ratio, create_ollama_message
 from jimmy.config import get_servers, ServerConfig, get_server
 from jimmy.db import OllamaThread
 from humanize import naturalsize
@contextlib.asynccontextmanager
 async def ollama_client(host: str, **kwargs) -> AsyncClient:
    host = str(host)
    client = AsyncClient(host, **kwargs)
    try:
        yield client
    finally:
        # Ollama doesn't auto-close the client, so we have to do it ourselves.
        await client._client.aclose()
 class StopDownloadView(discord.ui.View):
    def __init__(self, ctx: discord.ApplicationContext):
        super().__init__(timeout=None)
        self.ctx = ctx
        self.event = asyncio.Event()
    async def interaction_check(self, interaction: Interaction) -> bool:
        return interaction.user == self.ctx.user
    @discord.ui.button(label="Cancel", style=discord.ButtonStyle.danger)
    async def cancel_download(self, _, interaction: discord.Interaction):
        self.event.set()
        self.stop()
        await interaction.response.edit_message(view=None)
 async def get_available_tags_autocomplete(ctx: discord.AutocompleteContext):
    chosen_server = get_server(ctx.options.get("server") or get_servers()[0].name)
    async with ollama_client(str(chosen_server.base_url), timeout=2) as client:
        tags = (await client.list())["models"]
    return [tag["model"] for tag in tags if ctx.value.casefold() in tag["model"].casefold()]
 _ServerOptionChoices = [discord.OptionChoice(server.name, server.name) for server in get_servers()]
 class Chat(commands.Cog):
    def __init__(self, bot):
        self.bot = bot
        self.server_locks = {}
        for server in get_servers():
            self.server_locks[server.name] = asyncio.Lock()
        self.log = logging.getLogger(__name__)
    @commands.slash_command()
    async def status(self, ctx: discord.ApplicationContext):
        """Checks the status on all servers."""
        await ctx.defer()
        def decorate_name(_s: ServerConfig):
            if _s.gpu:
                return f"{_s.name} (\u26A1)"
            return _s.name
        embed = discord.Embed(
            title="Ollama Statuses:",
            color=discord.Color.blurple()
        )
        fields = {}
        for server in get_servers():
            if server.throttle and self.server_locks[server.name].locked():
                embed.add_field(
                    name=decorate_name(server),
                    value=f"\N{closed lock with key} In use.",
                    inline=False
                )
                fields[server] = len(embed.fields) - 1
                continue
            else:
                embed.add_field(
                    name=decorate_name(server),
                    value=f"\N{hourglass with flowing sand} Waiting...",
                    inline=False
                )
                fields[server] = len(embed.fields) - 1
        await ctx.respond(embed=embed)
        tasks = {}
        for server in get_servers():
            if server.throttle and self.server_locks[server.name].locked():
                continue
            tasks[server] = asyncio.create_task(server.is_online())
        await asyncio.gather(*tasks.values())
        for server, task in tasks.items():
            if task.result():
                embed.set_field_at(
                    fields[server],
                    name=decorate_name(server),
                    value=f"\N{white heavy check mark} Online.",
                    inline=False
                )
            else:
                embed.set_field_at(
                    fields[server],
                    name=decorate_name(server),
                    value=f"\N{cross mark} Offline.",
                    inline=False
                )
        await ctx.edit(embed=embed)
    @commands.slash_command(name="ollama")
    async def start_ollama_chat(
            self,
            ctx: discord.ApplicationContext,
            prompt: str,
            system_prompt: typing.Annotated[
                str | None,
                discord.Option(
                    discord.SlashCommandOptionType.string,
                    description="The system prompt to use.",
                    default=None
                )
            ],
            server: typing.Annotated[
                str,
                discord.Option(
                    discord.SlashCommandOptionType.string,
                    description="The server to use.",
                    choices=_ServerOptionChoices,
                    default=get_servers()[0].name
                )
            ],
            model: typing.Annotated[
                str,
                discord.Option(
                    discord.SlashCommandOptionType.string,
                    description="The model to use.",
                    autocomplete=get_available_tags_autocomplete,
                    default="llama3:latest"
                )
            ],
            image: typing.Annotated[
                discord.Attachment | None,
                discord.Option(
                    discord.SlashCommandOptionType.attachment,
                    description="The image to use for llava.",
                    default=None
                )
            ],
            thread_id: typing.Annotated[
                str | None,
                discord.Option(
                    discord.SlashCommandOptionType.string,
                    description="The thread ID to continue.",
                    default=None
                )
            ]
    ):
        """Have a chat with ollama"""
        await ctx.defer()
        server = get_server(server)
        async with self.server_locks[server.name]:
            if not await server.is_online():
                await ctx.respond(
                    content=f"{server} is offline.",
                    delete_after=60
                )
                return
            async with ollama_client(str(server.base_url)) as client:
                client: AsyncClient
                self.log.info("Checking if %r has the model %r", server, model)
                tags = (await client.list())["models"]
                if model not in [x["model"] for x in tags]:
                    embed = discord.Embed(
                        title=f"Downloading {model} on {server}.",
                        description=f"Initiating download...",
                        color=discord.Color.blurple()
                    )
                    view = StopDownloadView(ctx)
                    await ctx.respond(
                        embed=embed,
                        view=view
                    )
                    last_edit = 0
                    async with ctx.typing():
                        try:
                            last_completed = 0
                            last_completed_ts = time.time()
                            async for line in await client.pull(model, stream=True):
                                if view.event.is_set():
                                    embed.add_field(name="Error!", value="Download cancelled.")
                                    embed.colour = discord.Colour.red()
                                    await ctx.edit(embed=embed)
                                    return
                                self.log.info("Response from %r: %r", server, line)
                                if line["status"] in {
                                    "pulling manifest",
                                    "verifying sha256 digest",
                                    "writing manifest",
                                    "removing any unused layers",
                                    "success"
                                }:
                                    embed.description = line["status"].capitalize()
                                else:
                                    total = line["total"]
                                    completed = line.get("completed", 0)
                                    percent = round(completed / total * 100, 1)
                                    pb_fill = "▰" * int(percent / 10)
                                    pb_empty = "▱" * (10 - int(percent / 10))
                                    bytes_per_second = completed - last_completed
                                    bytes_per_second /= (time.time() - last_completed_ts)
                                    last_completed = completed
                                    last_completed_ts = time.time()
                                    mbps = round((bytes_per_second * 8) / 1024 / 1024)
                                    progress_bar = f"[{pb_fill}{pb_empty}]"
                                    ns_total = naturalsize(total, binary=True)
                                    ns_completed = naturalsize(completed, binary=True)
                                    embed.description = (
                                        f"{line['status'].capitalize()} {percent}% {progress_bar} "
                                        f"({ns_completed}/{ns_total} @ {mbps} Mb/s)"
                                    )
                                if time.time() - last_edit >= 2.5:
                                    await ctx.edit(embed=embed)
                                    last_edit = time.time()
                        except ResponseError as err:
                            if err.error.endswith("file does not exist"):
                                await ctx.edit(
                                    embed=None,
                                    content="The model %r does not exist." % model,
                                    delete_after=60,
                                    view=None
                                )
                            else:
                                embed.add_field(
                                    name="Error!",
                                    value=err.error
                                )
                                embed.colour = discord.Colour.red()
                                await ctx.edit(embed=embed, view=None)
                            return
                        else:
                            embed.colour = discord.Colour.green()
                            embed.description = f"Downloaded {model} on {server}."
                            await ctx.edit(embed=embed, delete_after=30, view=None)
                messages = []
                if thread_id:
                    thread = await OllamaThread.get_or_none(thread_id=thread_id)
                    if thread:
                        for msg in thread.messages:
                            messages.append(
                                await create_ollama_message(msg["content"], role=msg["role"])
                            )
                    else:
                        await ctx.respond(content="No thread with that ID exists.", delete_after=30)
                if system_prompt:
                    messages.append(await create_ollama_message(system_prompt, role="system"))
                messages.append(await create_ollama_message(prompt, images=[await image.read()] if image else None))
                embed = discord.Embed(title=f"{model}:", description="")
                view = StopDownloadView(ctx)
                msg = await ctx.respond(
                    embed=embed,
                    view=view
                )
                last_edit = time.time()
                buffer = io.StringIO()
                async for response in await client.chat(
                    model,
                    messages,
                    stream=True,
                    options=Options(
                        num_ctx=4096,
                        low_vram=server.vram_gb < 8,
                        temperature=1.5
                    )
                ):
                    self.log.info("Response from %r: %r", server, response)
                    buffer.write(response["message"]["content"])
                    if len(buffer.getvalue()) > 4096:
                        value = "... " + buffer.getvalue()[4:]
                    else:
                        value = buffer.getvalue()
                    embed.description = value
                    if view.event.is_set():
                        embed.add_field(name="Error!", value="Chat cancelled.")
                        embed.colour = discord.Colour.red()
                        await msg.edit(embed=embed, view=None)
                        return
                    if time.time() - last_edit >= 2.5:
                        await msg.edit(embed=embed, view=view)
                        last_edit = time.time()
                embed.colour = discord.Colour.green()
                if len(buffer.getvalue()) > 4096:
                    file = discord.File(
                        io.BytesIO(buffer.getvalue().encode()),
                        filename="full-chat.txt"
                    )
                    embed.add_field(
                        name="Full chat",
                        value="The chat was too long to fit in this message. "
                              f"You can download the `full-chat.txt` file to see the full message."
                    )
                else:
                    file = discord.utils.MISSING
                thread = OllamaThread(
                    messages=[{"role": m["role"], "content": m["content"]} for m in messages],
                )
                await thread.save()
                embed.set_footer(text=f"Chat ID: {thread.thread_id}")
                await msg.edit(embed=embed, view=None, file=file)
 def setup(bot):
    bot.add_cog(Chat(bot))
--- a/jimmy/config.py
+++ b/jimmy/config.py
@ -0,0 +1,69 @@
 import tomllib
 import logging
 from typing import Callable
 import httpx
 from pydantic import BaseModel, Field, AnyHttpUrl
 log = logging.getLogger(__name__)
 class ServerConfig(BaseModel):
    name: str = Field(min_length=1, max_length=32)
    base_url: AnyHttpUrl
    gpu: bool = False
    vram_gb: int = 4
    throttle: bool = False
    def __repr__(self):
        return "<ServerConfig name={0.name} base_url={0.base_url} gpu={0.gpu!s} vram_gb={0.vram_gb}>".format(self)
    def __str__(self):
        return self.name
    async def is_online(self) -> bool:
        """
        Checks that the current server is online and responding to requests.
        """
        async with httpx.AsyncClient(base_url=str(self.base_url)) as client:
            try:
                response = await client.get("/api/tags")
                return response.status_code == 200
            except httpx.RequestError:
                return False
    def __hash__(self):
        return hash(self.base_url)
 def get_servers(filter_func: Callable[[ServerConfig], bool] = None) -> list[ServerConfig]:
    config = get_config()
    keys = list(config["servers"].keys())
    log.info("Servers: %r", keys)
    try:
        keys = config["servers"].pop("order")
        log.info("Ordered keys: %r", keys)
    except ValueError:
        pass
    servers = [ServerConfig(name=key, **config["servers"][key]) for key in keys]
    if filter_func:
        servers = list(filter(filter_func, servers))
    return servers
 def get_server(name_or_base_url: str) -> ServerConfig | None:
    servers = get_servers()
    for server in servers:
        if server.name == name_or_base_url or server.base_url == name_or_base_url:
            return server
    return None
 def get_config():
    with open("config.toml", "rb") as file:
        _loaded = tomllib.load(file)
    _loaded.setdefault("servers", {})
    _loaded["servers"].setdefault("order", [])
    _loaded.setdefault("bot", {})
    return _loaded
--- a/jimmy/db.py
+++ b/jimmy/db.py
@ -0,0 +1,13 @@
 import os
 from tortoise.models import Model
 from tortoise import fields
 class OllamaThread(Model):
    thread_id = fields.CharField(max_length=255, unique=True, default=lambda: os.urandom(4).hex())
    messages = fields.JSONField(default=[])
    created_at = fields.DatetimeField(auto_now_add=True)
    class Meta:
        table = "ollama_threads"
--- a/jimmy/main.py
+++ b/jimmy/main.py
@ -0,0 +1,53 @@
 import os
 import sys
 import logging
 import discord
 from discord.ext import commands
 from tortoise import Tortoise
 sys.path.extend("..")  # noqa: E402
 from .config import get_config
 log = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
 class SentientJimmy(commands.Bot):
    def __init__(self):
        intents = discord.Intents.default()
        # noinspection PyUnresolvedReferences
        intents.message_content = True
        super().__init__(
            commands.when_mentioned_or("."),
            intents=intents,
            case_insensitive=True,
            strip_after_prefix=True,
            debug_guilds=get_config()["bot"].get("debug_guilds"),
        )
        self.load_extension("jimmy.cogs.chat")
        self.load_extension("jishaku")
    async def start(self, token: str, *, reconnect: bool = True) -> None:
        is_docker = os.path.exists("/.dockerenv")
        default_db = "sqlite://:memory:" if is_docker else "sqlite://default.db"
        await Tortoise.init(
            db_url=get_config()["bot"].get("db_url", default_db),
            modules={"models": ["jimmy.db"]}
        )
        await Tortoise.generate_schemas()
        await super().start(token, reconnect=reconnect)
    async def close(self) -> None:
        await Tortoise.close_connections()
        await super().close()
    def run(self) -> None:
        token = get_config()["bot"]["token"]
        super().run(token)
 bot = SentientJimmy()
 if __name__ == "__main__":
    bot.run()
--- a/jimmy/utils.py
+++ b/jimmy/utils.py
@ -0,0 +1,47 @@
 import asyncio
 import typing
 from functools import partial
 from fuzzywuzzy.fuzz import ratio
 from ollama import Message
 __all__ = (
    'async_ratio',
    'create_ollama_message',
 )
 async def async_ratio(a: str, b: str) -> int:
    """
    Wraps fuzzywuzzy ratio in an async function
    :param a: str - first string
    :param b: str - second string
    :return: int - ratio of similarity
    """
    return await asyncio.to_thread(partial(ratio, a, b))
 async def create_ollama_message(
        content: str,
        role: typing.Literal["system", "assistant", "user"] = "user",
        images: typing.List[str | bytes] = None
 ) -> Message:
    """
    Create a message for ollama.
    :param content: str - the content of the message
    :param role: str - the role of the message
    :param images: list - the images to attach to the message
    :return: dict - the message
    """
    def factory(**kwargs):
        return Message(**kwargs)
    return await asyncio.to_thread(
        partial(
            factory,
            role=role,
            content=content,
            images=images
        )
    )
--- a/requirements.txt
+++ b/requirements.txt
@ -1,5 +1,8 @@
 py-cord~=2.5
-ollama-python~=0.1
+ollama~=0.2
 tortoise-orm[asyncpg]~=0.21
 uvicorn[standard]~=0.30
 fastapi~=0.111
 jishaku~=2.5
 fuzzywuzzy~=0.18
 humanize~=4.9