Как стать автором
Обновить
3.75

Семантика *

Веб 3.0

Сначала показывать
Порог рейтинга
Уровень сложности

Семантический поиск и генерация текста на R. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.9K

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Читать далее

<dl> или <table>? Исследуем подходы к представлению пар ключ-значение в HTML

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.3K

Казалось бы, простая задача - сверстать список пар ключ-значение. Бери <div> и делай. Но что, если захотелось подушнить? Этим и займёмся в статье...
Рассмотрим три подхода к решению этой задачи: <div>, <dl>, <dt>, и <dd>, и <table>. Обсудим преимущества, недостатки и примеры.
Цель - помочь выбрать наиболее подходящий подход для конкретной задачи.

Читать далее

На чем основана логика? Часть 2. Математическая модель полисиллогистики

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.8K

В первой части было рассказано об алгебре множеств, рассматриваемой в качестве оснований классической логики и показано, как можно обосновать без аксиом законы алгебры множеств, которые полностью соответствуют законам классической логики.

В Части 2 будут показаны недостатки и некорректности силлогистики, а также рассмотрена новая, основанная на законах алгебры множеств, математическая модель полисиллогистики, в которую добавлены новые методы логического анализа, включающие распознавание ошибок в рассуждении и методы получения абдуктивных заключений.

Читать далее

На чем основана логика? Часть 1. Алгебра множеств без аксиом

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров7.7K

Сразу начну с гипотезы, положенной в основу данной статьи: вся классическая логика основана на множествах, точнее, на алгебре множеств. Должен сказать, что в современной логике и математике эта гипотеза считается ошибочной, так как еще на рубеже XIX и XX столетий сложилось убеждение (точнее, заблуждение), что понятие «множество» противоречиво. Мне представляется, что настала пора избавляться от этого и некоторых других заблуждений, связанных с логикой.

Читать далее

Истории

Свежий Google Gemini, GPT-4 и математика

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров25K

Итак, Google всё‑таки решилась выпустить в свет языковую модель Gemini не дожидаясь Нового Года, и, конечно, обещая революцию. Она де превосходит все публично доступные модели, и местами превосходит людей. Отдельной её особенностью является мультимодальность (в частности способность работать с изображениями и видео) в почти реалтайм режиме, чему есть довольно впечатляющие демонстрации.

Давайте же сравним её с флагманом OpenAI/Microsoft — GPT-4, на трудном поле математики.

Читать далее

Реальность существует и это надо учитывать

Время на прочтение11 мин
Количество просмотров28K

Я полгода собирался написать эту статью и одной из причин постоянного откладывания её написания было то, что я не знал как её начать. Поэтому, начну банально.

Привет, меня зовут Михаил Елисейкин, я более 20 лет в IT, более 20 лет изучаю историю техники, и сейчас хочу сказать, что эти два профессиональных сообщества объединяю не только я, но и общая распространённая проблема - игнорирование реальности.

Это и в самом деле именно так: имея данные о статистике производства, материалах на входе, продукции на выходе, бухгалтерской отчётности и т.д., и историк и айтишник делают одно и то же - создают модель предприятия как производственного процесса:

Читать далее

Алгебра совокупностей Брусенцова и не только

Уровень сложностиСредний
Время на прочтение39 мин
Количество просмотров7K

Все, кто когда-либо интересовались трёхзначной логикой, троичной системой счисления или архитектурой троичных компьютеров, рано или поздно натыкались на труды Брусенцова Николая Петровича, в особенности 3 его самые известные книги:

1) Брусенцов Н.П. Начала информатики, 1994.

2) Брусенцов Н.П. Искусство достоверного рассуждения. Неформальная реконструкция аристотелевой силогистики и булевой математики мысли, 1998.

3) Брусенцов Н.П. Блуждание в трёх соснах (Приключения диалектики в информатике), 2000.

Для тех, кто не в курсе, Брусенцов Николай Петрович - главный конструктор первой в мире и Советском Союзе троичной ЭВМ "Сетунь". Об этом хорошем человеке можно найти достаточно много информации в открытых источниках. Но сейчас речь не о нём, а о разработанной им алгебре совокупностей (алгебре дизъюнктов), которая фигурирует в качестве фундамента во всех 3-х упомянутых выше книгах. К слову сказать, сами книги не являются учебниками по чистой математике или информатике. Они освещают проблемы злоупотребления формализмом в современной математической логике, а также содержат пути к возрождению и развитию аристотелевой силогистики. Мотивацией к написанию данной статьи послужило то, что каждую книгу пришлось прочитать раза по три, прежде чем в голове сложилась более или менее цельная картина. Этому также поспособствовало обилие терминологии, более присущей философским трактатам, нежели учебникам по математике. Поэтому цель данной статьи - получить представление об этой алгебре и облегчить чтение вышеуказанных книг. Статья носит обзорный характер, знакомит читателя с некоторыми понятиями (акценты расставлены жирным шрифтом) и пытается ответить на вопросы, неосвещённые в книгах явно.

Читать далее

ТОП-5 антисоветов для владельцев бизнеса, которые не хотят зарабатывать деньги

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.8K

Мы с ребятами в агентстве уверены: чтобы брать — нужно отдавать. А вот некоторые клиенты считают наоборот. Поэтому, исходя из собственного опыта, мы решили поделиться советами, которым следовать не нужно. Разумеется, если вы хотите расти в прибыли.

Читать далее

Как с помощью Мастера кампаний при сокращении бюджета уменьшить стоимость лида из Директа с 2500 до 344 р?

Время на прочтение3 мин
Количество просмотров1.9K

Я и мои коллеги в агентстве стабильно приводили производителю трубопроводной запорной арматуры лиды по 600–800 р. Клиента всё устраивало. Внезапно стоимость увеличилась до 2500 р. «Немыслимо» —подумали мы. «Невозможно» — ответил клиент. Делать нечего: стали разбираться, почему так произошло, и как это быстро исправить. Вот что из этого вышло…

Читать далее

Фрилансеры vs агентство: как не угробить SEO и сразу сделать все правильно?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

Тренд последних лет ‒ обращение к SEO-специалистам, которые работают на фрилансе, а не в агентстве. Но так ли это безопасно, и не придется ли платить дважды? Ко мне в агентство обратился клиент, который бежал со всех ног от такого SEO-фрилансера. Давайте объясню подробнее…

Читать далее

Алгоритм поиска ключевых словосочетаний «на пальцах». Анализируем новости

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров5.6K

В современном мире объем данных в интернете постоянно растет с огромной скоростью. Возникает логичный вопрос: как ориентироваться в этом информационном потоке? 

Чтобы упростить себе задачу поиска и обобщения информации IT-энтузиасты применяют технологии генеративно обученных чат-ботов. Наиболее широкое распространение получил  ChatGPT. Яндекс, в свою очередь, добавил в браузер YandexGPT, который позволяет тезисно ознакомиться с содержанием страницы. Всё чаще вакансия Prompt-инженера начинает встречаться на hh и Хабр Карьере. Специалисты и чат-боты помогают конечному пользователю экономить время для поиска необходимой информации. 

Но что делать, если возможности обратиться за помощью к подобным технологиям нет? Указанные выше языковые модели нельзя интегрировать в собственные проекты, сценариев их использования много, но они всё равно ограничены. 

В статье мы расскажем, как (не без нейронных сетей) можно создать простой алгоритм на Python, который поможет извлекать ключевые слова из любого текста, тем самым избавляться от ненужной информации и автоматизировать процесс анализа материалов. Мы будем работать с русским текстом, а именно — с новостными постами. Поэтому в частном случае используются пакеты для обработки, поддерживающие именно русский язык. В том числе используются модели, обученные на корпусах текстов с новостной семантикой. 

Читать далее

Какие результаты можно получить от SEO на примере реальных клиентов?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.3K

«Не могу решиться на SEO, вера не позволяет. А если серьезно, то специалисты закидывают меня какими-то обещаниями и сроками в 3 месяца. Ничего не понятно: что я получу, зачем столько ждать?». Лично я слышал и такие истории. Решить их можно, но нужно знать как. Давайте разбираться.

Читать далее

Приложения алгебры кортежей. Часть 2. Математическая модель вопроса

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.4K

В предыдущей части рассматривалась новая система счисления, в обосновании которой использовались некоторые соотношения алгебры кортежей.

Об алгебре кортежей (АК) и ее использовании для логико-семантического анализа было рассказано в моей статье в Хабре. В комментариях к статье предлагалось обратить внимание на функцию SELECT в языке SQL, которая соответствует операции Selection (Выборка) в реляционной алгебре. Эта операцию можно рассматривать как один из вариантов математической модели вопроса.

Предлагаемый здесь вариант смысла вопроса заключается в том, что в вопросе заданы некоторые ограничения (область знания, ситуация, значения некоторых атрибутов и т.д.), которые требуется использовать для того, чтобы найти или вычислить значение определенного атрибута или проверить правильность заданных в вопросе соотношений. Эта семантика применима к восполняющим вопросам типа «Что?», «Где?», «Когда?», к уточняющим вопросам типа «Верно ли, что А?» и к ИЛИ-вопросам типа «Что правильно: А или Б?». Назовем такие вопросы ограничительными. Их можно считать вариантами известной в искусственном интеллекте задачи удовлетворения ограничений.

Читать далее

Ближайшие события

4 – 5 апреля
Геймтон «DatsCity»
Онлайн
8 апреля
Конференция TEAMLY WORK MANAGEMENT 2025
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Как рассказать о сайте поисковой системе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.7K

Сайт написан, домен куплен, так почему же я до сих пор не вижу его в Google/Yandex?

В этой статье Вы узнаете как поисковые системы определяют ваш сайт и как же его добавить в поиск.

Читать далее

Разница между Data Race и Race Condition

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров16K

Рассмотрим разницу между популярными ошибками при работе с многопоточностью, такими как Data Race и Race Condition, а также способами борьбы с ними.

Читать далее

Семантики доставки событий в распределенных системах

Время на прочтение9 мин
Количество просмотров14K

Павел Агалецкий, ведущий разработчик в юните Platform as a Service в Авито, рассказал про семантики или гарантии доставки сообщений, и почему с ними не всегда просто разобраться.

Читать далее

5 стадий принятия или как мы снизили стоимость обращения в нише трубопроводной арматуры с Директа в 3,5 раза

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров944

Торг, депрессия, принятие… Все проходят в определенный период жизни эти стадии. И мы с агентством не исключение. Нам достался проект, в котором мы в полной мере ощутили эти периоды. Но! Несмотря на это мы снизили стоимость целевого обращения в 3,5 раза. Представьте, лид стоил 1781, а стал 509. И кстати, за месяц их получилось целых 94 штуки. Читайте в материале, что и к чему.

Читать далее

Почему подрядчики по digital-маркетингу все время лажают и как это исправить?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.3K

Как же задолбало перебирать подрядчиков по маркетингу — директологи, таргетологи, SEO-шники. Все говорят: “количество лидов вырастет, а продажи полетят, как ракета!”. На деле — ракета оказывается картонной, и нифига не летит. В этой статье я хочу беспристрастно посмотреть, почему так происходит и где тут SYSTEM ERROR.

Читать далее

Дифференциальная сеть — формальная система для формальных систем

Время на прочтение17 мин
Количество просмотров1.7K

Сколько раз при изобретении очередного метода обработки структурированных данных наталкиваешься на мысль о дежавю? Работа со списками файлов, словарями имен, объектными полями, связывание разнотипных данных. В каждом новом более удобном или более быстром переизобретении проглядывается что-то общее, непреходящее. Концептуальное ядро, связующее все возможные производные множества и включающее их в свою орбиту. Что-то чему язык затрудняется сходу подобрать название, а мозг очертить предельные границы. Одновременно всеобъемлющая и при этом неуловимо малая деталь. Абсолютная абстракция. Линейный примитив.

Читать далее

Запустили Директ и нет лидов? 7 шагов базовой оптимизации рекламы

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.6K

К нам в агентство часто обращаются клиенты с проблемой — запустили контекстную рекламу, а она не работает. Рекламные бюджеты сливаются, заявки отсутствуют (в некоторых случаях их мало и они дорогие). В общем, реклама не окупается, поставленные KPI не достигаются. Почему же контекст не работает? А главное — как это исправить, чтобы заявки наконец пошли?

Читать далее