【快播报】【原】快速温故 LightGBM,十问十答
tips:本文为GPT-4生成1 什么是LightGBM?LightGBM(Light Gradient Boosting Machine)是一种梯度
LightGBM(Light Gradient Boosting Machine)是一种梯度提升树(Gradient Boosting Decision Tree, GBDT)算法的高效实现。它由微软开发,主要应用于分类、回归和排序任务。
LightGBM与XGBoost都是基于GBDT的高效实现,主要的区别在于:
(资料图片)
LightGBM使用Histogram-based算法,减少内存使用和提高计算速度。
LightGBM采用带深度限制的Leaf-wise生长策略,而XGBoost采用Level-wise生长策略。Leaf-wise策略可以降低模型过拟合的风险,但可能导致不平衡的树结构。
LightGBM支持类别特征,无需单独进行独热编码。
使用pip安装:
pipinstalllightgbm
或者从源代码编译安装:
gitclone--recursivehttps://github.com/microsoft/LightGBMcdLightGBMmkdirbuildcdbuildcmake..make-j$(nproc)makeinstall
首先,需要导入lightgbm
库并准备数据:
importlightgbmaslgbimportnumpyasnpimportpandasaspd#加载数据train_data=lgb.Dataset(X_train,label=y_train)valid_data=lgb.Dataset(X_valid,label=y_valid,reference=train_data)
接下来,设置模型参数:
params={"boosting_type":"gbdt","objective":"binary","metric":"binary_logloss","num_leaves":31,"learning_rate":0.05,"feature_fraction":0.9,"bagging_fraction":0.8,"bagging_freq":5,"verbose":0}
最后,训练模型:
gbm=lgb.train(params,train_data,num_boost_round=20,valid_sets=valid_data,early_stopping_rounds=5)
y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)
LightGBM可以自动处理缺失值。在分裂节点时,LightGBM会将缺失值分到增益最大的一侧。
在创建数据集时,可以通过categorical_feature
参数设置类别特征:
train_data=lgb.Dataset(X_train,label=y_train,categorical_feature=["col1","col2"])
主要的调参参数包括:
num_leaves
:叶子节点数量,决定了树的复杂度。
min_data_in_leaf
:叶子节点最小样本数,避免过拟合。
max_depth
:树的最大深度。
learning_rate
:学习率。
feature_fraction
:特征采样比例。
bagging_fraction
:样本采样比例。
bagging_freq
:进行Bagging的频率。
lambda_l1
和lambda_l2
:L1和L2正则化。
使用lgb.cv()
函数进行交叉验证:
cv_results=lgb.cv(params,train_data,num_boost_round=100,nfold=5,stratified=False,shuffle=True,metrics="rmse",early_stopping_rounds=10,verbose_eval=50,show_stdv=True,seed=0)
主要损失函数包括:
回归任务 - l2
: 均方误差(默认)
l1
: 平均绝对误差
huber
: Huber损失
fair
: Fair损失
quantile
: 分位数回归损失
mape
: 平均绝对百分比误差
poisson
: 泊松回归损失
gamma
: Gamma回归损失
tweedie
: Tweedie回归损失
二分类任务
binary
: 二进制对数损失(默认)
cross_entropy
: 交叉熵损失
多分类任务
multiclass
: 多类别对数损失(默认)
multiclassova
: 多类别单一二分类器损失
排序任务
lambdarank
: LambdaMART排序损失
你可以通过在params
字典中设置objective
参数来选择损失函数。
基于ChatGPT,论文写作工具
国内可用 ChatGPT 客户端下载
数据分析入门:统计学基础知识总结
可能是全网最全的速查表:Python Numpy Pandas Matplotlib 机器学习 ChatGPT
关键词:
tips:本文为GPT-4生成1 什么是LightGBM?LightGBM(Light Gradient Boosting Machine)是一种梯度
【来源:中国教育在线浙江分站_高校动态】“望京门的历史你了解吗?”“平时的社区实践活动是怎么开展的?
1、情何以堪意思:感情又怎么能承受这种打击呢?就是说感情上受不了,常用来表示难过、惶恐、尴尬等多种意思
自贡市组队参加2023年美丽中国全国门球大赛(四川荣县站)比赛2023美丽中国全国门球大赛(荣县站)于5月1
1、1 腹泻发生在环境改变后的4-14天内(时间长短取决于饮食结构和其中的病原体数量)。2、2 除了腹泻,通常还
"> 伊滨区教体局中小学教研室关于公布伊滨区2023年度优质课比赛获奖名单的通知_新闻中心_洛阳网
1、儿童电动投币摇摇机设置成不用投币或带遥控带按钮开关,把摇摇车投币器拿出来投币器三根线子剪开去掉一
周口日报全媒体记者张志新记者刚刚获悉,6月2日10时22分,项城市气象局发布大风蓝色预警信号:预计未来24小
14分钟破亿,追觅618开门红强势领跑行业---
吕文开编译近日,日本医疗经济研究所在《英国医学委员会公共健康》上发表的一项调查显示,出行仅乘坐交通工
本次拟出让地块52宗,总用地面积233 8公顷,包含了首批清单未出让的7宗地块,环比首批计划供应73宗地块(总
速途网6月2日讯(报道:乔志斌)今日,有媒体报道称,微软与专注于GPU云计算的初创公司CoreWeave签署了一项
截至发稿,华凯易佰涨超13%,焦点科技、青木股份、丽人丽妆等跟涨。6月2日,互联网电商板块表现活跃,截至
1、东北三省包括黑龙江、吉林、辽宁三省,是我国的老工业基地和粮食主产区,呵呵~~~东北是指的3个省的。2、
自己的困难是自己的困难,就跟自己的情绪由自己掌握一般。任由情绪发展,就容易变成情绪化的人,便容易
黄花菜和什么食物搭配最好没有明确规定黄花菜口感较韧,且有清香,与猪肉、鸡肉、鸡蛋、黑木耳、莴笋等一同
为迎接六一国际儿童节和成都大运会的到来,2023年5月31日,成都市双流区九江新城第一幼儿园第一届“乐美创
6月1日,良品铺子(603719)融资买入142 06万元,融资偿还336 34万元,融资净卖出194 27万元,融资余额1 58
6月1日,哔哩哔哩(B站)公布了截至2023年3月31日的第一季度未经审计的财务报告。财报显示,第一季度B站总
从小就在辽宁训练乒乓球的福原爱,对中国和东北更是感情深厚,满口的东北大茬子味比东北人还地道,不少网友
1、铁丝开锁:将铁丝伸进钥匙锁芯中,转动铁丝即可开锁。2、寻找开锁公司:自己尝试后还是无法打不开的,可
格隆汇6月2日丨丰元股份(002805 SZ)参加券商策略会,交流环节中,就“公司今年磷酸铁锂产能建设进度如何?
百亿营收后下一程新乳业并购策略调整
大家好,小福来为大家解答以上的问题。石兰惊艳的图片,石兰这个很多人还不知道,现在让我们一起来看看吧!1
近日,“硬科技”旗舰产品科创50ETF总规模持续稳步增长,5月底收盘已突破千亿大关,达到1023亿
Copyright 2015-2022 亚太酒业网 版权所有 备案号:沪ICP备2020036824号-11 联系邮箱: 562 66 29@qq.com